資料關聯分析淺談

資料關聯分析淺談

在逛超市的時候我們能看到一些商品組合打包一起優惠銷售,例如洗髮水+沐浴露、泡麵+火腿腸、麵包+牛奶等樣式的組合,在這些產品組合的背後,其實有相應的營銷資料做支撐,而這背後涉及到的原理其實就是資料探勘中的

關聯分析

關聯分析

又稱

關聯挖掘

,是資料資訊挖掘領域最活躍的研究方法之一,最早在1993年被提出,

其目的是在交易資料、關係資料或其他資訊載體中,查詢存在於專案集合或物件集合之間的頻繁模式、關聯、相關性或因果結構。

這些潛在的規則刻畫了顧客購買行為模式,可以用來指導企業科學地安排進貨、庫存、貨架設計等。

這種透過研究已經產生的資料而將不同標的關聯起來並挖掘二者之間聯絡的分析方法,也就是被商場和電商領域通常提到並運用的

“購物籃分析”

相信大家都聽說過著名的

“啤酒與尿不溼”

的故事,這可以說是資料關聯分析的典型應用案例。

——

資料關聯的研究的物件包含範圍越廣,表面上沒有什麼相關性、但是實際上有潛在的內關聯價值的事物就越多。

當然,分析事物關聯關係也就意味著需要將眾多紛繁複雜的線索拆解清晰,量化為對工作有用的指標。

對於關聯分析,我們往往需要關注以下幾個

概念

指標

1.項集:

在關聯分析中,包含0個或多個專案的集合稱為

項集

2.支援度:

這是關聯演算法中很重要的一個概念,代表資料集中包含幾個特定項的機率。支援度是指A商品和B商品同時被購買的機率,或者說某個商品組合的購買次數佔總購買次數的比例。比如1000次商品交易中同時出現啤酒和尿布的次數是50次,那麼此關聯的支援度為5% 。

3.置信度:

置信度是指在資料集中出現A商品時,B商品出現的機率,即指購買A後又購買B的條件機率。其演算法公式是:

C=F(A&B)/F(A)

其中C代表置信度,F表示條件機率,A&B代表購買了A且購買了B的次數,A代表購買A的次數。比如今天共有10筆訂單,其中購買A的次數是8,同時購買A和B的次數是6,則其置信度是6/8=75%。

4.提升度

:提升度是先購買A對購買B的提升作用,用來判斷商品組合方式是否具有實際價值,換句話說,就是看組合商品被購買的次數是否高於單獨商品的購買次數,大於1說明該組合方式有效,小於1則說明無效。

對概念和指標清晰後就可以進行後續資料關聯分析了。一般來說,

給定一個事務資料庫,關聯分析就是透過使用者定義的最小支援和最小置信度來尋找強關聯規則的過程。

——

關聯分析可以劃分為兩個子問題:

發現頻繁項集

生成關聯規則

。其中,頻繁項集的發現是近年來關聯分析挖掘演算法的研究重點。

當然需要尤其注意的關鍵問題有兩點:

一是從大型事務資料集中發現模式可能在計算上要付出很高的代價;二是所發現的某些模式可能是假的,因為它們可能是偶然發生的。

資料關聯分析思維不僅可以用在商品的售賣方面,還可以有更多其他的可利用範圍,比如透過資料探勘關聯規則讓商家制定相應的營銷策略來提高銷售量、透過調整交通訊號時長來治理交通、透過制定有針對性的政策來促進經濟等等。