這是讀《簡單統計學》的第 5-4 篇文章。
「啤酒與尿布」是段子,「食鹽-人口」模型不靠譜,那基於相關性挖掘資料就沒有價值了麼?
有的。
下面這個案例就是透過挖掘使用者資料的相關性,建立分析模型,幫助公司更好經營的。
你懷孕了,超市知道
2003 年左右,一名憤怒的男子走進明尼阿波利斯的塔吉特超市:
「我要見你們經理,
「我女兒還在上高中,你們卻給她發嬰兒衣服和嬰兒床的優惠券?
「你們是慫恿她懷孕嗎?」
超市經理很迷茫,他查看了郵箱,發現塔吉特確實給這個男人的女兒發過育兒用品的優惠券,甚至還有孕婦服的廣告。
經理只好道歉,但是在幾天後回訪的時候,這名憤怒的男子卻有點不好意思,因為他的女兒真的懷孕了。
那麼,塔吉特是怎麼發現孕期女性的呢?
透過資料探勘,尋找相關性
。
塔吉特的統計人員發現,女性在備孕期和懷孕後,會開始購買大量的營養素和沒有味道的洗浴用品。
購買行為和使用者身體狀態有高度的相關性,而且,還有一定的因果邏輯。
統計人員找出了大約 25 種產品,並據此建立了「懷孕預測」模型,估算顧客的預產期。
上面那個憤怒男子的事件,就發生在「懷孕預測」模型建立一年後。
塔吉特這個「懷孕預測」模型的案例來自《紐約時報》的一篇報道,標題是《公司是怎麼知道你的秘密的(How Companies Learn Your Secrets)》,作者是商業調查記者查爾斯·杜希格,他也是《習慣的力量》的作者。
單看作者是不是就比較可靠?
而且這個案例有名有姓,十分具體,只有這一個版本,比「啤酒與尿布」靠譜了 10000 個特朗普。
不過,在杜希格寫了這篇新聞並且把新聞摘要發給塔吉特之後,塔吉特就把杜希格拉入了黑名單,拒絕他的任何採訪。這個舉動,意味深刻啊。
那麼,這個「懷孕預測」模型有效嗎?
新聞裡說,在基於「懷孕預測」模型的營銷活動開始後不久,塔吉特的母嬰產品銷量就出現了爆炸式增長。
2002 年至 2010 年期間,塔吉特的收入從 440 億美元增長到 670 億美元。2005 年,塔吉特總裁格雷格·施泰因哈費爾(Gregg Steinhafel)也說,「高度關注吸引特定客戶群體(如母親和嬰兒)的產品」。
所以,這個基於相關性建立的模型,是有效的,經過了市場驗證的。
這麼看來,資料探勘還是很有用的嘛。
不過,先別激動,我們要吸取下「食鹽-人口」模型的教訓,做出一點懷疑。
畢竟「懷孕預測」模型的因果邏輯並不是絕對的。
比如,開始購買營養素、沒有味道的洗浴用品,一定是因為備孕、懷孕引起的嗎?
答案當然是否定的。
事實上,在《紐約時報》那篇新聞的評論區,就有反例:
一位沒有備孕懷孕的女士,因為總是購買沒有香味的洗浴用品和偶爾購買大包的棉球,結果收到了一盒嬰兒配方奶粉。
導致這種錯誤的原因很簡單,
模型只是模型,只能去尋找符合設定的行為模式,然後做出行動
。
更何況這個模型只是根據「相關性」建立的。
由於這位女士的行為符合了預測模型的行為模式,所以系統就機械的郵寄促銷產品。
所以,
基於相關性的模型並不是 100% 可靠
的,也有一定的機率出錯。
切記,相關性不代表因果性。
怎麼避免商業營銷模型的騷擾
雖然相關性模型不是 100% 準確,但現在個人資訊的洩露還是難免的。我們線上下線上消費時,也總會被要求填寫各種隱私資訊。
垃圾簡訊刪也刪不完,推銷電話也一個接一個。
那,怎麼避免營銷模型的騷擾呢?
很多的商業分析模型、營銷模型都是基於相關性建立的,那麼減少相關行為、避免被模型跟蹤到就可以了。
比如,用現金,這樣消費行為就無法被記錄。當然這在咱國內是比較難的。
比如,用虛擬身份。
下次商家收集你的資訊的時候,可以寫自己芳齡 18,博士畢業,年入 1 個億。也可以寫自己 108 歲,時尚前衛,喜歡打籃球。
混亂的資訊會讓營銷模型難以發現行為模式,也就避免了促銷資訊。
比如,用小號。
電話填小號、郵箱填小號,微博、微信也設一個小號。這樣所有的促銷資訊都會關聯到小號上,即使模型發現你的行為符合了促銷的要求,也找不到你。
還記得《容易上當的人,都是聰明人》裡面提到的內容嗎?
尋找模式是人類的天賦
。透過套用模式,我們可以更大限度的消除未知、消除風險。
各種分析模型也是尋找模式
,而且相比人類,更加死板、機械化。
從相關性中發現的模式,確實能建立有價值的分析模型,塔吉特就是案例。
但很多時候,模式,特別是基於相關性的模式,並不是 100% 有效的。
所以發現相關性之後,還要考慮下兩件事情有沒有因果邏輯。
切記,相關性不代表因果性。