是的先生,你女兒懷孕了

這是讀《簡單統計學》的第 5-4 篇文章。

「啤酒與尿布」是段子,「食鹽-人口」模型不靠譜,那基於相關性挖掘資料就沒有價值了麼?

有的。

下面這個案例就是透過挖掘使用者資料的相關性,建立分析模型,幫助公司更好經營的。

是的先生,你女兒懷孕了

你懷孕了,超市知道

2003 年左右,一名憤怒的男子走進明尼阿波利斯的塔吉特超市:

「我要見你們經理,

「我女兒還在上高中,你們卻給她發嬰兒衣服和嬰兒床的優惠券?

「你們是慫恿她懷孕嗎?」

超市經理很迷茫,他查看了郵箱,發現塔吉特確實給這個男人的女兒發過育兒用品的優惠券,甚至還有孕婦服的廣告。

經理只好道歉,但是在幾天後回訪的時候,這名憤怒的男子卻有點不好意思,因為他的女兒真的懷孕了。

那麼,塔吉特是怎麼發現孕期女性的呢?

透過資料探勘,尋找相關性

塔吉特的統計人員發現,女性在備孕期和懷孕後,會開始購買大量的營養素和沒有味道的洗浴用品。

購買行為和使用者身體狀態有高度的相關性,而且,還有一定的因果邏輯。

統計人員找出了大約 25 種產品,並據此建立了「懷孕預測」模型,估算顧客的預產期。

上面那個憤怒男子的事件,就發生在「懷孕預測」模型建立一年後。

塔吉特這個「懷孕預測」模型的案例來自《紐約時報》的一篇報道,標題是《公司是怎麼知道你的秘密的(How Companies Learn Your Secrets)》,作者是商業調查記者查爾斯·杜希格,他也是《習慣的力量》的作者。

是的先生,你女兒懷孕了

單看作者是不是就比較可靠?

而且這個案例有名有姓,十分具體,只有這一個版本,比「啤酒與尿布」靠譜了 10000 個特朗普。

不過,在杜希格寫了這篇新聞並且把新聞摘要發給塔吉特之後,塔吉特就把杜希格拉入了黑名單,拒絕他的任何採訪。這個舉動,意味深刻啊。

那麼,這個「懷孕預測」模型有效嗎?

新聞裡說,在基於「懷孕預測」模型的營銷活動開始後不久,塔吉特的母嬰產品銷量就出現了爆炸式增長。

2002 年至 2010 年期間,塔吉特的收入從 440 億美元增長到 670 億美元。2005 年,塔吉特總裁格雷格·施泰因哈費爾(Gregg Steinhafel)也說,「高度關注吸引特定客戶群體(如母親和嬰兒)的產品」。

所以,這個基於相關性建立的模型,是有效的,經過了市場驗證的。

這麼看來,資料探勘還是很有用的嘛。

不過,先別激動,我們要吸取下「食鹽-人口」模型的教訓,做出一點懷疑。

畢竟「懷孕預測」模型的因果邏輯並不是絕對的。

比如,開始購買營養素、沒有味道的洗浴用品,一定是因為備孕、懷孕引起的嗎?

答案當然是否定的。

事實上,在《紐約時報》那篇新聞的評論區,就有反例:

一位沒有備孕懷孕的女士,因為總是購買沒有香味的洗浴用品和偶爾購買大包的棉球,結果收到了一盒嬰兒配方奶粉。

是的先生,你女兒懷孕了

導致這種錯誤的原因很簡單,

模型只是模型,只能去尋找符合設定的行為模式,然後做出行動

更何況這個模型只是根據「相關性」建立的。

由於這位女士的行為符合了預測模型的行為模式,所以系統就機械的郵寄促銷產品。

所以,

基於相關性的模型並不是 100% 可靠

的,也有一定的機率出錯。

切記,相關性不代表因果性。

怎麼避免商業營銷模型的騷擾

雖然相關性模型不是 100% 準確,但現在個人資訊的洩露還是難免的。我們線上下線上消費時,也總會被要求填寫各種隱私資訊。

垃圾簡訊刪也刪不完,推銷電話也一個接一個。

那,怎麼避免營銷模型的騷擾呢?

很多的商業分析模型、營銷模型都是基於相關性建立的,那麼減少相關行為、避免被模型跟蹤到就可以了。

比如,用現金,這樣消費行為就無法被記錄。當然這在咱國內是比較難的。

比如,用虛擬身份。

下次商家收集你的資訊的時候,可以寫自己芳齡 18,博士畢業,年入 1 個億。也可以寫自己 108 歲,時尚前衛,喜歡打籃球。

混亂的資訊會讓營銷模型難以發現行為模式,也就避免了促銷資訊。

比如,用小號。

電話填小號、郵箱填小號,微博、微信也設一個小號。這樣所有的促銷資訊都會關聯到小號上,即使模型發現你的行為符合了促銷的要求,也找不到你。

還記得《容易上當的人,都是聰明人》裡面提到的內容嗎?

尋找模式是人類的天賦

。透過套用模式,我們可以更大限度的消除未知、消除風險。

各種分析模型也是尋找模式

,而且相比人類,更加死板、機械化。

從相關性中發現的模式,確實能建立有價值的分析模型,塔吉特就是案例。

但很多時候,模式,特別是基於相關性的模式,並不是 100% 有效的。

所以發現相關性之後,還要考慮下兩件事情有沒有因果邏輯。

切記,相關性不代表因果性。