為什麼越來越多的app都知道你喜歡什麼?大資料的作用究竟是啥?

這裡是小熊科技圈,今天聊一聊大資料廣告投放。你剛在微信上和朋友說要去泰國玩,就在朋友圈看到的機票廣告,你老婆剛給你打電話,讓你買奶粉,你就看到了奶粉推薦。

為什麼越來越多的app都知道你喜歡什麼?大資料的作用究竟是啥?

這些廣告都是怎麼來的?為什麼這些app都知道你想買什麼?淘寶當然不會竊聽你的電話是你的行為資料,讓淘寶意識到了你需要嬰兒奶粉。

為什麼越來越多的app都知道你喜歡什麼?大資料的作用究竟是啥?

註冊一個賬號,你需要輸入自己的名字、手機號有時候還需要補充性別、所在地,但這只是微不足道的基礎資料。更重要的,是你的消費記錄、打車頻率、關注的公眾號,玩過的手機理財習慣有沒有房貸,車貸,買過的保險、發過的紅包

,這些行為最後都會變成幾千個事實標籤,成為你行為資料的一部分。採集事實標籤並不難。難的是,建立模型,從雜亂的標籤中找到你真正的興趣,進而構建使用者畫像。

舉個例子,你開啟一篇內容標籤為美女的文章並不意味著你真的愛看美女,可能只是不小心點到,這時就需要透過更多的行為來判斷這篇文章對你的吸引力。這是一個初級的內容標籤權重演算法行為權重對於你是否有評論,點贊,轉發,收藏等操作。

為什麼越來越多的app都知道你喜歡什麼?大資料的作用究竟是啥?

不同的操作,有不同的數值,累加成行為,停留時間越長,時間權重也越高。最後短期行為也無法代表長期興趣,單次閱讀行為的權重會隨著時間流逝不斷衰減,於是你每次開啟美女類內容都會生成一個興趣權重,把一段時間內,你所有的美女類興趣權重進行累加。

在用S形函式標準化就能得到一個0至10區間的興趣標籤值,數值越高,你對美女就越感興趣。

除了內容興趣,這種演算法思路也可以在消費能力,消費興趣,社交習慣等多個維度建立模型計算你的偏好之後,這些偏好就會被轉化為特徵向量。

為什麼越來越多的app都知道你喜歡什麼?大資料的作用究竟是啥?

假設你的美女興趣標籤紙是8,消費能力是5,社交偏好是2,就可以用向量表示。為這樣我們可以把特徵向量理解成多維空間上的一個座標。

透過把每個使用者的向量座標帶入餘弦公示,或距離公式中就能計算出和你相似的人,進而把使用者分類。但行為資料只能計算編號,無法判斷你的性別,學歷等個人屬性,只需要把已知性別和學歷的使用者作為樣本。一部分用來訓練模型一部分用來測試準確度。今天各大平臺對於使用者性別的預測準確度已經可以達到90%以上。

最後微信和淘寶們就能得到一個這樣的使用者畫像,這樣廣告主就可以找到他們想要的消費者了。

為什麼越來越多的app都知道你喜歡什麼?大資料的作用究竟是啥?

這是騰訊廣告投放平臺的後臺廣告主可以自由的組合,包含消費水平,婚戀情況,內容,興趣消費行為在內的上千個定向標籤。最後選定廣告位和投放時間根據系統計算的1。5元每千次曝光的建議出價就完成了一次精準投放。最後一個住在北京朝陽有個奶粉消費記錄的已婚男青年,在即將受到廣告位的那一瞬間,廣告平臺會發起計價請求,最後價高的廣告將出現在你的眼前。

如果你對這個話題感興趣,可以在騰訊廣告平臺的開發者文件進一步瞭解你的行為資料被處理到了什麼樣的程度。比如篩選出2017年7月1日至2017年7月15日去過上海機場三次以上的人。

為什麼越來越多的app都知道你喜歡什麼?大資料的作用究竟是啥?

另外,透過行為推薦商品的效果往往不如透過同類推薦商品。找到和你一樣的人,把他們的瀏覽記錄和消費記錄推薦給你,往往比直接猜你喜歡什麼效果更好。需要說明的是,微信淘寶們採集的行為資料不僅僅對於你的賬號,也和你的手機唯一識別碼繫結在一起,這意味著你就算不註冊不登陸你的行為資料一樣會被採集。同時,廣告平臺也可以根據你的手機識別碼,在其他App上為你投放廣告。這樣你在使用其它app時也能看到淘寶的奶粉廣告了。

別太緊張。根據個人資訊保安規範商業平臺的所有廣告標籤都應該避免精確定位到個人,用來保護你的隱私安全。