傾向建模:使用資料(和專業知識)預測行為

CF Kettering曾經說過:“我的興趣在於未來,因為我將在這裡度過餘生。”

當我們檢視資料和分析時,我們專注於過去。上個季度我們如何做?2019年上半年發生了什麼?與2018年上半年相比如何?登陸頁面X,Y和Z在上週一的下午1:03轉換得如何?

當我們使用資料來預測未來而不僅僅是分析過去時,資料變得更加有價值。這就是傾向建模的用武之地。

什麼是傾向建模?

傾向建模嘗試預測訪客,潛在顧客和客戶執行某些操作的可能性。

這是一種統計方法,它考慮了影響所述行為的所有獨立變數和混雜變數。

因此,例如,傾向建模可以幫助營銷團隊預測潛在客戶轉化為客戶的可能性。否則客戶會流失。甚至是電子郵件收件人將退訂。

那麼,傾向得分就是訪問者,潛在顧客或客戶將執行特定操作的

機率

為什麼最佳化人員應該關注傾向建模

即使您當前不使用或不考慮傾向性建模,理解過程背後的數學也很重要。例如,您知道線性迴歸模型和邏輯迴歸模型之間的區別嗎?

SEO專家需要了解一些內容營銷,HTML等以保持能力,同樣,最佳化人員也需要對統計資料和傾向模型有基本的瞭解。

但是,當進行測試和實驗時,為什麼最佳化人員應該關注傾向模型?

HG Insights戰略執行副總裁Tim Royston-Webb 提出了以下幾個原因:

傾向建模:使用資料(和專業知識)預測行為

蒂姆·羅斯頓·韋伯:

事實是,我們不能總是依靠現實世界中的這些統計方法。在某些情況下,無法進行實際實驗:

有時,管理層可能不願意透過將銷售分配給隨機客戶來冒短期收入損失的風險。

賺取佣金的銷售團隊可能會反對潛在客戶的隨機化。

當可以透過準實驗程式對相同資料或參與者建模時,或者當歷史資料足以產生可操作的見解時,在某些情況下,現實世界中的實驗可能是不切實際的且成本很高。

現實世界中的實驗可能涉及道德或健康問題,例如,研究某些化學物質的作用。

儘管如此,傾向建模和實驗並不是相互排斥的。當傾向模型為實驗程式提供動力時,兩者結合使用時效果最佳。反之亦然。

即使您沒有面對Royston-Webb提到的任何實驗挑戰,傾向建模也可以幫助您:

填充您的管道;

節省時間進行定量轉化研究;

探索更智慧的細分選項。

如何建立傾向模型

並非所有傾向模型都是一樣的。

作為Mojan哈米德,資料科學家Shopify解釋說,沒有選項短缺可供選擇,並沒有天生就比:

傾向建模:使用資料(和專業知識)預測行為

Mojan Hamed:

第一步是實際選擇一個模型,因為您有一些選擇。例如,您可以選擇生存分析,而不是測量流失的傾向。

迴歸是一個不錯的選擇,因為對於非技術受眾來說,迴歸是很容易理解的,這意味著可以輕鬆進行交流。

它也不太像黑匣子,使風險更易於管理。如果出了點問題並且準確性不高或者您得到了意外的結果,則可以很容易地向下鑽取公式並找出解決方法。

例如,如果您進行預測並注意到某些細分市場與基本模型的搭配效果很好,而其他細分市場則表現不佳,那麼您可以更深入地研究那些低精度細分市場,以找出問題所在。透過迴歸,整個過程不會超過幾分鐘。使用其他模型,該診斷更加耗時且複雜。

選擇了適合您的模型後(在本文中,我們將重點介紹迴歸),構建模型包括三個步驟:

選擇您的功能;

建立您的傾向模型;

計算您的傾向得分。

Google的軟體工程師Edwin Chen 對該過程進行了更詳細的總結:

傾向建模:使用資料(和專業知識)預測行為

陳冠希:

首先,選擇要用作功能的變數。(例如,人們吃什麼食物,什麼時候睡覺,住在哪裡等)

接下來,基於這些變數構建機率模型(例如,邏輯迴歸),以預測使用者是否將開始飲用Soylent。例如,我們的訓練集可能由一組人員組成,其中一些人在2014年3月的第一週訂購了Soylent,我們將訓練分類器以建模哪些使用者成為Soylent使用者。

使用者將開始飲用Soylent的模型的機率估計稱為傾向得分。

形成一定數量的水桶,比如說總共10個水桶(一個水桶覆蓋了0。0-0。1飲用傾向的使用者,第二個水桶覆蓋了0。1-0。2飲用傾向的使用者,依此類推),然後將每個人都放進去。

最後,比較每個桶中的飲酒者和非飲酒者(例如,透過測量其隨後的身體活動,體重或任何健康指標),以估算Soylent的因果關係。

讓我們進一步探索每個步驟。

1。選擇您的傾向模型的特徵

首先,您需要為傾向模型選擇功能。例如,您可以考慮:

產品里程碑;

應用和主題下載;

人口統計資料;

裝置使用情況;

購買歷史;

計劃選擇。

您的想象力是唯一的極限。

當您僅對預測感興趣時,選擇功能會更容易。您可以只新增您知道的所有功能。特徵的相關性越差,係數就越接近0。如果您想了解該預測的

因素

,則變得更加困難。

正如Hamed解釋的那樣,有一些制衡方法:

傾向建模:使用資料(和專業知識)預測行為

Mojan Hamed:

假設在訓練模型時,您在歷史資料的50%上對其進行訓練,並在剩餘的50%上對其進行測試。換句話說,您可以在測試組中的模型中隱藏要預測的變數,並嘗試使模型預測值—這樣一來,您便可以瞭解如何對已經具有實際值的事物進行預測。

如果要解釋係數,則必須確保誤差(實際值,即您所預測的)與您要預測的變數沒有相關性。如果是這樣,則意味著您沒有在要素中捕獲的資料集中存在一種趨勢。這是一個好訊號,表明您應該包含一個尚未包含的變數。

另外,請確保兩個要素之間沒有線性相關。這將是刪除功能的好用例。

無論您是否對解釋係數感興趣,都可以肯定一件事:您需要從內部專家那裡收集見識。儘管人們普遍認為,

傾向性建模並不能減少對業務和營銷專業知識的需求。

因此,請聚集一個充滿領域專家的會議室:電子郵件營銷人員,轉換最佳化人員,資料科學家,財務專家,CRM專家⁠—具備相關業務敏銳度的任何人。

有許多數學方法來決定選擇哪些功能,但是它們不能代替人類的知識和經驗。

2。建立傾向模型

迴歸已經提到過幾次了。但是迴歸分析到底是什麼?這是一種預測建模技術,用於檢查因變數(例如,潛在客戶到客戶的轉化)和自變數(例如,產品里程碑,應用程式和主題下載等)之間的關係。

吉姆·弗羅斯特,統計技術通訊專家在Minitab中,解釋說:

傾向建模:使用資料(和專業知識)預測行為

吉姆·弗羅斯特:

在迴歸分析中,迴歸方程中的係數是實際總體引數的估計值。我們希望這些係數估算值是最好的估算值!

假設您要求一個估算,例如您正在考慮的服務成本。您將如何定義一個合理的估計?

估算應該趨於正確。它們不應系統地過高或過低。換句話說,它們應該平均無偏或正確。

認識到估計幾乎永遠不會完全正確,因此您希望將估計值與實際值之間的差異最小化。大的差異是不好的!

這兩個屬性正是我們進行係數估算所需要的!

出於本文的目的,您需要熟悉線性和邏輯迴歸。

傾向建模:使用資料(和專業知識)預測行為

(圖片來源)

線上性迴歸中,結果是連續的,這意味著它可以具有無限數量的潛在值。它非常適合體重,小時數等。在邏輯迴歸中,結果的潛在值數量有限。是/否,1st / 2nd / 3rd等的理想選擇。

3。計算您的傾向得分

構建傾向性模型後,在計算傾向性分數之前,先使用資料集對其進行訓練。如何訓練傾向模型和計算傾向分數取決於您選擇線性迴歸還是邏輯迴歸。

Hamed解釋:

傾向建模:使用資料(和專業知識)預測行為

Mojan Hamed:

線上性迴歸模型中,它將字面上的係數乘以值,然後得到一個連續的數。因此,如果您的公式是customer_value = 0。323(每月會話數),其中0。323是每月會話數的係數,則它將您當月的會話數乘以0。323。

對於邏輯迴歸,預測值將為您提供對數奇數,並且計算可以將其轉換為機率。這個機率就是我們所說的“分數”。

傾向模型必須與您的實際資料配合使用,這一點很重要。這是傾向建模和實驗如何相輔相成的完美示例。

實驗可以驗證傾向得分的準確性。

無論您對準確性有多自信,都可以進行實驗。可能有您尚未考慮的因素。或者,例如,該模型可能會意外地針對數量(例如,會話到潛在顧客的轉化率)進行最佳化,而不考慮對質量的影響(例如,潛在顧客到客戶的轉化率,保留率等)

使用實驗來驗證傾向模型至關重要。它使您高枕無憂。

同樣,傾向建模是最佳化器可以使用的工具,而不是完全瞭解實驗和最佳化的工具。充分利用開放式迴歸®的優勢–深入瞭解並確保正在檢視的資料在

變得

瘋狂之前

是有意義的

如何使用傾向模型進行更智慧的實驗

我知道我知道。您不需要再進行有關因果關係不是因果關係的演講。但是,使用傾向模型,很容易看到因果關係不存在的因果關係。

在迴歸模型中,您不能假定要素與嘗試預測的變數具有因果關係。

可以輕鬆檢視模型,例如,可以看到在試用期間下載X應用程式可以很好地表明潛在客戶會轉化為客戶。但是,絕對沒有證據表明在試用期間增加更多的應用下載量將使任何人更有可能轉化為客戶。

另一個重要的警告詞:

不要用傾向得分代替(非常有價值的)最佳化知識。

傾向建模與其他工具一樣,不會告訴您

如何

進行最佳化。當您開啟Goog​le Analytics(分析)或啟動Adobe Analytics儀表板時,見解不會落到螢幕上,也不會落到您的腿上。您可以使用自己的經驗,知識和直覺來挖掘這些見解。

例如,您可能知道,由於您的傾向模型,客戶很可能流失。但是,您花費在防止客戶流失上的價值是否高於該客戶的生命週期價值?您的模型無法回答這個問題,它不能代替批判性思維。

傾向建模:使用資料(和專業知識)預測行為

好的。當我們輕輕地跨過所有注意事項時,讓我們看一下最佳化器可以利用的三個有價值的傾向模型:

購買或轉換的傾向。

訪客,潛在顧客和客戶進行購買或轉換到渠道下一步的可能性有多大?傾向得分較低的人比其他人需要更多的動機(例如,如果您是電子商務商店,則可以提供更高的折扣)。

退訂的傾向。

收件人,潛在客戶和客戶退訂您的電子郵件列表的可能性有多大?對於傾向得分較高的使用者,您可以嘗試減少電子郵件的傳送頻率或傳送特別優惠以增強保留訂戶的價值。

易流失。

誰是您的潛在客戶和潛在客戶?如果他們的傾向得分較高,則可以嘗試進行產品內贏回廣告系列,或分配客戶專職人員,使其與您的核心價值主張重新建立聯絡。

傾向建模不是規定性的。知道一組線索具有更高的單獨轉換傾向並不是特別有價值。有價值的是將這些知識與最佳化知識相結合,以執行更智慧,更有針對性的實驗並提取可傳遞的見解。

結論

未來不是一門精確的科學。(可以說,精確科學不是精確科學。)但是,您可以透過傾向建模以合理的確定性程度預測未來。您所需要的只是一個嚴格的流程和一位資料科學家。

這是逐步的過程:

與一組領域專家一起選擇功能。仔細考慮您是否要解釋係數。

選擇線性或邏輯迴歸後,構建模型。

使用資料集訓練模型並計算您的傾向得分。

使用實驗來驗證您的傾向得分的準確性。

將傾向性建模與您的最佳化專業知識相結合,以執行更智慧,更有針對性的實驗,從而獲得更有價值,更可移植的見解。

您將能夠將您的資料超越已經發生的事情,並推向未來

可能

發生的事情。