網際網路資料分析領域相關名詞解釋

AI和BI

：AI是Artificial Intelligence（人工智慧）的簡稱；BI是Business Intelligence（商業智慧）的簡稱。商業智慧又稱商業智慧或商務智慧，在過去指用資料倉庫技術、聯機分析處理技術、資料探勘和資料視覺化技術等進行資料分析以實現商業價值的一種能力。今天的商業智慧開始引入人工智慧，從而進入一個新的領域。

Benchmark

：我在大學的時候這個詞被翻譯為“定標比超”，真是不明覺厲的感覺呀。Benchmark就是“可以作為對比的參照值”。我的很多客戶會問，這個指標在行業中的平均情況是什麼樣呀？他們的問題可以同樣表述為：這個指標在行業中的benchmark是多少？

Bubble Chart

：氣泡圖。一種最多能夠表示同一個事物的四個維度（但是一般只用其中三個）的直觀的資料視覺化方式。這種方式多用在分析流量、使用者或者內容的表現上。

Cohort

：沒有比較約定俗成的翻譯，比較多的翻譯是“同期群”。跟Segmentation有點類似，但內涵要多一點，多點排隊的意思。Cohort一般是一種分析方法，所以一般不單獨出來，而是跟analysis在一起，即cohort analysis——同期群分析。這是一種很重要的分析方法，尤其在分析ROI、使用者留存這兩個領域。課堂上會詳細介紹。

Dimension

：維度。維度是對一指一個事物的不同的方面、特徵或者屬性。這麼說太抽象。簡單說，人可以分成男人和女人，性別就是人的一種維度。或者汽車可以分為白色、黑色、紅色等，顏色就是汽車的一種維度。維度是最基本的資料結構，任何一個度量（指標）必須要依附於一個具體的維度才有意義。比如說，我說visit=100，這沒有任何意義。我說搜尋引擎給我的網站帶來的visit=100，就有了意義。搜尋引擎流量就是維度（即流量來源）的具體的值（就如同男人是性別這個維度的具體的值）。

Filter

：過濾。過濾是指摒棄掉不需要的資料，只留下需要的。過濾都需要遵循一定的規則（這是廢話），而且過濾掉的資料往往不能找回。過濾是一種常用的定位某個細分領域的方法，與細分（segmentation）的區別在於，segmentation是把總體分成並列的若干塊（segment），而Filter則只保留符合規則的塊，而丟棄其他不符合規則的塊。

Machine Learning

：專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心，是使計算機具有智慧的根本途徑，其應用遍及人工智慧的各個領域，它主要使用歸納、綜合而不是演繹。

Metric

（常用作複數，即Metrics）：通常翻譯為度量或者指標，但是因為指標含義更寬泛，例如KPI或者benchmark都可能被稱為指標，所以在我的培訓中metrics都是用度量來表示，這樣更嚴謹。度量絕大多數都能能用數字表示，比如汽車的速度，速度就是度量。課程中涉及到的度量分為兩類，一類是計數度量（比如常見的PV、UV、訪次、停留時間等）和複合度量（兩個度量四則運算而成，常見的有轉化率、跳出率、留存率、活躍率等）。另外有些度量使用布林量表示，即是或非。度量必須依附於維度才有意義。

Pattern

：指某種會重複出現的模式或規律。Pattern常常用於發現使用者行為上的某些趨同特徵。比如，我們發現使用者都喜歡在晚上10點到11點開啟某個app應用，這就是一種pattern。如果我說發現了一個pattern，很興奮，實際上的意思就是說我發現了一個規律。規律這詞，幾十年前就有了，pattern這洋文多有逼格呢……

Pivot Table

：資料透視表。微軟資料表格工具Excel的一個重要功能，用於快速彙總統計不同維度的資料，是Excel中最常用也是最實用的功能之一。Pivot table有時也直接表述為pivot。

Random

：隨機數，或者隨機性。但是老外們也用它來形容“混沌”之類的意思。

Segmentation

：細分。這是我們最基本的方法，即把總體按照一定的規則分成並列的若干塊。做了segmentation之後，每一個塊就是一個segment。所以segmentation和segment不是同義詞。Segmentation怎麼用？怎麼發揮最大價值？課堂上有很多案例。

Supervised Learning

：最常見的一種機器學習（machine learning）的方法。在監督學習中，每個例項都是由一個輸入物件（通常為向量）和一個期望的輸出值（也稱為監督訊號）組成——例如，營銷相關的創意、廣告出價（排名）、目標人群的各種設定等為輸入物件，廣告的效果（例如點選率）就是輸出值。監督學習演算法是分析該訓練資料，併產生一個根據已有的資料（輸入物件和輸出值）推算得出的對映關係，用這一對映關係去推斷新的例項的情況。在剛才那個例子中，歷史的創意、出價、目標人群設定資料及其相應效果的輸出值可以用來推斷未來在各種創意、出價和人群設定下的效果，並利用效果的推斷不斷調優輸入物件的設定，從而讓機器實現自動化的營銷效果最佳化。

Unique

：Unique是指排重（排除重複）。Unique很少單獨用，常用在計數類度量的前面，比如unique visitor，指排除對同一個訪問者重複計數之後的訪問者數量——同一個人今天到網站一次，明天又來一次，不能就因此變成兩個人，unique visitor仍然是1。Unique visitor通常可以簡化為visitor，兩個可以通用。Unique visitor和unique user是唯一的兩個可以加不加unique都算unique的度量。另一個例子是unique impression，即同一個人多次看同一個廣告，還是計算為1次。Unique impression和impression是兩個不同的度量，因為後者不排重。

Visualization

：資料視覺化。是以圖表、圖形或者動態圖形的方式直觀展現資料的一種技術和學科。合理恰當的資料視覺化能夠極大提升資料分析的效率和效果。

通知

資料驅動的網際網路營銷與運營大課堂（2019年8月北京廣州兩場）