怎麼從0開始學習大資料,才能成為合格的資料探勘師及資料科學家

怎麼從0開始學習大資料,才能成為合格的資料探勘師及資料科學家

最近有很多人諮詢,想學習大資料,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大資料探勘分析的思路邏輯是什麼?本文就梳理瞭如何從0開始學習大資料探勘分析,學習的步驟思路,可以給大家一個學習的建議。

很多人認為資料探勘需要掌握複雜高深的演算法,需要掌握技術開發,才能把資料探勘分析做好,實際上並非這樣。如果鑽入複雜演算法和技術開發,只能讓你走火入魔,越走越費勁,並且效果不大。在公司實際工作中,最好的大資料探勘工程師一定是最熟悉和理解業務的人。對於大資料探勘的學習心得,作者認為學習資料探勘一定要結合實際業務背景、案例背景來學習,這樣才是以解決問題為導向的學習方法。那麼,大體上,大資料探勘分析經典案例有以下幾種:

A、預測產品未來一段時間使用者是否會流失,流失情況怎麼樣;

B、公司做了某個促銷活動,預估活動效果怎麼樣,使用者接受度如何;

C、評估使用者信用度好壞;

D、對現有客戶市場進行細分,到底哪些客戶才是目標客群;

E、產品上線投放市場後,使用者轉化率如何,到底哪些運營策略最有效;

F、運營做了很多工作,公司資源也投了很多,怎麼提升產品投入產出比;

G、一些使用者購買了很多商品後,哪些商品同時被購買的機率高;

H、預測產品未來一年的銷量及收益。。。。

大資料探勘要做的就是把上述類似的商業運營問題轉化為資料探勘問題。

(一)如何將商業運營問題轉化為大資料探勘問題

那麼,問題來了,我們該如何把上述的商業運營問題轉化為資料探勘問題?可以對資料探勘問題進行細分,分為四類問題:分類問題、聚類問題、關聯問題、預測問題;

1、分類問題

使用者流失率、促銷活動響應、評估使用者度都屬於資料探勘的分類問題,我們需要掌握分類的特點,知道什麼是有監督學習,掌握常見的分類方法:決策樹、貝葉斯、KNN、支援向量機、神經網路和邏輯迴歸等;

2、聚類問題

細分市場、細分客戶群體都屬於資料探勘的聚類問題,我們要掌握聚類特點,知道無監督學習,瞭解常見的聚類演算法,例如劃分聚類、層次聚類、密度聚類、網格聚類、基於模型聚類等。

3、關聯問題

交叉銷售問題等屬於關聯問題,關聯分析也叫購物籃分析,我們要掌握常見的關聯分析演算法:Aprior演算法、Carma演算法,序列演算法等。

4、預測問題

我們要掌握簡單線性迴歸分析、多重線性迴歸分析、時間序列等。

(二)

用何種工具實操大資料探勘

能實現資料探勘的工具和途徑實在太多,SPSS、SAS、Python、R等等都可以,但是我們需要掌握哪個或者說要掌握哪幾個,才算學會了資料探勘?這需要看你所處的層次和想要進階的路徑是怎樣的。

第一層級:達到理解入門層次

瞭解統計學和資料庫即可。

第二層級:達到初級職場應用層次

資料庫+統計學+SPSS(也可以是SPSS代替軟體)

第三層級:達到中級職場應用層次

SAS或R

第四層級:達到資料探勘師層次

SAS或R+Python(或其他程式語言)

(三)

如何利用Python學習大資料探勘

只要能解決實際問題,用什麼工具來學習資料探勘都是無所謂,這裡首推Python。那該如何利用Python來學習資料探勘?需要掌握Python中的哪些知識?

1、Pandas庫的操作

Panda是資料分析特別重要的一個庫,我們要掌握以下三點:

1)pandas 分組計算;

2)pandas 索引與多重索引;

索引比較難,但是卻是非常重要的

3)pandas 多表操作與資料透視表

2、numpy數值計算

numpy資料計算主要應用是在資料探勘,對於以後的機器學習,深度學習,這也是一個必須掌握的庫,我們要掌握以下內容:

1)Numpy array理解;

2)陣列索引操作;

3)陣列計算;

4)Broadcasting(線性代數里面的知識)

3、資料視覺化-matplotlib與seaborn

1)Matplotib語法

python最基本的視覺化工具就是matplotlib。咋一看Matplotlib與matlib有點像,要搞清楚二者的關係是什麼,這樣學習起來才會比較輕鬆。

2)seaborn的使用

seaborn是一個非常漂亮的視覺化工具。

3)pandas繪圖功能

前面說過pandas是做資料分析的,但它也提供了一些繪圖的API。

4、資料探勘入門

這部分是最難也是最有意思的一部分,要掌握以下幾個部分:

1)機器學習的定義

在這裡跟資料探勘先不做區別

2)代價函式的定義

3)Train/Test/Validate

4) Overfitting的定義與避免方法

5、資料探勘演算法

資料探勘發展到現在,演算法已經非常多,下面只需掌握最簡單的,最核心的,最常用的演算法:

1)最小二乘演算法;

2)梯度下降;

3)向量化;

4)極大似然估計;

5)Logistic Regression;

6) Decision Tree;

7) RandomForesr;

8) XGBoost;

 6、資料探勘實戰

透過機器學習裡面最著名的庫scikit-learn來進行模型的理解。

以上,就是為大家釐清的大資料探勘學習思路邏輯。可是,這還僅僅是開始,在通往資料探勘師與資料科學家路上,還要學習文字處理與自然語言知識、Linux與Spark的知識、深度學習知識等等,我們要保持持續的興趣來學習資料探勘。

作者:劉永平 ,11年以上網際網路電商、網際網路金融專案實操經驗,任職高階產品總監,產品運營專家,曾親自主導參與專案超過15個,10個以上從0到1成功專案實操經驗。關注作者頭條號:網際網路金融乾貨

免責宣告:本文是作者透過多年專案實操,積累分享的乾貨,全部屬於原創,如需轉載分享,必須註明作者和出處,並徵求作者授權,如沒有註明作者和出處,會追究法律責任。