產品資料建模-Python資料探勘和視覺化分析

我們都試圖在認識別人，瞭解他人，從而更好的完成社會化大分工。但是可能往往忽略了客觀的認識自己。

我也經常在思索自己是個怎麼樣的人？

今天恰好有時間，就用我的評論資料來告訴自己，我是個什麼樣的人

研究主題：用資料刻畫人物

那既然要用資料說話，那我們就鎖定下資料來源。

研究方法：

使用自然語言處理NLP，獲取自己的跟貼習慣和跟貼時間分佈，從而瞭解自己喜好和休閒時間分佈

涉及技術：

Python，資料爬蟲，，matplotlib， NLP中文分析，BDP視覺化等。

1. 獲取資料

我的某易APP截圖

據某易統計，我閱讀歷史總量為 15409篇文章

其中評論為292條，說明我還是一位非標準噴子易友～

評論轉化率：跟貼數/閱讀總數*100% = 292/15409 =0。018 的確少的可憐。

注：原本打算使用某易閱讀歷史作為資料來源，但是由於偷懶沒找到閱讀歷史記錄的某易介面，所以只好使用跟貼資料來在分析和研究，

1。1 某易新聞客戶端跟貼介面

介面地址：

https：//comment。api。163。com/api/v1/products/a2869674571f77b5a0867c3d71db5856/users/0/myComments？offset=0&limit=10&_=1523443919597&callback=jsonp2

欄位說明：

offset為資料起始點

limit 為返回資料量

a2869674571f77b5a0867c3d71db5856 為使用者唯一ID ，某易Mapping ID

介面返回：

返回為Json格式的資料，這裡使用Python爬蟲，一個For迴圈，迴圈得到全部的評論資料。並存儲到文字檔案中，等待分析。

介面資料如下圖：

某易評論介面資料樣式

Python爬蟲實現方法再次不具體展開。

2. 自然語言處理NLP

因為是評論的文字資料，所以我們直接可以透過NLP來處理從而得到我們需要的資料，

引用到的庫：

jieba / jieba-fast -中文分詞

Counter計數器

wordcloud -詞雲庫

matplotlib等

安裝庫檔案

安裝詞雲庫

那我們開始：分析邏輯如下：

python讀取文字獲取評論資料

jieba分詞，去掉停詞和無關字元（地址，頭像，標點符號等）

Counter統計詞頻

matlotlib，wordcloud輸出詞雲

時間分佈合併與分類合併

3. 分析結論

3。1 評論時間分佈

工作日評論時間分佈

非工作日評論時間分佈

根據時間分佈可以觀測出，在13點和晚上11點評論最活躍。

按照評論量分佈可以推測出這個時間段的閱讀量 = 評論量/評論率

3。2 頻道關注度

根據頻道分佈可以判斷出，興趣點為：科技 > 社會 > 財經

頻道佔比

3。3 興趣詞雲

興趣詞詞雲

我們可以根據詞性分類，劃分出不同的詞類

公司關注度

：谷歌 > 百度 > 騰訊 > 蘋果 > 聯想 > 京東 >微軟 > 某頭 > 大疆 > 滴滴

手機品牌關注度

：蘋果 > 華為 > 魅族 > 小米

時政關注度

：中國 > 日本 > 美國 > 國內 > 國外 > 泰國

黑科技關注度

：比特幣 > 人工智慧 > 區塊鏈 > 樣本（機器學習） > 無人機

羞羞關注度

：美女 > 妹子 > 杜蕾斯 > 男女

人物關注度

：馬化騰 > 孫正義 > 張繼科

外匯關注度

：美金 > 日元 >泰銖

小結

：我還是一位關注時政財經，愛好學習科技的不宅男青年！

時間成本：

1。某易新聞APP介面查詢 - 3分鐘

2。 Python爬蟲資料編寫和爬取資料 - 10分鐘

3。 Python文字分析 - 26分鐘

4。 BDP視覺化 - 35分鐘（有個坑，和Tableua詞雲不同的地方是詞頻規則，又加工了下資料）

5。文章編寫： 30 分鐘。（反覆修改了幾次，還會在修改）

附錄：

1。 BDP分享連結：https：//me。bdp。cn/api/su/TP3X6FYN

2。分析中所涉及程式碼，有興趣可以留言。

別眨眼網

產品資料建模-Python資料探勘和視覺化分析

相關推薦