產品資料建模-Python資料探勘和視覺化分析

我們都試圖在認識別人,瞭解他人,從而更好的完成社會化大分工。但是可能往往忽略了客觀的認識自己。

我也經常在思索自己是個怎麼樣的人?

今天恰好有時間,就用我的評論資料來告訴自己,我是個什麼樣的人

產品資料建模-Python資料探勘和視覺化分析

研究主題:用資料刻畫人物

那既然要用資料說話,那我們就鎖定下資料來源。

研究方法:

使用自然語言處理NLP,獲取自己的跟貼習慣和跟貼時間分佈, 從而瞭解自己喜好和休閒時間分佈

涉及技術:

Python, 資料爬蟲,,matplotlib, NLP中文分析,BDP視覺化等。

1. 獲取資料

產品資料建模-Python資料探勘和視覺化分析

我的某易APP截圖

據某易統計,我閱讀歷史總量為 15409篇文章

其中評論為292條, 說明我還是一位非標準噴子易友~

評論轉化率:跟貼數/閱讀總數*100% = 292/15409 =0。018 的確少的可憐。

注:原本打算使用某易閱讀歷史作為資料來源,但是由於偷懶沒找到閱讀歷史記錄的某易介面,所以只好使用跟貼資料來在分析和研究,

1。1 某易新聞客戶端跟貼介面

介面地址:

https://comment。api。163。com/api/v1/products/a2869674571f77b5a0867c3d71db5856/users/0/myComments?offset=0&limit=10&_=1523443919597&callback=jsonp2

欄位說明:

offset為資料起始點

limit 為返回資料量

a2869674571f77b5a0867c3d71db5856 為使用者唯一ID ,某易Mapping ID

介面返回:

返回為Json格式的資料,這裡使用Python爬蟲,一個For迴圈,迴圈得到全部的評論資料。並存儲到文字檔案中,等待分析。

介面資料如下圖:

產品資料建模-Python資料探勘和視覺化分析

某易評論介面資料樣式

Python爬蟲實現方法再次不具體展開。

2. 自然語言處理NLP

因為是評論的文字資料,所以我們直接可以透過NLP來處理從而得到我們需要的資料,

引用到的庫:

jieba / jieba-fast -中文分詞

Counter計數器

wordcloud -詞雲庫

matplotlib等

安裝庫檔案

產品資料建模-Python資料探勘和視覺化分析

安裝詞雲庫

那我們開始:分析邏輯如下:

python讀取文字獲取評論資料

jieba分詞,去掉停詞和無關字元(地址,頭像,標點符號等)

Counter統計詞頻

matlotlib,wordcloud輸出詞雲

時間分佈合併與分類合併

3. 分析結論

3。1 評論時間分佈

產品資料建模-Python資料探勘和視覺化分析

工作日評論時間分佈

產品資料建模-Python資料探勘和視覺化分析

非工作日評論時間分佈

根據時間分佈可以觀測出,在13點和晚上11點 評論最活躍。

按照評論量分佈可以推測出這個時間段的閱讀量 = 評論量/評論率

3。2 頻道關注度

根據頻道分佈可以判斷出,興趣點為: 科技 > 社會 > 財經

產品資料建模-Python資料探勘和視覺化分析

頻道佔比

3。3 興趣詞雲

產品資料建模-Python資料探勘和視覺化分析

興趣詞詞雲

我們可以根據詞性分類,劃分出不同的詞類

公司關注度

:谷歌 > 百度 > 騰訊 > 蘋果 > 聯想 > 京東 >微軟 > 某頭 > 大疆 > 滴滴

手機品牌關注度

:蘋果 > 華為 > 魅族 > 小米

時政關注度

: 中國 > 日本 > 美國 > 國內 > 國外 > 泰國

黑科技關注度

:比特幣 > 人工智慧 > 區塊鏈 > 樣本(機器學習) > 無人機

羞羞關注度

: 美女 > 妹子 > 杜蕾斯 > 男女

人物關注度

: 馬化騰 > 孫正義 > 張繼科

外匯關注度

: 美金 > 日元 >泰銖

小結

: 我還是一位關注時政財經,愛好學習科技的不宅男青年!

時間成本:

1。 某易新聞APP介面查詢 - 3分鐘

2。 Python爬蟲資料編寫和爬取資料 - 10分鐘

3。 Python文字分析 - 26分鐘

4。 BDP視覺化 - 35分鐘(有個坑,和Tableua詞雲不同的地方是詞頻規則,又加工了下資料)

5。 文章編寫: 30 分鐘。(反覆修改了幾次, 還會在修改)

附錄:

1。 BDP分享連結:https://me。bdp。cn/api/su/TP3X6FYN

2。 分析中所涉及程式碼,有興趣可以留言。