第7章 資料彙總
本章主要講解如何對資料進行分類彙總。Excel中使用分類彙總和資料透視可以按特定維度對資料進行彙總,Python中使用的主要函式是groupby和pivot_table。下面分別介紹這兩個函式的使用方法。
1。 分類彙總
Excel的資料目錄下提供了“分類彙總”功能,可以按指定的欄位和彙總方式對資料表進行彙總。Python中透過Groupby函式完成相應的操作,並可以支援多級分類彙總。
Groupby是進行分類彙總的函式,使用方法很簡單,制定要分組的列名稱就可以,也可以同時制定多個列名稱,groupby按列名稱出現的順序進行分組。同時要制定分組後的彙總方式,常見的是計數和求和兩種。
可以在groupby中設定列名稱來對特定的列進行彙總。下面的程式碼中按城市對id欄位進行彙總計數。
在前面的基礎上增加第二個列名稱,分佈對city和size兩個欄位進行計數彙總。
除了計數和求和外,還可以對彙總後的資料同時按多個維度進行計算,下面的程式碼中按城市對price欄位進行彙總,並分別計算price的數量,總金額和平均金額。
2。 資料透視
Excel中的插入目錄下提供“資料透視表”功能對資料表按特定維度進行彙總。Python中也提供了資料透視表功能。透過pivot_table函式實現同樣的效果。
資料透視表也是常用的一種資料分類彙總方式,並且功能上比groupby要強大一些。下面的程式碼中設定city為行欄位,size為列欄位,price為值欄位。分別計算price的數量和金額並且按行與列進行彙總。
第8章 資料統計
本章主要介紹資料取樣,標準差,協方差和相關係數的使用方法。
1。 資料取樣
Excel的資料分析功能中提供了資料抽樣的功能,如下圖所示。Python透過sample函式完成資料取樣。
Sample是進行資料取樣的函式,設定n的數量就可以了。函式自動返回參與的結果。
Weights引數是取樣的權重,透過設定不同的權重可以更改取樣的結果,權重高的資料將更有希望被選中。這裡手動設定6條資料的權重值。將前面4個設定為0,後面兩個分別設定為0。5。
從取樣結果中可以看出,後兩條權重高的資料被選中。
Sample函式中還有一個引數replace,用來設定取樣後是否放回。
2。 描述統計
Excel中的資料分析中提供了描述統計的功能。Python中可以透過Describe對資料進行描述統計。
Describe函式是進行描述統計的函式,自動生成資料的數量,均值,標準差等資料。下面的程式碼中對資料表進行描述統計,並使用round函式設定結果顯示的小數位。並對結果資料進行轉置。
3。 標準差
Python中的Std函式用來接算特定資料列的標準差。
4。 協方差
Excel中的資料分析功能中提供協方差的計算,Python中透過cov函式計算兩個欄位或資料表中各欄位間的協方差。
Cov函式用來計算兩個欄位間的協方差,可以只對特定欄位進行計算,也可以對整個資料表中各個列之間進行計算。
5。 相關分析
Excel的資料分析功能中提供了相關係數的計算功能,Python中則透過corr函式完成相關分析的操作,並返回相關係數。
Corr函式用來計算資料間的相關係數,可以單獨對特定資料進行計算,也可以對整個資料表中各個列進行計算。相關係數在-1到1之間,接近1為正相關,接近-1為負相關,0為不相關。
今天先更新到這裡啦,大家夥兒先自行消化下,明天繼續。
強迫症學習的同學想多學習找我拿走自己學習就可以啦。
加油加油!!!
獲取方式:
轉發+關注啦,最後麻煩私信“學習資料”獲取!
私信方式:
第一步,點選頭像。
第二部:頭像旁邊有一個私信按鈕,傳送{學習資料}即可!