Python學習100天-Day13(資料分析篇-pandas01)

Day13-資料型別

Python學習100天-Day13(資料分析篇-pandas01)

pandas庫是一個高效的資料處理庫,pandas有它自己的一個介紹的官網:http://pandas。pydata。org,大家可以進入開啟documentation看一下關於pandas的一介紹,上面非常詳細的介紹了pandas庫的所有東西,例如,他的一些物件,使用方法等,而且每一個方法的說明現都有例子,這個可以作為我們學習pandas的工具書。

第一天我們來學習一下pandas庫中有兩種特殊的資料結構:

Series型別

我們先看一個例子來了解一下Series型別

Python學習100天-Day13(資料分析篇-pandas01)

Series類似於python中的list結構,所以Series可以直接用列表建立 Series中的元素結構也可以任意定義。但是更靈活的是Series可以自定義索引,如果沒有定義,索引就是預設從0開始。

Python學習100天-Day13(資料分析篇-pandas01)

有一個小技巧就是可以利用tab鍵來自動補全程式碼輸入im加tab就可以補全import。

透過index引數的設定,可以改變索引號,所以s[1]現在是1,s1[1]對應的是2。這樣看,Series又有點類似於python中的dict結構呢,有索引,索引有對應的值,因此也可以像字典結構一樣根據索引檢視值和修改值。同理也可以用dict結構直接構建Series。例如:

data = {‘name’:‘ren’,‘gender’:‘female’,‘age’:‘guess’}b = Series(data)

解釋一下程式碼的含義,第二行的意思就是建立了一個Series資料物件s,其實Series是pandas模組中的一個類,還記得之前說的類的含義嗎,當s被建立為Series類之後,也繼承了Series的方法、函式或者變數。看一下Series有哪些方法可以檢視說明文件

Python學習100天-Day13(資料分析篇-pandas01)

有很多型別,我們隨便開啟一個Series。size,點進去看一下:

Python學習100天-Day13(資料分析篇-pandas01)

返回基礎資料中的元素數。

如果英文水平不夠可以藉助翻譯軟體,意思差不多就可以理解,嘗試一下這個函式:

Python學習100天-Day13(資料分析篇-pandas01)

再介紹一個複雜一點的方法,Series。drop()

Python學習100天-Day13(資料分析篇-pandas01)

可以簡單理解這個方法的作用就是刪除Series指定索引的元素,還有方法的全部引數的意義,下面還有例子,我們可以簡單嘗試一下使用方法

Python學習100天-Day13(資料分析篇-pandas01)

利用了兩個引數,首先是刪除索引號為1,3 對應的元素,然後inplace=True的意思是,返回刪除後的結果給到s,如果沒有設定這個引數,其實s本體並沒有被刪除元素。大家可以根據說明文件的介紹嘗試一下,或者遇到問題可以查詢一下這個類有沒有這種方法,如果有就可以直接拿來使用了,不用自己在重複編碼實現了。

DataFrame

DataFrame 是表格資料型別,可以看作有序排列的若干 Series 物件。也是pandas庫裡面的一個類,也有它的方法,建立DF物件後就可以直接呼叫。

也是用一個例子來看一下DataFrame資料結構:

Python學習100天-Day13(資料分析篇-pandas01)

有兩個知識點,第一個是DF需要透過字典的形式建立。如果沒有指定索引,也是預設0開始,透過呼叫DF的方法,set_index,可以重新設定DF資料的索引。

今天就簡單介紹一下pandas最重要的兩個資料型別,有問題就可以去檢視官方說明文件,DF型別只是簡單介紹了一下,後面資料分析的學習主要用的資料型別就是DF,所以有面會對DF型別資料作進一步學習,如果不是很理解的話,就可以把DF型別看作成一個excel表。