近年來，隨著大資料、人工智慧、機器學習等技術的興起，Python 語言也越來越為人們所喜愛。但早在這些技術普及之前，Python 就一直擔負著一個重要的工作：自動化抓取網頁內容。

舉個栗子，飛機票的價格每時每刻都在變化，甚至有些 app，你搜索的越多，價格就越貴。那不搜又不行啊，怎麼樣才能知道確切的價格呢？

這就是 Python 大顯身手的時候啦~ 我們可以用Python寫一段程式，讓它自動幫你從網路上獲取需要的資料——這就是所謂的“爬蟲程式”——它能從你指定的一個或多個網站上讀取並記錄資料（比如從某個航班資料網站上讀取指定日期和航線的機票資訊），並根據資料進行一些自動操作，比如記錄下最低價，並通知使用者。

總結一下：

網頁抓取是一種透過自動化程式從網頁上獲取頁面內容的計算機軟體技術。

我們這裡說的“爬蟲”，正式名稱叫做“網頁抓取”。按照維基百科的說法，網頁抓取和大多數搜尋引擎採用的網頁索引的爬蟲技術不同，網頁抓取更側重於將網路上的非結構化資料（常見的是HTML格式）轉換成為能在一箇中央資料庫中儲存和分析的結構化資料。“網頁抓取也涉及到網路自動化，它利用計算機軟體模擬了人的瀏覽。網頁抓取的用途包括線上比價，聯絡人資料抓取，氣象資料監測，網頁變化檢測，以及各類科研和Web資料整合等。”

對於一般使用者，我們主要關注的就是網頁抓取。因此，以下提到的“爬蟲”一律指網頁抓取所用的自動化程式。

在今天的文章裡，我們將帶你從最基礎的工具和庫入手，詳細瞭解一下一個爬蟲程式的常用結構，爬取網路資料時應該遵循哪些規則，存在哪些陷阱；最後，我們還將解答一些常見的問題，比如反追蹤，該做什麼不該做什麼，以及如何採用並行處理技術加速你的爬蟲等等。

文中介紹的每項內容都會附上 Python 的例項程式碼，方便你可以直接上手試玩。同時，我們還會介紹幾個非常有用的 Python 庫。

本教程主要分為5個部分：

1。常用的程式碼庫和工具

2。從最簡單的例子開始

3。小心陷阱

4。一些規則

5。利用並行加速爬蟲程式

在開始之前，請記住：務必善待伺服器，我們並不希望把人家網站弄掛了，是吧。

1。常用的程式碼庫和工具

總的來說，網頁抓取並沒有一個一成不變的解決方案，畢竟通常每個網站的資料都因為網站自身結構的不同而具有各不相同的特性。事實上，如果你希望從某個網站上抓取資料，你需要對這個網站的結構有足夠的理解，針對這個網站自己寫出對應的指令碼，或將某個指令碼設定到符合網站的結構，才可能成功。不過，你也無須重新發明輪子：已經有很多不同的程式碼庫，能幫你完成絕大多數底層的工作，它們多多少少都能幫上你一點忙。

1。1“檢查”選項

大部分時候，在實際爬取之前，你都需要熟悉網站的 HTML 程式碼。你可以簡單地在你想檢視的網頁元素上點選右鍵，選擇“檢查”（Chrome）或者“檢視元素”（火狐）