Python爬取網頁速度為什麼那麼快？它是透過什麼去爬取的？

本文的文字及圖片來源於網路，僅供學習、交流使用，不具有任何商業用途，版權歸原作者所有，如有問題請及時聯絡我們以作處理

私信小編回覆01可領取學習資料以及學習影片

一、前言

python爬蟲是最方便最快捷的，今天給大家帶來爬取網頁，看看速度會有多快，爬取資料，基本都是透過網頁的URL得到這個網頁的原始碼，根據原始碼篩選出需要的資訊

二、使用環境和使用庫

IDE：PyCharm

庫：requests、lxml

搭建環境

這裡的搭建環境，可不是搭建python的開發環境，這裡的搭建環境是指，我們使用pycharm新建一個python專案，然後弄好requests和lxml

三、爬取步驟

requests：獲取網頁原始碼

lxml：得到網頁原始碼中的指定資料

新建一個專案：

依賴庫匯入

由於我們使用的是pycharm，所以我們匯入這兩個庫就會顯得格外簡單

import requests

獲取網頁原始碼

requests可以很方便地讓我們得到網頁的原始碼網頁。

獲取原始碼：

# 獲取原始碼html = requests。get（“https：//coder-lida。github。io/”）# 列印原始碼print html。text

程式碼就是這麼簡單，這個html。text便是這個URL的原始碼

完整程式碼：

import requestsimport lxmlhtml = requests。get（“https：//coder-lida。github。io/”）print （html。text）

列印：

獲取指定資料

現在我們已經得到網頁原始碼了，這時就需要用到lxml來來篩選出我們所需要的資訊這裡我就以得到我部落格列表為例，可以找到原網頁透過F12檢視XPath，如圖

透過XPath的語法獲得網頁的內容。

檢視第一篇文章標題

//*［@id=“layout-cart”］/div［1］/a/@title

// 定位根節點 / 往下層尋找提取文字內容：/text（）提取屬性內容：/@xxxx

import requestsfrom lxml import etreehtml = requests。get（“https：//coder-lida。github。io/”）#print （html。text）etree_html = etree。HTML（html。text）content = etree_html。xpath（‘//*［@id=“layout-cart”］/div［1］/a/@title’）print（content）

檢視所有文章標題

//*［@id=“layout-cart”］/div/a/@title

程式碼：

輸出：

［‘ springboot逆向工程 ’， ‘ 自己實現一個簡單版的HashMap ’， ‘ 開發中常用的個JavaScript 單行程式碼 ’， ‘ shiro 加密登入密碼加鹽處理 ’， ‘ Spring Boot構建RESTful API與單元測試 ’， ‘ 記一次jsoup的使用 ’］