結果
首先匯入相關庫:
import requestsimport reimport os
告訴對方自己的身份:
header = { “user-agent”: “Mozilla/5。0 (Windows NT 10。0; Win64; x64) AppleWebKit/537。36 (KHTML, like Gecko) Chrome/79。0。3945。130 Safari/537。36”}
獲取方式:開啟瀏覽器 -> 右鍵 -> 檢查 ->Network
user-agent
獲取網址的文字(同右鍵 -> 檢視網頁原始碼):
# 獲取網站的文字html = requests。get(“https://www。huya。com/g/2168”, headers=header)。text
獲得需要的資訊(圖片地址、主播名、板塊名):
網址
# 獲取圖片的連結,返回一個列表urls = re。findall(‘’, html)# 獲取主播的名字names = re。findall(‘’, html)file_dir = re。findall(‘
(。*?)
’, html)[0]建立一個資料夾,用來儲存圖片
# 如果資料夾不存在,則建立資料夾if not os。path。exists(file_dir): os。mkdir(file_dir)
自此,所有需要的資訊均以爬取成功;
下一步則只需要將圖片下載儲存到資料夾中,並和主播名對應:
for index in range(len(urls)): if urls[index][:4] != “http”: continue # 刪除前後空格,以“?”為分割符 url = urls[index]。strip()。split(“?”)[0] # 獲取url img = requests。get(url, headers=header) # 設定檔名:資料夾\主播名。jpg file_name = file_dir + “\\” + names[index] + “。jpg” # 以二進位制方式寫入檔案 with open(file_name, “wb”) as f: f。write(img。content)
自此,大功告成!