今天1024!Python前來報到!爬取全網M子圖片

今天是1024程式設計師節,不得整點活~ 雖然不太好教爬1024,但是可以爬點其它的! 比如妹子圖,這不都是各位喜歡的~

今天1024!Python前來報到!爬取全網M子圖片

程式碼流程

模擬瀏覽器向伺服器傳送一個http請求,網站接收到請求後返回資料。 在寫爬蟲程式碼的時候一定先要去模擬瀏覽器訪問,因為現在的網站當接收到http請求後會校驗當前請求是否是一個瀏覽器,如果是,允許訪問,如果不是,禁止訪問!

今天1024!Python前來報到!爬取全網M子圖片

環境啥的我就不說了,還是老樣子~ 首先把我們要用的包導進去

今天1024!Python前來報到!爬取全網M子圖片

然後我們就要開始模擬瀏覽器

今天1024!Python前來報到!爬取全網M子圖片

既然我們要下載,當然要有資料夾去儲存對吧,這裡就實現自動建立資料夾,不用我們去額外建立。

今天1024!Python前來報到!爬取全網M子圖片

當然,為了不讓你的小秘密被別人看到,咱們這裡就把它命名為學習資料吧~

今天1024!Python前來報到!爬取全網M子圖片

我們現在來發送請求,http協議中 有幾種請求方法:

get 獲取資料

post 資料提交 [賬號密碼提交]

今天1024!Python前來報到!爬取全網M子圖片

print(html) 對剛剛抓取到的資料進行二次篩選 需要兩個引數,想要二次提取的網頁 html變數臨時儲存了。

html解析庫 lxml pip install lxml html解析庫可以將html程式碼轉成我們的python物件

今天1024!Python前來報到!爬取全網M子圖片

透過剛剛分析得出一個結論,一張圖片是由img標籤儲存的,li標籤包含一個img標籤。

如果我們獲取了所有的li標籤,相當於獲取到了所有的img標籤,因為一個ul標籤包含了所有的li標籤,所以獲取一個ul就相當於獲取到了所有的li標籤。 遍歷所有的li標籤

今天1024!Python前來報到!爬取全網M子圖片

這個時候就可以開始下載了

今天1024!Python前來報到!爬取全網M子圖片

當然,只下載一頁的話當然不過癮,咱們這裡就來實現翻頁下載,當然,別爬多了,剋制一下自己。

程式碼雖好,但還是要剋制一下自己喲~

今天1024!Python前來報到!爬取全網M子圖片

你要下載多少頁,直接改成多少頁就好了。

我們看看結果

今天1024!Python前來報到!爬取全網M子圖片

今天1024!Python前來報到!爬取全網M子圖片

只能打碼了,委婉一點。 資料夾我也不打開了,大家等下自己去試試,然後再慢慢開啟把哈哈~

今天1024!Python前來報到!爬取全網M子圖片

兄弟們,如果看完了感覺還過的去的話,記得來個三連,你的三連就是我最大的動力!

有啥問題和建議都可以在評論區一起交流~