Python爬蟲之模擬知乎登錄

Python 網絡爬蟲知乎瀏覽器 Chrome 碼坊 2019-05-23

Python爬蟲之模擬知乎登錄

經常寫爬蟲的都知道，有些頁面在登錄之前是被禁止抓取的，比如知乎的話題頁面就要求用戶登錄才能訪問，而 “登錄” 離不開 HTTP 中的 Cookie 技術。

登錄原理

Cookie 的原理非常簡單，因為 HTTP 是一種無狀態的協議，因此為了在無狀態的 HTTP 協議之上維護會話（session）狀態，讓服務器知道當前是和哪個客戶在打交道，Cookie 技術出現了，Cookie 相當於是服務端分配給客戶端的一個標識。

瀏覽器第一次發起 HTTP 請求時，沒有攜帶任何 Cookie 信息
服務器把 HTTP 響應，同時還有一個 Cookie 信息，一起返回給瀏覽器
瀏覽器第二次請求就把服務器返回的 Cookie 信息一起發送給服務器
服務器收到HTTP請求，發現請求頭中有Cookie字段，便知道之前就和這個用戶打過交道了。

實戰應用

用過知乎的都知道，只要提供用戶名和密碼以及驗證碼之後即可登錄。當然，這只是我們眼中看到的現象。而背後隱藏的技術細節就需要藉助瀏覽器來挖掘了。現在我們就用 Chrome 來查看當我們填完表單後，究竟發生了什麼？

（如果已經登錄的，先退出）首先進入知乎的登錄頁面 www.zhihu.com/#signin ，打開 Chrome 的開發者工具條（按 F12）先嚐試輸入一個錯誤的驗證碼觀察瀏覽器是如何發送請求的。

從瀏覽器的請求可以發現幾個關鍵的信息

登錄的 URL 地址是 www.zhihu.com/login/email
登錄需要提供的表單數據有4個：用戶名（email）、密碼（password）、驗證碼（captcha）、_xsrf。
獲取驗證碼的URL地址是 www.zhihu.com/captcha.gif…

_xsrf 是什麼？如果你對CSRF（跨站請求偽造）攻擊非常熟悉的話，那麼你一定知道它的作用，xsrf是一串偽隨機數，它是用於防止跨站請求偽造的。它一般存在網頁的 form 表單標籤中，為了證實這一點，可以在頁面上搜索 “xsrf”，果然，_xsrf在一個隱藏的 input 標籤中

摸清了瀏覽器登錄時所需要的數據是如何獲取之後，那麼現在就可以開始寫代碼用 Python 模擬瀏覽器來登錄了。登錄時所依賴的兩個第三方庫是 requests 和 BeautifulSoup，先安裝

pip install beautifulsoup4==4.5.3
pip install requests==2.13.0
複製代碼

http.cookiejar 模塊可用於自動處理HTTP Cookie，LWPCookieJar 對象就是對 cookies 的封裝，它支持把 cookies 保存到文件以及從文件中加載。

而 session 對象提供了 Cookie 的持久化，連接池功能，可以通過 session 對象發送請求

首先從cookies.txt 文件中加載 cookie信息，因為首次運行還沒有cookie，所有會出現 LoadError 異常。

from http import cookiejar
session = requests.session()
session.cookies = cookiejar.LWPCookieJar(filename='cookies.txt')
try:
 session.cookies.load(ignore_discard=True)
except LoadError:
 print("load cookies failed")
複製代碼

獲取 xsrf

前面已經找到了 xsrf 所在的標籤，，利用 BeatifulSoup 的 find 方法可以非常便捷的獲取該值

def get_xsrf():
 response = session.get("https://www.zhihu.com", headers=headers)
 soup = BeautifulSoup(response.content, "html.parser")
 xsrf = soup.find('input', attrs={"name": "_xsrf"}).get("value")
 return xsrf
複製代碼

獲取驗證碼

驗證碼是通過 /captcha.gif 接口返回的，這裡我們把驗證碼圖片下載保存到當前目錄，由人工識別，當然你可以用第三方支持庫來自動識別，比如 pytesser。

def get_captcha():
 """
 把驗證碼圖片保存到當前目錄，手動識別驗證碼
 :return:
 """
 t = str(int(time.time() * 1000))
 captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login"
 r = session.get(captcha_url, headers=headers)
 with open('captcha.jpg', 'wb') as f:
 f.write(r.content)
 captcha = input("驗證碼：")
 return captcha
複製代碼

登錄

一切參數準備就緒之後，就可以請求登錄接口了。

def login(email, password):
 login_url = 'https://www.zhihu.com/login/email'
 data = {
 'email': email,
 'password': password,
 '_xsrf': get_xsrf(),
 "captcha": get_captcha(),
 'remember_me': 'true'}
 response = session.post(login_url, data=data, headers=headers)
 login_code = response.json()
 print(login_code['msg'])
 for i in session.cookies:
 print(i)
 session.cookies.save()
複製代碼

請求成功後，session 會自動把服務端的返回的cookie 信息填充到 session.cookies 對象中，下次請求時，客戶端就可以自動攜帶這些cookie去訪問那些需要登錄的頁面了。

源碼：https://github.com/lzjun567/crawler_html2pdf/blob/master/zhihu/auto_login.py

相關推薦

'知乎13萬贊！為何很多名校畢業生，都輸在了人生後半程（深度）'

"01.生活因何而變如果在截至目前的人生裡，有什麼事情是我認為我領悟到的最重要的，那就是：人的生活就像投資品價值一樣，是存在均值迴歸的。那個均值，就是你內心最深處的衝動，是你真正的慾望，是你到底是一個什麼樣的人。我的成長經歷，如果刨去在學校裡因為紀律不好、早戀、翹課、打架、...

金融不完美媽媽大學知乎經濟數學哈佛大學溫哥華李白人生第一份工作創業高考程序員留學清華大學 2019-09-18

'知乎 200 萬點擊：這 10 本繪本，讓你的孩子更聰明'

"語言能非常好的刺激孩子的大腦，讓孩子變得更聰明。給孩子讀繪本，能極大增強孩子的語言能力。英國的教育專家經過研究發現，從嬰兒時期就開始閱讀的寶寶，在上小學後比同齡人表現出更優秀的學習能力和更好的成績。美國圖書館協會提出“born to read （從出生開始閱讀）”，重點培...

不完美媽媽知乎讀書艾瑞·卡爾動物鱷魚豆瓣網蘋果玩具最in買手君探路者蝴蝶 2019-09-18

'知乎上37個深刻回答：看完人生豁然開朗（值得收藏）'

"01怎麼定義「想清楚了」？“想清楚了”就是以後出了什麼問題，你只能找個沒人的地方抽自己，再也不能抱怨別人了。02你交朋友的標準是什麼？出世的智者，入世的強者，或者正常而陽光的普通人。03「別讓孩子輸在起跑線上」有道理嗎？一輩子都要和別人去比較，04做哪些事情可以提升生活品...

收藏知乎戀愛不完美媽媽抑鬱症原汁原味的德系SUV 2019-09-16

'知乎22個深刻回答：看完人生豁然開朗'

" 01 怎麼反駁“你行你上啊”的邏輯？天涯名句：我評論個電冰箱，自己還得會製冷啊？ 02 為什麼部分人會產生一種印象：“聰明智慧的姑娘都被憨憨的小夥兒搞定了”？嚴肅地說，我覺得，要麼姑娘只是看起來聰明，要麼小夥兒只是看起來憨…… 03 你心中的完美愛情是怎麼樣的？可以有不...

知乎戀愛不完美媽媽讀書 2019-09-16

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'知乎高贊：30歲前，這一種思維請逼自己養成'

"最近知乎上有個話題很火：二十多歲做什麼，將來才不後悔？不少網友分享了自己曾經的迷茫和焦慮： “二十多歲，又窮又迷茫的年紀，往往我們已經很努力了，但生活依然沒有改變的跡象，人生就如同走進了一個死衚衕，怎麼努力也走不出來。” 愛因斯坦曾說，某一個層次的問題，很難靠這一個層次...

知乎人工智能物理人生第一份工作阿爾伯特·愛因斯坦跳槽那些事兒生活大爆炸生物阿里巴巴集團史蒂芬·霍金大學英國加州理工學院馬雲 2019-09-16

'知乎高贊：父母們最愛的“毒雞湯”，養廢了多少孩子'

"本文經授權轉自公眾號網易談心社（ID：txs163）電視劇《康熙王朝》裡有這麼一段：順治皇帝因為心愛的鄂貴妃去世，看破紅塵、無心皇位，想要出家當和尚。孝莊太后為了顧全大局，給了順治一碗毒藥。並非真心想要置他於死地，只是以此逼迫他斷了出家的念頭。恰好年幼的康熙躲在門口看到祖...

不完美媽媽康熙孝莊文皇后順治帝康熙王朝雞湯王朔知乎阿爾伯特·愛因斯坦人生第一份工作 2019-09-15

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'知乎高贊、孫儷親歷：別再挑原生家庭的刺了！你的失敗與父母無關'

"知乎高贊問題：所謂原生家庭對孩子的影響是否被妖魔化了？原生家庭對孩子的影響真的有那麼大嗎？還是說現在父母的教育已經變成成年人推脫自己失敗人生的藉口了呢？自己性格上的缺陷都可以追溯到小時候父母做過的某某事上，這樣是不是一種推卸責任的表現呢？您好！謝邀，感謝信任，我是心融有道...

知乎不完美媽媽孫儷文章網易有道發現佩奇人生第一份工作 2019-09-14

'百度、快手、牽手知乎！給中國互聯網的三大新啟示'

"百度、快手、牽手知乎！給中國互聯網的三大新啟示國內“大媒體”領域的競爭異常激烈，傳統的收購模式難以激發企業保持自己的基因繼續創新。各大互聯網巨頭開始彼此之間加強更緊密大合作，來抱團取暖。就在上個月，知乎完成來4.34 億美元的F輪融資，本次融資由快手領投、百度跟投，騰訊、...

知乎百度移動互聯網騰訊投資人工智能搜狗推薦技術社交網絡技術王小川滴滴打車美團網阿里巴巴集團算法 2019-09-14

'信息時代，長期通過微信、知乎接收碎片化的知識有什麼弊端？'

"-01-在這個時代，我們難免會接觸到各式各樣的碎片化內容。上次寫完讀書筆記內容之後，有很多讀者在問，碎片化信息完全不需要讀嗎？兩者之間怎麼取捨？今天，我們來詳細說一說。在閱讀的時候，不管是碎片化內容還是書本內容，我們讀到的都是描述性的信息，經過大腦的加工內化為知識。而信息...

微信知乎讀書 Evernote 時間管理文章軟件有道雲筆記管理微博 2019-09-14

'知乎高贊回答：那些真正厲害的人，從來都在默默努力'

"分享一篇文章《知乎高贊回答：那些真正厲害的人，從來都在默默努力》，“當你真正想做一件事情，你就去做、去努力吧！你的付出，時間會看得見。當一點一滴的量變打到一定程度時，定會達到質的飛躍。”（資料來源：閱讀手冊微博）"

知乎讀書文章 2019-09-13

'諾獎得主屠呦呦知乎提問“什麼時候感到做一箇中國人很幸福？”'

"每一個平凡的中國人,只要腳踏實地,默默奉獻,都能做出自己的成績,在堅持和付出中獲得幸福。“從你的經歷來看,什麼時候感到做一箇中國人很幸福?”9月9日,諾貝爾獎得主屠呦呦以知乎首席提問官身份在知乎提問,邀請網友暢談生活中的點滴經歷,講述作為中國人的幸福。屠呦呦此次提問源自新...

屠呦呦知乎諾貝爾獎諾貝爾生理學或醫學獎瘧疾胡歌 2019-09-13

'知乎34個哲理句子，讓人深思'

"01“長大”這兩個字連偏旁部首都沒有，一定很孤單吧。小時候我們詞不達意，長大後我們言不由衷。終於到了小時候羨慕的年紀，卻沒能成為小時候羨慕的人。02所有的故事都會有一個答案，在最終答案到來之前，你是否耐得住性子，守得穩初心，等得到轉角的光明。03你不願意種花，你說，我不願...

知乎讀書 2019-09-13

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'美版知乎：中國人為什麼沉迷於自制食物？網友回答令人心酸'

"曾經有一個困惑外國人很久的問題“最好的烹飪是烹飪技巧還是愛？”對我們來說烹飪技術是製作美味食物的關鍵，但愛才是進入廚房的動力。對我們來說烹飪是一種家庭文化和家庭關係，我們喜歡吃自制的食物，這裡有愛和親情。如果說外出就餐是一種社交，那麼我們自制食物就是真正的盛宴。在國外美版...

烹飪技巧知乎吃在四海八方不完美媽媽調味品發現佩奇文化經濟 2019-09-10

'知乎女孩逆天改命真實故事：大學錄取通知書被父母撕了，我該怎麼辦？'

"如果此刻孤單不妨抬頭看看月亮來源|知乎匿名用戶前幾天知乎上有個提問，名字叫《大學錄取通知書被父母撕了，我該怎麼辦？》，由於父母嚴重的重男輕女與眼界短小，所以下面的回答非常熱烈。提問詳情是這樣的：大學錄取通知書被父母撕了，我該怎麼辦？“本人女，在一個普通縣城生活，成績一般，...

大學不完美媽媽知乎高考經濟跳槽那些事兒智能手機助學貸款 2019-09-10

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

推薦中...