python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

網絡爬蟲 Scrapy 技術糊說理道糊說理道 2017-09-28

使用 scrapy 抓取知乎API數據並存儲到 sqlite3 和 csv文件中

1. 項目準備 —— 繼續使用上一篇文章中的項目做修改

2. 項目結構，新增了test目錄以及questionData.py文件，後續用來查看數據是否已經寫入數據庫

項目結構

3. 修改配置文件setting.py

（1）調高日誌級別，去除無用的干擾日誌

LOG_LEVEL= 'WARNING'

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

設置日誌級別

（2）去除中間件註釋，計算爬蟲耗時

SPIDER_MIDDLEWARES = {
'zhihuSpider.middlewares.ZhihuspiderSpiderMiddleware': 543,
}

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

去除中間件註釋

（3）去除 ITEM_PIPELINES 註釋，並添加一條規則

ITEM_PIPELINES = {
'zhihuSpider.pipelines.ZhihuspiderWriteToCSVPipeline': 300, # ZhihuspiderWriteToCSVPipeline 與 pipelines 中 class 名稱相同
'zhihuSpider.pipelines.ZhihuspiderWriteToDBPipeline': 400 # ZhihuspiderWriteToDBPipeline 與 pipelines 中 class 名稱相同
}

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

去除 ITEM_PIPELINES 註釋

4. 修改 middlewares.py 文件，計算爬蟲時間

（1）導入 time 模塊

import time

（2）在 from_crawler 方法中添加以下內容，監聽爬蟲開始與結束

crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)

（3）增加並修改 spider_opened 和 spider_closed 方法

def spider_opened(self, spider):
self.startTime = time.time()
print(' 爬蟲開始 '.center(50, "*"))
print((' 開始時間：%.2f ' % self.startTime).center(50, "*"))
def spider_closed(self, spider):
self.endTime = time.time()
_t = self.endTime - self.startTime
print((' 結束時間：%.2f ' % self.endTime).center(50, "*"))
print((' 耗時：%.2f s ' % _t).center(50, "*"))
print(' 爬蟲結束 '.center(50, "*"))

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

middlewares.py 文件

5. 修改 pipelines.py 處理數據

（1）增加 ZhihuspiderWriteToCSVPipeline 類，數據寫入到csv文件（異常暫不處理）

class ZhihuspiderWriteToCSVPipeline(object):
def open_spider(self, spider):
self.csvFile = open(os.path.abspath('../test.csv'), "w+",newline='')
try:
self.write = csv.writer(self.csvFile)
self.write.writerow(('id', '問題'))
except Exception as e:
pass
def close_spider(self, spider):
self.csvFile.close()
def process_item(self, item, spider):
try:
self.write.writerow((item["qId"], item["qTitle"]))
except BaseException as e:
pass
return item

（2）增加 ZhihuspiderWriteToDBPipeline 類，數據寫入到 sqlite3

class ZhihuspiderWriteToDBPipeline(object):
def open_spider(self, spider):
try:
self.conn = sqlite3.connect(os.path.abspath('../test.db'))
self.cursor = self.conn.cursor()
self.cursor.execute('create table question (qId varchar(20) primary key, qTitle varchar(20))')
conn.commit()
except BaseException as e:
pass
def close_spider(self, spider):
try:
self.cursor.close()
self.conn.commit()
self.conn.close()
except BaseException as e:
pass
def process_item(self, item, spider):
try:
self.cursor.execute('insert into question (qId, qTitle) values (?, ?)', (item["qId"], item["qTitle"]))
except BaseException as e:
pass
return item

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

pipelines.py

6. 修改 items.py 文件

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

items.py

7. 修改主爬蟲文件 questionSpider.py

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

questionSpider.py

8. 修改數據測試文件 questionData.py

import sqlite3,os
conn = sqlite3.connect(os.path.abspath('../test.db'))
cursor = conn.cursor()
cursor.execute('select * from question')
values = cursor.fetchall()
cursor.close()
conn.close()
print(values)

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

questionData.py

9. 最後運行爬蟲就可以了

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

csv 文件

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

數據庫中的部分數據

PS: 知乎接口查找, 打開 https://www.zhihu.com/explore，向下滾動會發現如下請求

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

查看地址以及請求參數

python3網絡爬蟲 (5)-使用 scrapy 抓取知乎API數據並存儲

也可以在底部查看請求參數

喜歡就點個贊吧！

另付源碼地址：https://gitee.com/vuji/python3-webcrawler/tree/master/demo4/zhihuSpider

相關推薦

'Python3網絡爬蟲中的requests高級用法詳解'

"本節我們再來了解下 Requests 的一些高級用法，如文件上傳，代理設置，Cookies 設置等等。1. 文件上傳我們知道 Reqeuests 可以模擬提交一些數據，假如有的網站需要我們上傳文件，我們同樣可以利用它來上傳，實現非常簡單，實例如下：import reque...

Python 網絡爬蟲 JSON 腳本語言 Origin 知乎 2019-09-07

Python網絡爬蟲的三種數據解析方式

一.正解解析常用正則表達式回顧：單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字 [0-9] \...

網絡爬蟲 Python HTML Linux Chrome Windows XML 瀏覽器 Vi 煎蛋網 Google 2019-06-21

Python3網絡爬蟲實戰——正則表達式

本節我們看一下正則表達式的相關用法，正則表達式是處理字符串的強大的工具，它有自己特定的語法結構，有了它，實現字符串的檢索、替換、匹配驗證都不在話下。當然對...

Python 網絡爬蟲 HTML 編程語言 2019-06-19

Python爬蟲：Scrapy登錄知乎

因為現在很多網站為了限制爬蟲，設置了為只有登錄才能看更多的內容，不登錄只能看到部分內容，這也是一種反爬蟲的手段，所以這個文章通過模擬登錄知乎來作為例子，演...

網絡爬蟲 Scrapy 知乎 Python HTML JSON WebKit OS X Safari Chrome Gecko Mac電腦文章 Mozilla 操作系統 2019-06-13

Python爬蟲：Scrapy使用scrapyd進行分佈式部署

按照上一篇文章中我們將代碼放到遠程主機是通過拷貝或者git的方式，但是如果考慮到我們又多臺遠程主機的情況，這種方式就比較麻煩，那有沒有好用的方法呢？這裡其...

Python Scrapy 網絡爬蟲 GitHub Linux Git 虛擬機 Ubuntu 瀏覽器知乎電腦文章 2019-06-13

Python爬蟲之模擬知乎登錄

Python爬蟲之模擬知乎登錄經常寫爬蟲的都知道，有些頁面在登錄之前是被禁止抓取的，比如知乎的話題頁面就要求用戶登錄才能訪問，而 “登錄” 離不開 HTT...

Python 網絡爬蟲知乎瀏覽器 Chrome 2019-05-23

快速掌握數據來源-網絡爬蟲技術（工信部資料,全文下載來了！）

“有用”的爬蟲技術對於大數據行業，數據的價值不言而喻，在這個信息爆炸的年代，互聯網上有太多的信息數據，對於中小微公司，合理利用爬蟲爬取有價值的數據，是彌補...

網絡爬蟲 Nutch 技術數據庫移動互聯網大數據 Scrapy 金融搜索引擎 Java Python 瀏覽器數據挖掘百度支付寶 Google 腳本語言住房公積金 2019-05-18

Python網絡爬蟲進階之Scrapy框架安裝配置

文章來源：成都科多大數據初級的爬蟲我們利用urllib和urllib2庫以及正則表達式就可以完成了，不過還有更加強大的工具，爬蟲框架Scrapy，這安裝過...

編程語言 Python 網絡爬蟲 Scrapy OpenSSL 2018-12-07

最新｜爬蟲爬了下知乎上的回答，整理了80條超級搞笑的回覆

1Q: 你隨身攜帶或佩戴最久的那件東西是什麼？對你有什麼特殊的意義？A: 眼鏡，因為瞎2Q: 有哪些東西你以為很貴，但其實很便宜？A: 大學剛畢業的我。3...

知乎火影忍者韓國網絡爬蟲日本動漫 2018-11-28

Python高級爬蟲抓取知乎百萬數據，基於ELK可視化數據分析（附源碼

數據量：3,289,329 人。數據採集工具：分佈式 python 爬蟲分析工具：ElasticSearch + Kibana分析角度包括：地理位置、男女比例、各類排名、所在高校、活躍程度等。注意：源碼地址：以下所有分析結果都基於我抓取到的這300萬用戶的個人信息，非權威分...

ç¼ç¨è¯è¨ ç½ç»ç¬è« Python Scrapy å¯è§å Pythonä¹å 2017-11-17

python編寫知乎爬蟲實踐

爬蟲的基本流程網絡爬蟲的基本工作流程如下：首先選取一部分精心挑選的種子URL將種子URL加入任務隊列從待抓取URL隊列中取出待抓取的URL，解析DNS，並...

編程語言網絡爬蟲 Python 文章 2017-06-16

知乎機器人｜爬蟲+自動點贊/私信/評論

知乎引用百度百科知乎是一個真實的網絡問答社區社區氛圍友好與理性知乎機器人簡介簡介在github上看了一個開源項目針對知乎的機器人可實現以下功能:自動點...

機器人網絡爬蟲移動互聯網編程語言 2017-06-15

Python3：一個簡單入門的微博網絡爬蟲（以范冰冰為例）

網絡上有很多關於Python網絡爬蟲，但大都是Python2版本，而Python3的版本較少，如果有也會經常有不明就裡的錯誤。因此小編綜合了多個來源程序，...

編程語言微博網絡爬蟲 Python 2017-06-13

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

1.前言大數據時代，數據的來源成員眾多公司和研究者的心頭疼，每家公司都說是自己的數據，都不會承認自己建設有網絡爬蟲，而實際上，你懂得。一般網絡爬蟲爬取數據...

編程語言 Python 網絡爬蟲 HTML 2017-05-27

從零實現一個高性能網絡爬蟲（二）應對反爬蟲之前端數據混淆

摘要上一篇以知乎網為例簡單分享網絡請求分析。這一篇主要分享一種應對反爬蟲的方法，前端數據混淆。目的之前寫https://github.com/wycm/z...

編程語言網絡爬蟲 HTML Java 2017-05-21

Python爬蟲框架Scrapy之爬取糗事百科大量段子數據

感興趣的可以關注我，之後會發出爬去亞馬遜商品評論的數據，還有更多高質量原創文章發出！如上篇文章所述，首先，準備scrapy環境：安裝Python，pip，...

編程語言 Scrapy 網絡爬蟲 Python 2017-05-21

Python爬蟲：新浪新聞詳情頁的數據抓取（函數版）

Paste_Image.png上一篇文章《Python爬蟲：抓取新浪新聞數據》詳細解說了如何抓取新浪新聞詳情頁的相關數據，但代碼的構建不利於後續擴展，每次...

編程語言 Python 網絡爬蟲 JSON 2017-05-20

Python 網絡爬蟲數據採集

第1節準備工具【怪獸IT學院】知識結構/路線圖/環境工具準備(3月6日 20:30-21:15)第2節網站與網頁【怪獸IT學院】網站/網頁前端技術概述(3月8日 20:30-21:30)【怪獸IT學院】站點結構處理(5分鐘)【怪獸IT學院】HTML定義網頁結構(26分鐘)【...

NoSQL Python 網絡爬蟲編程語言 2017-05-20

一名合格的數據分析師分享Python網絡爬蟲二三事（上）

一前言作為一名合格的數據分析師，其完整的技術知識體系必須貫穿數據獲取、數據存儲、數據提取、數據分析、數據挖掘、數據可視化等各大部分。在此作為初出茅廬的數...

編程語言網絡爬蟲 Python HTML 2017-05-13

從環境基礎到進階分佈式Python3網絡爬蟲實戰案例網盤下載

課程名稱：自己動手，豐衣足食！Python3網絡爬蟲實戰案例適用人群：萌新小白：我連爬蟲也不知道是什麼入門菜鳥：我對一些爬蟲的用法還不是很熟練老司機：我想學習更高級的框架及分佈式從環境基礎到進階分佈式，由淺入深，逐篇遞進。編程語言：Python3課程定價：499課程列表：一...

編程語言 Python 網絡爬蟲 NoSQL 2017-05-10

推薦中...