Python爬蟲：Scrapy使用scrapyd進行分佈式部署

Python Scrapy 網絡爬蟲 GitHub Linux Git 虛擬機 Ubuntu 瀏覽器知乎電腦文章平地摔VS天然呆 2019-06-13

按照上一篇文章中我們將代碼放到遠程主機是通過拷貝或者git的方式，但是如果考慮到我們又多臺遠程主機的情況，這種方式就比較麻煩，那有沒有好用的方法呢？這裡其實可以通過scrapyd,下面是這個scrapyd的github地址：https://github.com/scrapy/scrapyd

當在遠程主機上安裝了scrapyd並啟動之後，就會再遠程主機上啟動一個web服務，默認是6800端口，這樣我們就可以通過http請求的方式，通過接口的方式管理我們scrapy項目，這樣就不需要在一個一個電腦連接拷貝過著通過git，關於scrapyd官方文檔地址：http://scrapyd.readthedocs.io/en/stable/

安裝scrapyd

安裝scrapyd：pip install scrapyd

這裡我在另外一臺ubuntu linux虛擬機中同樣安裝scrapy以及scrapyd等包，保證所要運行的爬蟲需要的包都完成安裝，這樣我們就有了兩臺linux，包括上篇文章中我們已經有的linux環境

在這裡有個小問題需要注意，默認scrapyd啟動是通過scrapyd就可以直接啟動，這裡bind綁定的ip地址是127.0.0.1端口是：6800，這裡為了其他虛擬機訪問講ip地址設置為0.0.0.0

scrapyd的配置文件：/usr/local/lib/python3.5/dist-packages/scrapyd/default_scrapyd.conf

這樣我們就可以通過瀏覽器訪問：

關於部署

如何通過scrapyd部署項目，這裡官方文檔提供一個地址：https://github.com/scrapy/scrapyd-client，即通過scrapyd-client進行操作

這裡的scrapyd-client主要實現以下內容：

把我們本地代碼打包生成egg文件
根據我們配置的url上傳到遠程服務器上

我們將我們本地的scrapy項目中scrapy.cfg配置文件進行配置：

我們其實還可以設置用戶名和密碼，不過這裡沒什麼必要，只設置了url

這裡設置url一定要注意：url = http://192.168.1.9:6800/addversion.json

最後的addversion.json不能少

我們在本地安裝pip install scrapy_client,安裝完成後執行：scrapyd-deploy

看到status:200表示已經成功

關於常用操作API

listprojects.json列出上傳的項目列表

listversions.json列出有某個上傳項目的版本

schedule.json遠程任務的啟動

下面我們啟動的三次就表示我們啟動了三個任務，也就是三個調度任務來運行zhihu這個爬蟲

同時當啟動完成後，我們可以通過頁面查看jobs，這裡因為我遠端服務器並沒有安裝scrapy_redis，所以顯示任務是完成了，我點開日誌並能看到詳細的日誌情況：

這裡出錯的原因就是我上面忘記在ubuntu虛擬機安裝scrapy_redis以及pymongo模塊，進行

pip install scrapy_redis pymongo安裝後重新啟動,就可以看到已經在運行的任務，同時點開Log日誌也能看到爬取到的內容：

listjobs.json列出所有的jobs任務

上面是通過頁面顯示所有的任務，這裡是通過命令獲取結果

cancel.json取消所有運行的任務

這裡可以將上面啟動的所有jobs都可以取消：

這樣當我們再次通過頁面查看，就可以看到所有的任務都是finshed狀態：

我相信看了上面這幾個方法你一定會覺得真不方便還需要輸入那麼長,所以有人替你幹了件好事把這些API進行的再次封裝：https://github.com/djm/python-scrapyd-api

關於python-scrapyd-api

該模塊可以讓我們直接在python代碼中進行上述那些api的操作

首先先安裝該模塊：pip install python-scrapyd-api

使用方法如下,這裡只演示了簡單的例子，其他方法其實使用很簡單按照規則寫就行：

from scrapyd_api import ScrapydAPI

scrapyd = ScrapydAPI('http://192.168.1.9:6800')
res = scrapyd.list_projects()
res2 = scrapyd.list_jobs('zhihu_user')
print(res)
print(res2)

做什麼事情都需要不斷地堅持下去，編程也一樣。現在python語言十分火熱，職場對python的需求也很高，薪資待遇都很棒。所以希望大家能夠堅持學習，‘剩’者為王，堅持下來的人才有資格稱王。如果你覺得本文對你的學習有幫助的話，不妨點個關注，我會持續更新。

相關推薦

'python爬蟲模擬微博登錄'

"微博模擬登錄這是本次爬取的網址：https://weibo.com/一、請求分析找到登錄的位置，填寫用戶名密碼進行登錄操作看看這次請求響應的數據是什麼這是響應得到的數據，保存下來exectime: 8nonce: "HW9VSX"pcid: "gz-4ede4c6269a...

Python 微博網絡爬蟲百度 2019-09-16

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'學習PythonforDataScience:如何科學的使用Python'

"Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。這篇...

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦 2019-09-14

'如何用Python進行大數據挖掘和分析？快速入門路徑圖'

"大數據無處不在。在時下這個年代，不管你喜歡與否，在運營一個成功的商業的過程中都有可能會遇到它。什麼是大數據？大數據就像它看起來那樣——有大量的數據。單獨而言，你能從單一的數據獲取的洞見窮其有限。但是結合複雜數學模型以及強大計算能力的TB級數據，卻能創造出人類無法制...

Python 大數據數據庫數據挖掘網絡爬蟲 SQL 算法可視化技術 Scrapy Google Excel 音樂 YouTube 租房隨機森林 2019-09-14

'使用Python代替Excel做數據分析已成，抓緊學，趕上第一波熱潮'

"我是個只會用Excel的數據分析工作者。有一天，我和朋友約好晚上一起吃飯，離下班還有5分鐘，老闆突然Q我：老闆：你今天加個班我：好呀好呀老闆：我有幾個Excel,需要你把它們合成一張表我：好呀好呀老闆：給！你自己看著辦吧！我懷著忐忑的心情打開了一個神祕的壓縮包：912個C...

Python Excel 數據庫機器學習跳槽那些事兒軟件可視化技術工程師電腦鼠標人生第一份工作 2019-09-13

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'Python爬蟲入門並不難，進階也很簡單！只需要這13個階段就夠了'

"互聯網的數據爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的數據：（分享一套完整的爬蟲學習教程，免費獲取方式在文末哦）1.爬取數據，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣信息，分析房價變化趨勢、做不同區域的房價...

Python 網絡爬蟲 Scrapy 數據庫瀏覽器知乎新聞豆瓣網 CSS HTML 人生第一份工作推薦技術騰訊機器學習 2019-09-10

'使用IDA Python尋找二進制漏洞'

"本文介紹瞭如何通過 IDA Python 腳本來實現對棧溢出漏洞的檢測，並以 ascii_easy 一道 PWN 基礎題為例來實戰。介紹Python資源共享群：626017123IDAPython 是一個用於複雜逆向工程任務的強大的自動化工具。儘管有很多文章介紹了用 ID...

Python 腳本語言六貫棋文章操作系統 2019-09-10

'揭祕為什麼應使用 Python 開展科學研究'

"您可能很難相信，Python 編程語言竟然不是一種新語言，實際上，它比 Java™ 語言甚至 HTTP 還要成熟。但不幸的是，人們長期以來一直對 Python 存在某些誤解，比如認為 Python 速度緩慢。這種誤解的根源在於，使用解釋器和標準 Python（使用名為 C...

Python Fortran Octave C語言 MATLAB Java 編譯器 GPU 超級計算機編程語言中央處理器英特爾 GNU 英偉達可視化技術 2019-09-09

'「Python爬蟲」如何爬取翻頁url不變的網站'

"之前打算爬取一個圖片資源網站，但是在翻頁時發現它的url並沒有改變，無法簡單的通過request.get()訪問其他頁面。據搜索資料，瞭解到這些網站是通過ajax動態加載技術實現。即可以在不重新加載整個網頁的情況下，對網頁的某部分進行更新。幫忙轉發，關注，私信小編Pyth...

Python 網絡爬蟲瀏覽器 XML JSON 程序員操作系統 2019-09-09

'人見人愛的最新 Python 爬蟲利器'

"文 | 過了即是客編輯 | EarlGrey推薦 | 編程派公眾號（ID：codingpy）Python上有一個非常著名的HTTP庫——requests，相比大家都聽說過，用過的人都說好！現在requests庫的作者又發佈了一個新庫，叫做requests-html，看名字...

Python HTML 網絡爬蟲 Links CSS TeX 2019-09-09

'各大網站中的爬蟲Python是怎樣出來的——基礎'

"一、需求:抓取主頁面：百度百科Python詞條 https://baike.baidu.com/item/Python/407313分析上面的源碼格式，便於提取：關鍵詞分析:位於class為lemmaWgt-lemmaTitle-title的dd元素的第一個h1標籤內...

Python 網絡爬蟲 HTML 瀏覽器 PyCharm Mozilla XML 百度百科 2019-09-06

'如何將一個 Python 函數進行模塊化封裝'

"使用 Python 函數來最大程度地減少重複任務編碼工作量。-- Seth Kenlon（作者）你是否對函數、類、方法、庫和模塊等花哨的編程術語感到困惑？你是否在與變量作用域鬥爭？無論你是自學成才的還是經過正式培訓的程序員，代碼的模塊化都會令人困惑。但是類和庫鼓勵模塊化代...

Python 腳本語言 Bash 程序員 2019-09-05

'如何使用chrome瀏覽器進行js調試找出元素綁定的點擊事件'

"大家有沒有遇到這樣的一個問題，我們在分析一些大型電子商務平臺的Web前端腳本時，想找到一個元素綁定的點擊事件，並不是那麼容易，因為有些前端腳本封裝的比較隱蔽，甚至有些加密腳本，用傳統的查找元素ID、或者頁面源碼方法去找，可能最後徒勞無功。下面我來介紹利用chrome瀏覽器...

Chrome 瀏覽器腳本語言 2019-09-05

'Python爬蟲：bilibili彈幕爬取與比對分析'

"最近受人之託研究了下b站的數據爬取做個小工具，最後朋友說不需要了，本著開源共享的原則，將研究成果與大家分享一波，話不多說直接上乾貨需求分析給定up主uid和用戶uid，爬取用戶在該up主所有視頻中發的所有彈幕 #pgc-card .pgc-card-href { ...

Bilibili Python 網絡爬蟲 XML 數據庫算法 Google 瀏覽器 JSON 百度鏡音雙子 2019-09-05

'Python中循環操作和Numpy數組運算性能優化——Numba使用介紹'

"直到遇到Numba，才知道“一行代碼讓Python的運行速度提高100倍” 的論調，並不是譁眾取寵。Numba Numba最初是由Continuum Analytics內部開發，此公司也開發了著名的Anaconda，但現在它是開源的。Numba是Python的即時編譯器...

Python Linux GitHub Fortran Continuum GPU 中央處理器 ARM 數值算法 Windows 編譯器超微半導體 LLVM 2019-09-03

'使用Python進行機器學習的假設檢驗（附鏈接&代碼）'

"作者：Jose Garcia翻譯：張睿毅校對：張一豪本文約3800字，建議閱讀10分鐘。作者給出了假設檢驗的解讀與Python實現的詳細的假設檢驗中的主要操作。也許所有機器學習的初學者，或者中級水平的學生，或者統計專業的學生，都聽說過這個術語，假設檢驗。我將簡要介紹一下這...

Python 機器學習讀書大學 2019-09-03

'美國第8大銀行業PNC開始使用RippleNet進行跨境支付'

"免責聲明：本文旨在傳遞更多市場信息，不構成任何投資建議。文章僅代表作者觀點，不代表火星財經官方立場。小編：記得關注哦投資區塊鏈，猛戳：火星財經App下載文章來源：巴比特據Cointelegraph 8月29日報道，美國第八大銀行PNC已經開始使用Ripplenet區塊鏈網...

速匯金區塊鏈銀行投資美國銀行文章墨西哥金融火星米爾頓·巴比特 2019-09-02

'自學爬蟲分佈式，我需要掌握哪些Python基礎？附贈視頻資料'

"接觸爬蟲已經有一段時間了，常常有人問我：我會點Python，想自學爬蟲，你看用什麼方法好呢？我：我喜歡邊做項目邊學習，爬取過程中遇到問題再百度，擴展xx：我看了網上教材，過程很簡略，最後給了一個編碼，有的我實例一下好像還不成功我：代碼也會“過期”，尤其是爬蟲，需要自己修改...

Python 網絡爬蟲騰訊QQ 2019-09-01

'還在用最笨的辦法用 Python 進行機器學習？看來你需要這篇文章'

"有很多想要學習Python卻找不到途徑的朋友，我這裡整理了一些關於Python的學習資料，從基礎到入門到實戰都要。有需要的朋友可以關注並私信“01”免費獲取...機器學習是人工智能領域的一個重要研究課題，近年來一直倍受關注。這一領域可能會提供有吸引力的機會，而且在這一領域...

Python 人工智能數學電腦文章可汗學院算法麻省理工學院編程語言讀書 R語言跳槽那些事兒程序員 2019-08-31

推薦中...