Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

  • 以下所有分析結果都基於我抓取到的這300萬用戶的個人信息,非權威分析,僅供參考。

  • 數據抓取時間為2017年7月份,用戶數據會隨著時間推移而變化,所以該報告具有一定時效性。

  • 知乎的用戶個人資料很大程度上是不完整的,因為用戶有權只填寫部分信息,所以後面分析的時候會篩掉對應指標為空的用戶。

下面讓我們看看知乎用戶分佈中有哪些有趣的現象(下面的圖點擊可以放大) ↓知乎的男女比例?首先來看看知乎用戶的男女比例,以當前樣本數據統計的結果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 ╮(╯▽╰)╭)
藍色為男生,紅色為女生。具體數據為:男生:1,202,234 人,佔 51.55%。女生:1,129,874 人,佔 48.45%。知乎用戶都是哪裡人?再來看看全國(全球?)都有哪些地方的人在玩知乎:
由上圖可以看到,知乎用戶中一線城市用戶佔較大的比重,北上廣深皆在詞雲的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):
知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。你可能發現了Y座標裡每座城市的用戶數並不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準確性。知乎的職業分佈?以下顯示知乎主流職業,同樣根據知乎用戶個人信息裡填寫的職業為準:
由上圖可以看到,知乎用戶中學生用戶佔據多數,其它的比如產品經理、程序員、運營、HR數量也不少。我們看一下具體的排名(前十名):
由上圖可以看到,知乎用戶中“學生”的比重獨佔鰲頭,我們把“學生”去掉,來看看正經些的知乎職業排名:
去除學生後,知乎主流職業比重從大到小依次是(前十名):產品經理、自由職業、程序員、工程師、設計師、騰訊、教師、人力資源(HR)、運營、律師。可以看到,除了一些互聯網公司的常見職位外,教師和律師用戶在知乎中也佔據不小的比重。下面我們結合 性別 和 居住地 來分析一下知乎的主流職業。知乎主流職業的性別分佈:
上面這張餅圖的內圈表示各主流職業在前十名中所佔的比重,外圈表示該職業從業者中的男女比例,藍色為男性,紅色為女性。我們再用一張直方圖來表示:
同樣藍色代表男性,紅色代表女性,從左到右的職業在知乎中的數量依次下降。可以看到,知乎大部分主流職業中主要為男性佔主導。前 10 名的主流職業中有 8 個職業的男性從業者比女性多,其中以 程序員 的男女比例差距最為懸殊(-_-|||),以 設計師 男女比例差距最小,看來設計師從業人員男女比例較為均衡。其它的,比如產品經理、自由職業者、律師中,均為男性從業者多於女性。而前 10 名剩下的 2 個職業——教師、人力資源(HR)——女性從業者要多於男性,其中以 人力資源(HR) 男女比例差距最為懸殊,教師的男女比例雖不那麼誇張,但女性也遠遠多於男性(也許是因為男性教師不怎麼上知乎?)。看完了知乎各職業的性別分佈,我們再用一張熱力圖來觀察知乎主流職業(前五名)在各個地區的分佈情況,顏色越深,代表該職業在該地區的人數越多:
這裡我為了展示方便,去掉了產品經理,你只需要知道產品經理在各地人數都是最多的…… 不明白知乎上怎麼這麼多產品經理,可能是為了方便宣傳他們的產品?從上圖可以看出,知乎各主流職業大部分集中在北京和上海兩地,更準確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業,程序員分佈最多的城市依次是:北京、上海、廣州、杭州、廈門。北京佔得比重最大,簡直綠的發黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設計師分佈最多的城市依次是:北京、上海、杭州、深圳、武漢。設計師的地區分佈比較平均,各個城市都有一定數量。知乎的高校用戶知乎中學生用戶佔很大的比重,我們來看看他們都來自哪些學校!詞雲中字體越大,表示所佔比重越大。
我們再列出詳細的比重排名:
以上展示的結果不一定準確,可能有很大一部分學生用戶沒有填寫自己的學校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學、武漢大學、華中科技大學、中山大學、北京大學、上海交通大學、復旦大學、南京大學、四川大學、清華大學。既然分析到學校了,我們順便看看各高校的男女比例,嘿嘿。
發現一個有意思的現象,各高校大部分都是男生在玩知乎……再看一下哪些高校在知乎獲得的贊數最多:
第一是同濟大學,土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學,軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程屍培訓基地,恩???這是什麼鬼(黑人問號);繼續往後看,恩……??家裡蹲大學??!!還有一個蘭州大學,牛肉麵工藝專業???WHAT??!!∑(っ°Д°;)っ知乎大佬都這麼調皮嗎……這個圖似乎不太準,大家忽略就好……我們再來看看各地區有哪些高校是知乎重度用戶,顏色越深代表該學校的知乎用戶越多:
北京玩知乎最多的高校依次是:北京大學、北京郵電大學、中國傳媒大學、中國人民大學、清華大學。上海玩知乎最多的高校依次是:上海交通大學、復旦大學、同濟大學、上海大學、上海財經大學。杭州玩知乎最多的高校依次是:浙江大學、浙江工業大學、杭州電子科技大學、浙江大學,計算機科學、浙江大學,軟件工程。浙江大學是重度用戶啊……成都玩知乎最多的高校依次是:電子科技大學、四川大學、西南交通大學、電子科技大學,軟件工程、四川師範大學。廣州玩知乎最多的高校依次是:中山大學(SYSU)、華南理工大學(SCUT)、華南農業大學(SCAU)、廣東外語外貿大學、廣東工業大學。我們再來看一下知乎各高校用戶的活躍程度,按每個學校用戶回答問題的總數排名:
排名依次是:武漢大學、浙江大學、中山大學、華南理工大學、北京大學、華中科技大學、復旦大學、上海交通大學、西北農林科技大學。好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。知乎贊數最多的100位大V下圖中詞雲的字越大,表示收到的贊數越多:
我們再來一張直方圖,配合著看:
張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達能力是觀點獲得認可的一個重要支撐 。知乎關注者最多的100位大V下圖詞雲的字越大,表示關注者越多,看看有沒有你熟悉的大V 呢?:
同樣我們配合著一張直方圖來看:
知乎關注人數最多的前10位大V依次是:張佳瑋、李開復、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關注者數量極多。關注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現在已經有138萬粉絲。關注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。知乎回答問題最多的100位大V這些大V在知乎很活躍…… 下圖詞雲文字越大,表示回答問題數量越多。
具體的排名為:
知乎回答問題數最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一隻襪子、四海之內、M3小蘑菇、kun yu、白貓轉轉風、yskin、肛里拉出個電鋸。微軟的工作貌似很閒,看輪子哥(vczh)整天刷知乎……我們再來加上這幾位用戶在知乎的獲得的贊數,看看“回答問題的數量”和“獲得的贊數”之間有沒有什麼聯繫:
由上圖我們可以粗略的得出結論,回答問題的數量和獲得贊數的關係沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數量和獲贊數基本持平,榜單前十名的其它用戶獲得贊數雖然也不少,但和他們回答問題數量的排名比起來,還不在一個量級上。這從側面也說明了一個問題,回答問題的質量更加重要,某些高質量的會更容易吸引用戶點贊。知乎參加live最多的100位大V我們再來看一個有意思的統計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似於直播的問答形式,大V開一場 live,分享他所在領域的知識,用戶買門票參與 live,是一種知識變現的方式)
再來看看他們最多參加過多少場 live:
最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。作者:囈語_yiyu來源:簡書

簡單爬蟲舉例,如下:


作為一種便捷地收集網上信息並從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取複雜的網站。

《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。

用Python寫網絡爬蟲包含如下內容:

通過跟蹤鏈接來爬取網站;

使用lxml從頁面中抽取數據;

構建線程爬蟲來並行爬取頁面;

將下載的內容進行緩存,以降低帶寬消耗;

解析依賴於JavaScript的網站;

與表單和會話進行交互;

解決受保護頁面的驗證碼問題;

對AJAX調用進行逆向工程;

使用Scrapy創建高級爬蟲。

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

  • 以下所有分析結果都基於我抓取到的這300萬用戶的個人信息,非權威分析,僅供參考。

  • 數據抓取時間為2017年7月份,用戶數據會隨著時間推移而變化,所以該報告具有一定時效性。

  • 知乎的用戶個人資料很大程度上是不完整的,因為用戶有權只填寫部分信息,所以後面分析的時候會篩掉對應指標為空的用戶。

下面讓我們看看知乎用戶分佈中有哪些有趣的現象(下面的圖點擊可以放大) ↓知乎的男女比例?首先來看看知乎用戶的男女比例,以當前樣本數據統計的結果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 ╮(╯▽╰)╭)
藍色為男生,紅色為女生。具體數據為:男生:1,202,234 人,佔 51.55%。女生:1,129,874 人,佔 48.45%。知乎用戶都是哪裡人?再來看看全國(全球?)都有哪些地方的人在玩知乎:
由上圖可以看到,知乎用戶中一線城市用戶佔較大的比重,北上廣深皆在詞雲的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):
知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。你可能發現了Y座標裡每座城市的用戶數並不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準確性。知乎的職業分佈?以下顯示知乎主流職業,同樣根據知乎用戶個人信息裡填寫的職業為準:
由上圖可以看到,知乎用戶中學生用戶佔據多數,其它的比如產品經理、程序員、運營、HR數量也不少。我們看一下具體的排名(前十名):
由上圖可以看到,知乎用戶中“學生”的比重獨佔鰲頭,我們把“學生”去掉,來看看正經些的知乎職業排名:
去除學生後,知乎主流職業比重從大到小依次是(前十名):產品經理、自由職業、程序員、工程師、設計師、騰訊、教師、人力資源(HR)、運營、律師。可以看到,除了一些互聯網公司的常見職位外,教師和律師用戶在知乎中也佔據不小的比重。下面我們結合 性別 和 居住地 來分析一下知乎的主流職業。知乎主流職業的性別分佈:
上面這張餅圖的內圈表示各主流職業在前十名中所佔的比重,外圈表示該職業從業者中的男女比例,藍色為男性,紅色為女性。我們再用一張直方圖來表示:
同樣藍色代表男性,紅色代表女性,從左到右的職業在知乎中的數量依次下降。可以看到,知乎大部分主流職業中主要為男性佔主導。前 10 名的主流職業中有 8 個職業的男性從業者比女性多,其中以 程序員 的男女比例差距最為懸殊(-_-|||),以 設計師 男女比例差距最小,看來設計師從業人員男女比例較為均衡。其它的,比如產品經理、自由職業者、律師中,均為男性從業者多於女性。而前 10 名剩下的 2 個職業——教師、人力資源(HR)——女性從業者要多於男性,其中以 人力資源(HR) 男女比例差距最為懸殊,教師的男女比例雖不那麼誇張,但女性也遠遠多於男性(也許是因為男性教師不怎麼上知乎?)。看完了知乎各職業的性別分佈,我們再用一張熱力圖來觀察知乎主流職業(前五名)在各個地區的分佈情況,顏色越深,代表該職業在該地區的人數越多:
這裡我為了展示方便,去掉了產品經理,你只需要知道產品經理在各地人數都是最多的…… 不明白知乎上怎麼這麼多產品經理,可能是為了方便宣傳他們的產品?從上圖可以看出,知乎各主流職業大部分集中在北京和上海兩地,更準確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業,程序員分佈最多的城市依次是:北京、上海、廣州、杭州、廈門。北京佔得比重最大,簡直綠的發黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設計師分佈最多的城市依次是:北京、上海、杭州、深圳、武漢。設計師的地區分佈比較平均,各個城市都有一定數量。知乎的高校用戶知乎中學生用戶佔很大的比重,我們來看看他們都來自哪些學校!詞雲中字體越大,表示所佔比重越大。
我們再列出詳細的比重排名:
以上展示的結果不一定準確,可能有很大一部分學生用戶沒有填寫自己的學校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學、武漢大學、華中科技大學、中山大學、北京大學、上海交通大學、復旦大學、南京大學、四川大學、清華大學。既然分析到學校了,我們順便看看各高校的男女比例,嘿嘿。
發現一個有意思的現象,各高校大部分都是男生在玩知乎……再看一下哪些高校在知乎獲得的贊數最多:
第一是同濟大學,土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學,軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程屍培訓基地,恩???這是什麼鬼(黑人問號);繼續往後看,恩……??家裡蹲大學??!!還有一個蘭州大學,牛肉麵工藝專業???WHAT??!!∑(っ°Д°;)っ知乎大佬都這麼調皮嗎……這個圖似乎不太準,大家忽略就好……我們再來看看各地區有哪些高校是知乎重度用戶,顏色越深代表該學校的知乎用戶越多:
北京玩知乎最多的高校依次是:北京大學、北京郵電大學、中國傳媒大學、中國人民大學、清華大學。上海玩知乎最多的高校依次是:上海交通大學、復旦大學、同濟大學、上海大學、上海財經大學。杭州玩知乎最多的高校依次是:浙江大學、浙江工業大學、杭州電子科技大學、浙江大學,計算機科學、浙江大學,軟件工程。浙江大學是重度用戶啊……成都玩知乎最多的高校依次是:電子科技大學、四川大學、西南交通大學、電子科技大學,軟件工程、四川師範大學。廣州玩知乎最多的高校依次是:中山大學(SYSU)、華南理工大學(SCUT)、華南農業大學(SCAU)、廣東外語外貿大學、廣東工業大學。我們再來看一下知乎各高校用戶的活躍程度,按每個學校用戶回答問題的總數排名:
排名依次是:武漢大學、浙江大學、中山大學、華南理工大學、北京大學、華中科技大學、復旦大學、上海交通大學、西北農林科技大學。好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。知乎贊數最多的100位大V下圖中詞雲的字越大,表示收到的贊數越多:
我們再來一張直方圖,配合著看:
張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達能力是觀點獲得認可的一個重要支撐 。知乎關注者最多的100位大V下圖詞雲的字越大,表示關注者越多,看看有沒有你熟悉的大V 呢?:
同樣我們配合著一張直方圖來看:
知乎關注人數最多的前10位大V依次是:張佳瑋、李開復、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關注者數量極多。關注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現在已經有138萬粉絲。關注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。知乎回答問題最多的100位大V這些大V在知乎很活躍…… 下圖詞雲文字越大,表示回答問題數量越多。
具體的排名為:
知乎回答問題數最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一隻襪子、四海之內、M3小蘑菇、kun yu、白貓轉轉風、yskin、肛里拉出個電鋸。微軟的工作貌似很閒,看輪子哥(vczh)整天刷知乎……我們再來加上這幾位用戶在知乎的獲得的贊數,看看“回答問題的數量”和“獲得的贊數”之間有沒有什麼聯繫:
由上圖我們可以粗略的得出結論,回答問題的數量和獲得贊數的關係沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數量和獲贊數基本持平,榜單前十名的其它用戶獲得贊數雖然也不少,但和他們回答問題數量的排名比起來,還不在一個量級上。這從側面也說明了一個問題,回答問題的質量更加重要,某些高質量的會更容易吸引用戶點贊。知乎參加live最多的100位大V我們再來看一個有意思的統計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似於直播的問答形式,大V開一場 live,分享他所在領域的知識,用戶買門票參與 live,是一種知識變現的方式)
再來看看他們最多參加過多少場 live:
最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。作者:囈語_yiyu來源:簡書

簡單爬蟲舉例,如下:


作為一種便捷地收集網上信息並從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取複雜的網站。

《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。

用Python寫網絡爬蟲包含如下內容:

通過跟蹤鏈接來爬取網站;

使用lxml從頁面中抽取數據;

構建線程爬蟲來並行爬取頁面;

將下載的內容進行緩存,以降低帶寬消耗;

解析依賴於JavaScript的網站;

與表單和會話進行交互;

解決受保護頁面的驗證碼問題;

對AJAX調用進行逆向工程;

使用Scrapy創建高級爬蟲。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

校花,是指一個學校中最最受歡迎的女學生。一般長得清純,受人歡迎,性格好,交際能力強。不一定是在這所學校最漂亮的,但一定清純,受人歡迎,受人追捧。

Scrapy運行流程大概如下:

  1. 引擎從調度器中取出一個鏈LJ接用於接下來的抓取

  2. 引擎把LJ封裝成一個請求(Request)傳給下載器

  3. 下載器把資源下載下來,並封裝成應答包(Response)

  4. 爬蟲解析Response

  5. 解析出實體(Item),則交給實體管道進行進一步的處理

  6. 解析出的是LJ,則把LJ交給調度器等待抓取

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

  • 以下所有分析結果都基於我抓取到的這300萬用戶的個人信息,非權威分析,僅供參考。

  • 數據抓取時間為2017年7月份,用戶數據會隨著時間推移而變化,所以該報告具有一定時效性。

  • 知乎的用戶個人資料很大程度上是不完整的,因為用戶有權只填寫部分信息,所以後面分析的時候會篩掉對應指標為空的用戶。

下面讓我們看看知乎用戶分佈中有哪些有趣的現象(下面的圖點擊可以放大) ↓知乎的男女比例?首先來看看知乎用戶的男女比例,以當前樣本數據統計的結果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 ╮(╯▽╰)╭)
藍色為男生,紅色為女生。具體數據為:男生:1,202,234 人,佔 51.55%。女生:1,129,874 人,佔 48.45%。知乎用戶都是哪裡人?再來看看全國(全球?)都有哪些地方的人在玩知乎:
由上圖可以看到,知乎用戶中一線城市用戶佔較大的比重,北上廣深皆在詞雲的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):
知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。你可能發現了Y座標裡每座城市的用戶數並不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準確性。知乎的職業分佈?以下顯示知乎主流職業,同樣根據知乎用戶個人信息裡填寫的職業為準:
由上圖可以看到,知乎用戶中學生用戶佔據多數,其它的比如產品經理、程序員、運營、HR數量也不少。我們看一下具體的排名(前十名):
由上圖可以看到,知乎用戶中“學生”的比重獨佔鰲頭,我們把“學生”去掉,來看看正經些的知乎職業排名:
去除學生後,知乎主流職業比重從大到小依次是(前十名):產品經理、自由職業、程序員、工程師、設計師、騰訊、教師、人力資源(HR)、運營、律師。可以看到,除了一些互聯網公司的常見職位外,教師和律師用戶在知乎中也佔據不小的比重。下面我們結合 性別 和 居住地 來分析一下知乎的主流職業。知乎主流職業的性別分佈:
上面這張餅圖的內圈表示各主流職業在前十名中所佔的比重,外圈表示該職業從業者中的男女比例,藍色為男性,紅色為女性。我們再用一張直方圖來表示:
同樣藍色代表男性,紅色代表女性,從左到右的職業在知乎中的數量依次下降。可以看到,知乎大部分主流職業中主要為男性佔主導。前 10 名的主流職業中有 8 個職業的男性從業者比女性多,其中以 程序員 的男女比例差距最為懸殊(-_-|||),以 設計師 男女比例差距最小,看來設計師從業人員男女比例較為均衡。其它的,比如產品經理、自由職業者、律師中,均為男性從業者多於女性。而前 10 名剩下的 2 個職業——教師、人力資源(HR)——女性從業者要多於男性,其中以 人力資源(HR) 男女比例差距最為懸殊,教師的男女比例雖不那麼誇張,但女性也遠遠多於男性(也許是因為男性教師不怎麼上知乎?)。看完了知乎各職業的性別分佈,我們再用一張熱力圖來觀察知乎主流職業(前五名)在各個地區的分佈情況,顏色越深,代表該職業在該地區的人數越多:
這裡我為了展示方便,去掉了產品經理,你只需要知道產品經理在各地人數都是最多的…… 不明白知乎上怎麼這麼多產品經理,可能是為了方便宣傳他們的產品?從上圖可以看出,知乎各主流職業大部分集中在北京和上海兩地,更準確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業,程序員分佈最多的城市依次是:北京、上海、廣州、杭州、廈門。北京佔得比重最大,簡直綠的發黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設計師分佈最多的城市依次是:北京、上海、杭州、深圳、武漢。設計師的地區分佈比較平均,各個城市都有一定數量。知乎的高校用戶知乎中學生用戶佔很大的比重,我們來看看他們都來自哪些學校!詞雲中字體越大,表示所佔比重越大。
我們再列出詳細的比重排名:
以上展示的結果不一定準確,可能有很大一部分學生用戶沒有填寫自己的學校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學、武漢大學、華中科技大學、中山大學、北京大學、上海交通大學、復旦大學、南京大學、四川大學、清華大學。既然分析到學校了,我們順便看看各高校的男女比例,嘿嘿。
發現一個有意思的現象,各高校大部分都是男生在玩知乎……再看一下哪些高校在知乎獲得的贊數最多:
第一是同濟大學,土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學,軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程屍培訓基地,恩???這是什麼鬼(黑人問號);繼續往後看,恩……??家裡蹲大學??!!還有一個蘭州大學,牛肉麵工藝專業???WHAT??!!∑(っ°Д°;)っ知乎大佬都這麼調皮嗎……這個圖似乎不太準,大家忽略就好……我們再來看看各地區有哪些高校是知乎重度用戶,顏色越深代表該學校的知乎用戶越多:
北京玩知乎最多的高校依次是:北京大學、北京郵電大學、中國傳媒大學、中國人民大學、清華大學。上海玩知乎最多的高校依次是:上海交通大學、復旦大學、同濟大學、上海大學、上海財經大學。杭州玩知乎最多的高校依次是:浙江大學、浙江工業大學、杭州電子科技大學、浙江大學,計算機科學、浙江大學,軟件工程。浙江大學是重度用戶啊……成都玩知乎最多的高校依次是:電子科技大學、四川大學、西南交通大學、電子科技大學,軟件工程、四川師範大學。廣州玩知乎最多的高校依次是:中山大學(SYSU)、華南理工大學(SCUT)、華南農業大學(SCAU)、廣東外語外貿大學、廣東工業大學。我們再來看一下知乎各高校用戶的活躍程度,按每個學校用戶回答問題的總數排名:
排名依次是:武漢大學、浙江大學、中山大學、華南理工大學、北京大學、華中科技大學、復旦大學、上海交通大學、西北農林科技大學。好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。知乎贊數最多的100位大V下圖中詞雲的字越大,表示收到的贊數越多:
我們再來一張直方圖,配合著看:
張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達能力是觀點獲得認可的一個重要支撐 。知乎關注者最多的100位大V下圖詞雲的字越大,表示關注者越多,看看有沒有你熟悉的大V 呢?:
同樣我們配合著一張直方圖來看:
知乎關注人數最多的前10位大V依次是:張佳瑋、李開復、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關注者數量極多。關注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現在已經有138萬粉絲。關注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。知乎回答問題最多的100位大V這些大V在知乎很活躍…… 下圖詞雲文字越大,表示回答問題數量越多。
具體的排名為:
知乎回答問題數最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一隻襪子、四海之內、M3小蘑菇、kun yu、白貓轉轉風、yskin、肛里拉出個電鋸。微軟的工作貌似很閒,看輪子哥(vczh)整天刷知乎……我們再來加上這幾位用戶在知乎的獲得的贊數,看看“回答問題的數量”和“獲得的贊數”之間有沒有什麼聯繫:
由上圖我們可以粗略的得出結論,回答問題的數量和獲得贊數的關係沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數量和獲贊數基本持平,榜單前十名的其它用戶獲得贊數雖然也不少,但和他們回答問題數量的排名比起來,還不在一個量級上。這從側面也說明了一個問題,回答問題的質量更加重要,某些高質量的會更容易吸引用戶點贊。知乎參加live最多的100位大V我們再來看一個有意思的統計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似於直播的問答形式,大V開一場 live,分享他所在領域的知識,用戶買門票參與 live,是一種知識變現的方式)
再來看看他們最多參加過多少場 live:
最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。作者:囈語_yiyu來源:簡書

簡單爬蟲舉例,如下:


作為一種便捷地收集網上信息並從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取複雜的網站。

《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。

用Python寫網絡爬蟲包含如下內容:

通過跟蹤鏈接來爬取網站;

使用lxml從頁面中抽取數據;

構建線程爬蟲來並行爬取頁面;

將下載的內容進行緩存,以降低帶寬消耗;

解析依賴於JavaScript的網站;

與表單和會話進行交互;

解決受保護頁面的驗證碼問題;

對AJAX調用進行逆向工程;

使用Scrapy創建高級爬蟲。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

校花,是指一個學校中最最受歡迎的女學生。一般長得清純,受人歡迎,性格好,交際能力強。不一定是在這所學校最漂亮的,但一定清純,受人歡迎,受人追捧。

Scrapy運行流程大概如下:

  1. 引擎從調度器中取出一個鏈LJ接用於接下來的抓取

  2. 引擎把LJ封裝成一個請求(Request)傳給下載器

  3. 下載器把資源下載下來,並封裝成應答包(Response)

  4. 爬蟲解析Response

  5. 解析出實體(Item),則交給實體管道進行進一步的處理

  6. 解析出的是LJ,則把LJ交給調度器等待抓取

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。

Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。

Scratch,是抓取的意思,這個Python的爬蟲框架叫Scrapy,大概也是這個意思吧,就叫它:小刮刮吧。

Scrapy 使用了 Twisted異步網絡庫來處理網絡通訊。

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

  • 以下所有分析結果都基於我抓取到的這300萬用戶的個人信息,非權威分析,僅供參考。

  • 數據抓取時間為2017年7月份,用戶數據會隨著時間推移而變化,所以該報告具有一定時效性。

  • 知乎的用戶個人資料很大程度上是不完整的,因為用戶有權只填寫部分信息,所以後面分析的時候會篩掉對應指標為空的用戶。

下面讓我們看看知乎用戶分佈中有哪些有趣的現象(下面的圖點擊可以放大) ↓知乎的男女比例?首先來看看知乎用戶的男女比例,以當前樣本數據統計的結果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 ╮(╯▽╰)╭)
藍色為男生,紅色為女生。具體數據為:男生:1,202,234 人,佔 51.55%。女生:1,129,874 人,佔 48.45%。知乎用戶都是哪裡人?再來看看全國(全球?)都有哪些地方的人在玩知乎:
由上圖可以看到,知乎用戶中一線城市用戶佔較大的比重,北上廣深皆在詞雲的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):
知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。你可能發現了Y座標裡每座城市的用戶數並不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準確性。知乎的職業分佈?以下顯示知乎主流職業,同樣根據知乎用戶個人信息裡填寫的職業為準:
由上圖可以看到,知乎用戶中學生用戶佔據多數,其它的比如產品經理、程序員、運營、HR數量也不少。我們看一下具體的排名(前十名):
由上圖可以看到,知乎用戶中“學生”的比重獨佔鰲頭,我們把“學生”去掉,來看看正經些的知乎職業排名:
去除學生後,知乎主流職業比重從大到小依次是(前十名):產品經理、自由職業、程序員、工程師、設計師、騰訊、教師、人力資源(HR)、運營、律師。可以看到,除了一些互聯網公司的常見職位外,教師和律師用戶在知乎中也佔據不小的比重。下面我們結合 性別 和 居住地 來分析一下知乎的主流職業。知乎主流職業的性別分佈:
上面這張餅圖的內圈表示各主流職業在前十名中所佔的比重,外圈表示該職業從業者中的男女比例,藍色為男性,紅色為女性。我們再用一張直方圖來表示:
同樣藍色代表男性,紅色代表女性,從左到右的職業在知乎中的數量依次下降。可以看到,知乎大部分主流職業中主要為男性佔主導。前 10 名的主流職業中有 8 個職業的男性從業者比女性多,其中以 程序員 的男女比例差距最為懸殊(-_-|||),以 設計師 男女比例差距最小,看來設計師從業人員男女比例較為均衡。其它的,比如產品經理、自由職業者、律師中,均為男性從業者多於女性。而前 10 名剩下的 2 個職業——教師、人力資源(HR)——女性從業者要多於男性,其中以 人力資源(HR) 男女比例差距最為懸殊,教師的男女比例雖不那麼誇張,但女性也遠遠多於男性(也許是因為男性教師不怎麼上知乎?)。看完了知乎各職業的性別分佈,我們再用一張熱力圖來觀察知乎主流職業(前五名)在各個地區的分佈情況,顏色越深,代表該職業在該地區的人數越多:
這裡我為了展示方便,去掉了產品經理,你只需要知道產品經理在各地人數都是最多的…… 不明白知乎上怎麼這麼多產品經理,可能是為了方便宣傳他們的產品?從上圖可以看出,知乎各主流職業大部分集中在北京和上海兩地,更準確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業,程序員分佈最多的城市依次是:北京、上海、廣州、杭州、廈門。北京佔得比重最大,簡直綠的發黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設計師分佈最多的城市依次是:北京、上海、杭州、深圳、武漢。設計師的地區分佈比較平均,各個城市都有一定數量。知乎的高校用戶知乎中學生用戶佔很大的比重,我們來看看他們都來自哪些學校!詞雲中字體越大,表示所佔比重越大。
我們再列出詳細的比重排名:
以上展示的結果不一定準確,可能有很大一部分學生用戶沒有填寫自己的學校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學、武漢大學、華中科技大學、中山大學、北京大學、上海交通大學、復旦大學、南京大學、四川大學、清華大學。既然分析到學校了,我們順便看看各高校的男女比例,嘿嘿。
發現一個有意思的現象,各高校大部分都是男生在玩知乎……再看一下哪些高校在知乎獲得的贊數最多:
第一是同濟大學,土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學,軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程屍培訓基地,恩???這是什麼鬼(黑人問號);繼續往後看,恩……??家裡蹲大學??!!還有一個蘭州大學,牛肉麵工藝專業???WHAT??!!∑(っ°Д°;)っ知乎大佬都這麼調皮嗎……這個圖似乎不太準,大家忽略就好……我們再來看看各地區有哪些高校是知乎重度用戶,顏色越深代表該學校的知乎用戶越多:
北京玩知乎最多的高校依次是:北京大學、北京郵電大學、中國傳媒大學、中國人民大學、清華大學。上海玩知乎最多的高校依次是:上海交通大學、復旦大學、同濟大學、上海大學、上海財經大學。杭州玩知乎最多的高校依次是:浙江大學、浙江工業大學、杭州電子科技大學、浙江大學,計算機科學、浙江大學,軟件工程。浙江大學是重度用戶啊……成都玩知乎最多的高校依次是:電子科技大學、四川大學、西南交通大學、電子科技大學,軟件工程、四川師範大學。廣州玩知乎最多的高校依次是:中山大學(SYSU)、華南理工大學(SCUT)、華南農業大學(SCAU)、廣東外語外貿大學、廣東工業大學。我們再來看一下知乎各高校用戶的活躍程度,按每個學校用戶回答問題的總數排名:
排名依次是:武漢大學、浙江大學、中山大學、華南理工大學、北京大學、華中科技大學、復旦大學、上海交通大學、西北農林科技大學。好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。知乎贊數最多的100位大V下圖中詞雲的字越大,表示收到的贊數越多:
我們再來一張直方圖,配合著看:
張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達能力是觀點獲得認可的一個重要支撐 。知乎關注者最多的100位大V下圖詞雲的字越大,表示關注者越多,看看有沒有你熟悉的大V 呢?:
同樣我們配合著一張直方圖來看:
知乎關注人數最多的前10位大V依次是:張佳瑋、李開復、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關注者數量極多。關注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現在已經有138萬粉絲。關注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。知乎回答問題最多的100位大V這些大V在知乎很活躍…… 下圖詞雲文字越大,表示回答問題數量越多。
具體的排名為:
知乎回答問題數最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一隻襪子、四海之內、M3小蘑菇、kun yu、白貓轉轉風、yskin、肛里拉出個電鋸。微軟的工作貌似很閒,看輪子哥(vczh)整天刷知乎……我們再來加上這幾位用戶在知乎的獲得的贊數,看看“回答問題的數量”和“獲得的贊數”之間有沒有什麼聯繫:
由上圖我們可以粗略的得出結論,回答問題的數量和獲得贊數的關係沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數量和獲贊數基本持平,榜單前十名的其它用戶獲得贊數雖然也不少,但和他們回答問題數量的排名比起來,還不在一個量級上。這從側面也說明了一個問題,回答問題的質量更加重要,某些高質量的會更容易吸引用戶點贊。知乎參加live最多的100位大V我們再來看一個有意思的統計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似於直播的問答形式,大V開一場 live,分享他所在領域的知識,用戶買門票參與 live,是一種知識變現的方式)
再來看看他們最多參加過多少場 live:
最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。作者:囈語_yiyu來源:簡書

簡單爬蟲舉例,如下:


作為一種便捷地收集網上信息並從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取複雜的網站。

《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。

用Python寫網絡爬蟲包含如下內容:

通過跟蹤鏈接來爬取網站;

使用lxml從頁面中抽取數據;

構建線程爬蟲來並行爬取頁面;

將下載的內容進行緩存,以降低帶寬消耗;

解析依賴於JavaScript的網站;

與表單和會話進行交互;

解決受保護頁面的驗證碼問題;

對AJAX調用進行逆向工程;

使用Scrapy創建高級爬蟲。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

校花,是指一個學校中最最受歡迎的女學生。一般長得清純,受人歡迎,性格好,交際能力強。不一定是在這所學校最漂亮的,但一定清純,受人歡迎,受人追捧。

Scrapy運行流程大概如下:

  1. 引擎從調度器中取出一個鏈LJ接用於接下來的抓取

  2. 引擎把LJ封裝成一個請求(Request)傳給下載器

  3. 下載器把資源下載下來,並封裝成應答包(Response)

  4. 爬蟲解析Response

  5. 解析出實體(Item),則交給實體管道進行進一步的處理

  6. 解析出的是LJ,則把LJ交給調度器等待抓取

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。

Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。

Scratch,是抓取的意思,這個Python的爬蟲框架叫Scrapy,大概也是這個意思吧,就叫它:小刮刮吧。

Scrapy 使用了 Twisted異步網絡庫來處理網絡通訊。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

Scrapy主要包括了以下組件:

  • 引擎(Scrapy)

    用來處理整個系統的數據流處理, 觸發事務(框架核心)

  • 調度器(Scheduler)

    用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

  • 下載器(Downloader)

    用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)

  • 爬蟲(Spiders)

    爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面

  • 項目管道(Pipeline)

    負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後,將被髮送到項目管道,並經過幾個特定的次序處理數據。

  • 下載器中間件(Downloader Middlewares)

    位於Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。

  • 爬蟲中間件(Spider Middlewares)

    介於Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。

  • 調度中間件(Scheduler Middewares)

    介於Scrapy引擎和調度之間的中間件,從Scrapy引擎發送到調度的請求和響應。

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

  • 以下所有分析結果都基於我抓取到的這300萬用戶的個人信息,非權威分析,僅供參考。

  • 數據抓取時間為2017年7月份,用戶數據會隨著時間推移而變化,所以該報告具有一定時效性。

  • 知乎的用戶個人資料很大程度上是不完整的,因為用戶有權只填寫部分信息,所以後面分析的時候會篩掉對應指標為空的用戶。

下面讓我們看看知乎用戶分佈中有哪些有趣的現象(下面的圖點擊可以放大) ↓知乎的男女比例?首先來看看知乎用戶的男女比例,以當前樣本數據統計的結果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 ╮(╯▽╰)╭)
藍色為男生,紅色為女生。具體數據為:男生:1,202,234 人,佔 51.55%。女生:1,129,874 人,佔 48.45%。知乎用戶都是哪裡人?再來看看全國(全球?)都有哪些地方的人在玩知乎:
由上圖可以看到,知乎用戶中一線城市用戶佔較大的比重,北上廣深皆在詞雲的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):
知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。你可能發現了Y座標裡每座城市的用戶數並不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準確性。知乎的職業分佈?以下顯示知乎主流職業,同樣根據知乎用戶個人信息裡填寫的職業為準:
由上圖可以看到,知乎用戶中學生用戶佔據多數,其它的比如產品經理、程序員、運營、HR數量也不少。我們看一下具體的排名(前十名):
由上圖可以看到,知乎用戶中“學生”的比重獨佔鰲頭,我們把“學生”去掉,來看看正經些的知乎職業排名:
去除學生後,知乎主流職業比重從大到小依次是(前十名):產品經理、自由職業、程序員、工程師、設計師、騰訊、教師、人力資源(HR)、運營、律師。可以看到,除了一些互聯網公司的常見職位外,教師和律師用戶在知乎中也佔據不小的比重。下面我們結合 性別 和 居住地 來分析一下知乎的主流職業。知乎主流職業的性別分佈:
上面這張餅圖的內圈表示各主流職業在前十名中所佔的比重,外圈表示該職業從業者中的男女比例,藍色為男性,紅色為女性。我們再用一張直方圖來表示:
同樣藍色代表男性,紅色代表女性,從左到右的職業在知乎中的數量依次下降。可以看到,知乎大部分主流職業中主要為男性佔主導。前 10 名的主流職業中有 8 個職業的男性從業者比女性多,其中以 程序員 的男女比例差距最為懸殊(-_-|||),以 設計師 男女比例差距最小,看來設計師從業人員男女比例較為均衡。其它的,比如產品經理、自由職業者、律師中,均為男性從業者多於女性。而前 10 名剩下的 2 個職業——教師、人力資源(HR)——女性從業者要多於男性,其中以 人力資源(HR) 男女比例差距最為懸殊,教師的男女比例雖不那麼誇張,但女性也遠遠多於男性(也許是因為男性教師不怎麼上知乎?)。看完了知乎各職業的性別分佈,我們再用一張熱力圖來觀察知乎主流職業(前五名)在各個地區的分佈情況,顏色越深,代表該職業在該地區的人數越多:
這裡我為了展示方便,去掉了產品經理,你只需要知道產品經理在各地人數都是最多的…… 不明白知乎上怎麼這麼多產品經理,可能是為了方便宣傳他們的產品?從上圖可以看出,知乎各主流職業大部分集中在北京和上海兩地,更準確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業,程序員分佈最多的城市依次是:北京、上海、廣州、杭州、廈門。北京佔得比重最大,簡直綠的發黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設計師分佈最多的城市依次是:北京、上海、杭州、深圳、武漢。設計師的地區分佈比較平均,各個城市都有一定數量。知乎的高校用戶知乎中學生用戶佔很大的比重,我們來看看他們都來自哪些學校!詞雲中字體越大,表示所佔比重越大。
我們再列出詳細的比重排名:
以上展示的結果不一定準確,可能有很大一部分學生用戶沒有填寫自己的學校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學、武漢大學、華中科技大學、中山大學、北京大學、上海交通大學、復旦大學、南京大學、四川大學、清華大學。既然分析到學校了,我們順便看看各高校的男女比例,嘿嘿。
發現一個有意思的現象,各高校大部分都是男生在玩知乎……再看一下哪些高校在知乎獲得的贊數最多:
第一是同濟大學,土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學,軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程屍培訓基地,恩???這是什麼鬼(黑人問號);繼續往後看,恩……??家裡蹲大學??!!還有一個蘭州大學,牛肉麵工藝專業???WHAT??!!∑(っ°Д°;)っ知乎大佬都這麼調皮嗎……這個圖似乎不太準,大家忽略就好……我們再來看看各地區有哪些高校是知乎重度用戶,顏色越深代表該學校的知乎用戶越多:
北京玩知乎最多的高校依次是:北京大學、北京郵電大學、中國傳媒大學、中國人民大學、清華大學。上海玩知乎最多的高校依次是:上海交通大學、復旦大學、同濟大學、上海大學、上海財經大學。杭州玩知乎最多的高校依次是:浙江大學、浙江工業大學、杭州電子科技大學、浙江大學,計算機科學、浙江大學,軟件工程。浙江大學是重度用戶啊……成都玩知乎最多的高校依次是:電子科技大學、四川大學、西南交通大學、電子科技大學,軟件工程、四川師範大學。廣州玩知乎最多的高校依次是:中山大學(SYSU)、華南理工大學(SCUT)、華南農業大學(SCAU)、廣東外語外貿大學、廣東工業大學。我們再來看一下知乎各高校用戶的活躍程度,按每個學校用戶回答問題的總數排名:
排名依次是:武漢大學、浙江大學、中山大學、華南理工大學、北京大學、華中科技大學、復旦大學、上海交通大學、西北農林科技大學。好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。知乎贊數最多的100位大V下圖中詞雲的字越大,表示收到的贊數越多:
我們再來一張直方圖,配合著看:
張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達能力是觀點獲得認可的一個重要支撐 。知乎關注者最多的100位大V下圖詞雲的字越大,表示關注者越多,看看有沒有你熟悉的大V 呢?:
同樣我們配合著一張直方圖來看:
知乎關注人數最多的前10位大V依次是:張佳瑋、李開復、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關注者數量極多。關注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現在已經有138萬粉絲。關注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。知乎回答問題最多的100位大V這些大V在知乎很活躍…… 下圖詞雲文字越大,表示回答問題數量越多。
具體的排名為:
知乎回答問題數最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一隻襪子、四海之內、M3小蘑菇、kun yu、白貓轉轉風、yskin、肛里拉出個電鋸。微軟的工作貌似很閒,看輪子哥(vczh)整天刷知乎……我們再來加上這幾位用戶在知乎的獲得的贊數,看看“回答問題的數量”和“獲得的贊數”之間有沒有什麼聯繫:
由上圖我們可以粗略的得出結論,回答問題的數量和獲得贊數的關係沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數量和獲贊數基本持平,榜單前十名的其它用戶獲得贊數雖然也不少,但和他們回答問題數量的排名比起來,還不在一個量級上。這從側面也說明了一個問題,回答問題的質量更加重要,某些高質量的會更容易吸引用戶點贊。知乎參加live最多的100位大V我們再來看一個有意思的統計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似於直播的問答形式,大V開一場 live,分享他所在領域的知識,用戶買門票參與 live,是一種知識變現的方式)
再來看看他們最多參加過多少場 live:
最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。作者:囈語_yiyu來源:簡書

簡單爬蟲舉例,如下:


作為一種便捷地收集網上信息並從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取複雜的網站。

《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。

用Python寫網絡爬蟲包含如下內容:

通過跟蹤鏈接來爬取網站;

使用lxml從頁面中抽取數據;

構建線程爬蟲來並行爬取頁面;

將下載的內容進行緩存,以降低帶寬消耗;

解析依賴於JavaScript的網站;

與表單和會話進行交互;

解決受保護頁面的驗證碼問題;

對AJAX調用進行逆向工程;

使用Scrapy創建高級爬蟲。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

校花,是指一個學校中最最受歡迎的女學生。一般長得清純,受人歡迎,性格好,交際能力強。不一定是在這所學校最漂亮的,但一定清純,受人歡迎,受人追捧。

Scrapy運行流程大概如下:

  1. 引擎從調度器中取出一個鏈LJ接用於接下來的抓取

  2. 引擎把LJ封裝成一個請求(Request)傳給下載器

  3. 下載器把資源下載下來,並封裝成應答包(Response)

  4. 爬蟲解析Response

  5. 解析出實體(Item),則交給實體管道進行進一步的處理

  6. 解析出的是LJ,則把LJ交給調度器等待抓取

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。

Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。

Scratch,是抓取的意思,這個Python的爬蟲框架叫Scrapy,大概也是這個意思吧,就叫它:小刮刮吧。

Scrapy 使用了 Twisted異步網絡庫來處理網絡通訊。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

Scrapy主要包括了以下組件:

  • 引擎(Scrapy)

    用來處理整個系統的數據流處理, 觸發事務(框架核心)

  • 調度器(Scheduler)

    用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

  • 下載器(Downloader)

    用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)

  • 爬蟲(Spiders)

    爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面

  • 項目管道(Pipeline)

    負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後,將被髮送到項目管道,並經過幾個特定的次序處理數據。

  • 下載器中間件(Downloader Middlewares)

    位於Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。

  • 爬蟲中間件(Spider Middlewares)

    介於Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。

  • 調度中間件(Scheduler Middewares)

    介於Scrapy引擎和調度之間的中間件,從Scrapy引擎發送到調度的請求和響應。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

程序運行部分結果圖:

數據量:3,289,329 人。數據採集工具:分佈式 python 爬蟲分析工具:ElasticSearch + Kibana分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。注意:

源碼地址:Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼


Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

  • 以下所有分析結果都基於我抓取到的這300萬用戶的個人信息,非權威分析,僅供參考。

  • 數據抓取時間為2017年7月份,用戶數據會隨著時間推移而變化,所以該報告具有一定時效性。

  • 知乎的用戶個人資料很大程度上是不完整的,因為用戶有權只填寫部分信息,所以後面分析的時候會篩掉對應指標為空的用戶。

下面讓我們看看知乎用戶分佈中有哪些有趣的現象(下面的圖點擊可以放大) ↓知乎的男女比例?首先來看看知乎用戶的男女比例,以當前樣本數據統計的結果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 ╮(╯▽╰)╭)
藍色為男生,紅色為女生。具體數據為:男生:1,202,234 人,佔 51.55%。女生:1,129,874 人,佔 48.45%。知乎用戶都是哪裡人?再來看看全國(全球?)都有哪些地方的人在玩知乎:
由上圖可以看到,知乎用戶中一線城市用戶佔較大的比重,北上廣深皆在詞雲的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):
知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。你可能發現了Y座標裡每座城市的用戶數並不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準確性。知乎的職業分佈?以下顯示知乎主流職業,同樣根據知乎用戶個人信息裡填寫的職業為準:
由上圖可以看到,知乎用戶中學生用戶佔據多數,其它的比如產品經理、程序員、運營、HR數量也不少。我們看一下具體的排名(前十名):
由上圖可以看到,知乎用戶中“學生”的比重獨佔鰲頭,我們把“學生”去掉,來看看正經些的知乎職業排名:
去除學生後,知乎主流職業比重從大到小依次是(前十名):產品經理、自由職業、程序員、工程師、設計師、騰訊、教師、人力資源(HR)、運營、律師。可以看到,除了一些互聯網公司的常見職位外,教師和律師用戶在知乎中也佔據不小的比重。下面我們結合 性別 和 居住地 來分析一下知乎的主流職業。知乎主流職業的性別分佈:
上面這張餅圖的內圈表示各主流職業在前十名中所佔的比重,外圈表示該職業從業者中的男女比例,藍色為男性,紅色為女性。我們再用一張直方圖來表示:
同樣藍色代表男性,紅色代表女性,從左到右的職業在知乎中的數量依次下降。可以看到,知乎大部分主流職業中主要為男性佔主導。前 10 名的主流職業中有 8 個職業的男性從業者比女性多,其中以 程序員 的男女比例差距最為懸殊(-_-|||),以 設計師 男女比例差距最小,看來設計師從業人員男女比例較為均衡。其它的,比如產品經理、自由職業者、律師中,均為男性從業者多於女性。而前 10 名剩下的 2 個職業——教師、人力資源(HR)——女性從業者要多於男性,其中以 人力資源(HR) 男女比例差距最為懸殊,教師的男女比例雖不那麼誇張,但女性也遠遠多於男性(也許是因為男性教師不怎麼上知乎?)。看完了知乎各職業的性別分佈,我們再用一張熱力圖來觀察知乎主流職業(前五名)在各個地區的分佈情況,顏色越深,代表該職業在該地區的人數越多:
這裡我為了展示方便,去掉了產品經理,你只需要知道產品經理在各地人數都是最多的…… 不明白知乎上怎麼這麼多產品經理,可能是為了方便宣傳他們的產品?從上圖可以看出,知乎各主流職業大部分集中在北京和上海兩地,更準確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業,程序員分佈最多的城市依次是:北京、上海、廣州、杭州、廈門。北京佔得比重最大,簡直綠的發黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設計師分佈最多的城市依次是:北京、上海、杭州、深圳、武漢。設計師的地區分佈比較平均,各個城市都有一定數量。知乎的高校用戶知乎中學生用戶佔很大的比重,我們來看看他們都來自哪些學校!詞雲中字體越大,表示所佔比重越大。
我們再列出詳細的比重排名:
以上展示的結果不一定準確,可能有很大一部分學生用戶沒有填寫自己的學校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學、武漢大學、華中科技大學、中山大學、北京大學、上海交通大學、復旦大學、南京大學、四川大學、清華大學。既然分析到學校了,我們順便看看各高校的男女比例,嘿嘿。
發現一個有意思的現象,各高校大部分都是男生在玩知乎……再看一下哪些高校在知乎獲得的贊數最多:
第一是同濟大學,土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學,軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程屍培訓基地,恩???這是什麼鬼(黑人問號);繼續往後看,恩……??家裡蹲大學??!!還有一個蘭州大學,牛肉麵工藝專業???WHAT??!!∑(っ°Д°;)っ知乎大佬都這麼調皮嗎……這個圖似乎不太準,大家忽略就好……我們再來看看各地區有哪些高校是知乎重度用戶,顏色越深代表該學校的知乎用戶越多:
北京玩知乎最多的高校依次是:北京大學、北京郵電大學、中國傳媒大學、中國人民大學、清華大學。上海玩知乎最多的高校依次是:上海交通大學、復旦大學、同濟大學、上海大學、上海財經大學。杭州玩知乎最多的高校依次是:浙江大學、浙江工業大學、杭州電子科技大學、浙江大學,計算機科學、浙江大學,軟件工程。浙江大學是重度用戶啊……成都玩知乎最多的高校依次是:電子科技大學、四川大學、西南交通大學、電子科技大學,軟件工程、四川師範大學。廣州玩知乎最多的高校依次是:中山大學(SYSU)、華南理工大學(SCUT)、華南農業大學(SCAU)、廣東外語外貿大學、廣東工業大學。我們再來看一下知乎各高校用戶的活躍程度,按每個學校用戶回答問題的總數排名:
排名依次是:武漢大學、浙江大學、中山大學、華南理工大學、北京大學、華中科技大學、復旦大學、上海交通大學、西北農林科技大學。好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。知乎贊數最多的100位大V下圖中詞雲的字越大,表示收到的贊數越多:
我們再來一張直方圖,配合著看:
張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達能力是觀點獲得認可的一個重要支撐 。知乎關注者最多的100位大V下圖詞雲的字越大,表示關注者越多,看看有沒有你熟悉的大V 呢?:
同樣我們配合著一張直方圖來看:
知乎關注人數最多的前10位大V依次是:張佳瑋、李開復、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關注者數量極多。關注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現在已經有138萬粉絲。關注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。知乎回答問題最多的100位大V這些大V在知乎很活躍…… 下圖詞雲文字越大,表示回答問題數量越多。
具體的排名為:
知乎回答問題數最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一隻襪子、四海之內、M3小蘑菇、kun yu、白貓轉轉風、yskin、肛里拉出個電鋸。微軟的工作貌似很閒,看輪子哥(vczh)整天刷知乎……我們再來加上這幾位用戶在知乎的獲得的贊數,看看“回答問題的數量”和“獲得的贊數”之間有沒有什麼聯繫:
由上圖我們可以粗略的得出結論,回答問題的數量和獲得贊數的關係沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數量和獲贊數基本持平,榜單前十名的其它用戶獲得贊數雖然也不少,但和他們回答問題數量的排名比起來,還不在一個量級上。這從側面也說明了一個問題,回答問題的質量更加重要,某些高質量的會更容易吸引用戶點贊。知乎參加live最多的100位大V我們再來看一個有意思的統計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似於直播的問答形式,大V開一場 live,分享他所在領域的知識,用戶買門票參與 live,是一種知識變現的方式)
再來看看他們最多參加過多少場 live:
最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。作者:囈語_yiyu來源:簡書

簡單爬蟲舉例,如下:


作為一種便捷地收集網上信息並從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取複雜的網站。

《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。

用Python寫網絡爬蟲包含如下內容:

通過跟蹤鏈接來爬取網站;

使用lxml從頁面中抽取數據;

構建線程爬蟲來並行爬取頁面;

將下載的內容進行緩存,以降低帶寬消耗;

解析依賴於JavaScript的網站;

與表單和會話進行交互;

解決受保護頁面的驗證碼問題;

對AJAX調用進行逆向工程;

使用Scrapy創建高級爬蟲。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

校花,是指一個學校中最最受歡迎的女學生。一般長得清純,受人歡迎,性格好,交際能力強。不一定是在這所學校最漂亮的,但一定清純,受人歡迎,受人追捧。

Scrapy運行流程大概如下:

  1. 引擎從調度器中取出一個鏈LJ接用於接下來的抓取

  2. 引擎把LJ封裝成一個請求(Request)傳給下載器

  3. 下載器把資源下載下來,並封裝成應答包(Response)

  4. 爬蟲解析Response

  5. 解析出實體(Item),則交給實體管道進行進一步的處理

  6. 解析出的是LJ,則把LJ交給調度器等待抓取

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。

Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。

Scratch,是抓取的意思,這個Python的爬蟲框架叫Scrapy,大概也是這個意思吧,就叫它:小刮刮吧。

Scrapy 使用了 Twisted異步網絡庫來處理網絡通訊。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

Scrapy主要包括了以下組件:

  • 引擎(Scrapy)

    用來處理整個系統的數據流處理, 觸發事務(框架核心)

  • 調度器(Scheduler)

    用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

  • 下載器(Downloader)

    用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)

  • 爬蟲(Spiders)

    爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面

  • 項目管道(Pipeline)

    負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後,將被髮送到項目管道,並經過幾個特定的次序處理數據。

  • 下載器中間件(Downloader Middlewares)

    位於Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。

  • 爬蟲中間件(Spider Middlewares)

    介於Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。

  • 調度中間件(Scheduler Middewares)

    介於Scrapy引擎和調度之間的中間件,從Scrapy引擎發送到調度的請求和響應。

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

。。。

程序運行部分結果圖:

Python高級爬蟲抓取知乎百萬數據,基於ELK可視化數據分析(附源碼

以上是全部代碼,只是善於分享,不足之處請包涵!爬蟲基本的原理就是,獲取源碼,進而獲取網頁內容。一般來說,只要你給一個入口,通過分析,可以找到無限個其他相關的你需要的資源,進而進行爬取。


我也寫了很多其他的非常簡單的入門級的爬蟲詳細教程,關注後,點擊我的頭像,就可以查看到。


歡迎大家一起留言討論和交流,謝謝!


相關推薦

推薦中...