当前位置:首页 > 娱乐

【爬虫社区】爬虫实战篇:如何爬取全网1200本Python书

之前写了一篇文章,对市面上所有的Python书想法都写了,这也算是我们数据分析系列讲座中的一个小实战项目。(莎士比亚,坦普林。)

上次代码没有写完,正好周末有时间把代码全部完成并且存入了数据库中,今天就给大家一步步分析一下是我是如何爬取数据,清洗数据和绕过反爬虫的一些策略和点滴记录。

1目标网站分析-主页面爬取

1).市面上所有的Python书,都在京东,淘宝和豆瓣上,于是我选择了豆瓣来爬取

2).分析网站的结构,其实还是比较简单的,首先有一个主的页面,里面有所有python的链接,一共1388本(其中有100多本其实是重复的),网页底部分页显示一共93页

3).这个页面是静态页面,url页比较有规律,所以很容易构造出所有的url的地址

4).爬虫每个分页里面的所有的Python书和对应的url,比如第一页里面有"笨办法这本书",我们只需要提取书名和对应的url

2单个页面分析爬取

1).上面我们已经提取了93个页面的所有的Python书和对应的url,一共是93*15大概1300多本书,首先先去重,然后我们可以把它存到内存里面用一个字典保存,或者存到一个CSV文件中去(有同学可能奇怪为啥要存到文件里面呢,用字典存取不是方便吗,先不说最后揭晓)

2).我们接着分析每本书页面的特征:

上一片文章说过我们需要分析:

作者/出版社/译者/出版年/页数/定价/ISBN/评分/评价人数

看一下网站的源码,发现主要的信息在div id="info" 和div class="rating_self clearfix"

3).这一部分的数据清洗是比较麻烦的,因为不是每一本书都是有点评和评分系统的,而且不是每一本书都有作者,页面,价格的,所以提取的时候一定要做好异常处理,比如有的页面长的这样:

原始数据采集的过程中有很多不一致的数据:

  • 书的日期表示格式,各种各样都有:

有的书的日期是:'September 2007','October 22, 2007','2017-9','2017-8-25'

  • 有的书的价格是货币单位不统一,有美金,日元,欧元和人民币

比如:CNY 49.00,135,19 €,JPY 4320, $ 176.00

3多线程爬取

1).有的同学后台问我,你是用scrapy框架还是自己动手写的,我这个项目是自己动手写的,其实scrapy是一个非常棒的框架,如果爬取几十万的数据,我一定会用这个超级武器.

2).我用的是多线程爬取,把所有的url都扔到一个队列里面,然后设置几个线程去队列里面不断的爬取,然后循环往复,直到队列里的url全部处理完毕

3).数据存储的时候,有两种思路:

  • 一种是直接把爬取完的数据存到SQL数据库里面,然后每次新的url来了之后,直接查询数据库里面有没有,有的话,就跳过,没有就爬取处理

  • 另一种是存入CSV文件,因为是多线程存取,所以一定要加保护,不然几个线程同时写一个文件的会有问题的,写成CSV文件也能转换成数据库,而且保存成CSV文件还有一个好处,可以转成pandas非常方便的处理分析.

4反爬虫策略

1).一般大型的网站都有反爬虫策略,虽然我们这次爬的数量只有1000本书,但是一样会碰到反爬虫问题

2).关于反爬虫策略,绕过反爬虫有很多种方法。有的时候加时延(特别是多线程处理的时候),有的时候用cookie,有的会代理,特别是大规模的爬取肯定是要用代理池的,我这里用的是cookie加时延,比较土的方法.

3).断点续传,虽然我的数据量不是很大,千条规模,但是建议要加断点续传功能,因为你不知道在爬的时候会出现什么问题,虽然你可以递归爬取,但是如果你爬了800多条,程序挂了,你的东西还没用存下来,下次爬取又要重头开始爬,会吐血的(聪明的同学肯定猜到,我上面第二步留的伏笔,就是这样原因)

5代码概述篇

1).整个的代码架构我还没有完全优化,目前是6个py文件,后面我会进一步优化和封装的

  • spider_main:主要是爬取93个分页的所有书的链接和书面,并且多线程处理

  • book_html_parser:主要是爬取每一本书的信息

  • url_manager:主要是管理所有的url链接

  • db_manager:主要是数据库的存取和查询

  • util:是一个存放一些全局的变量

  • verify:是我内部测试代码的一个小程序

2).主要的爬取结果的存放

all_book:主要存放1200多本书的url和书名

:主要存放具体每一本书的信息

3).用到的库

爬虫部分:用了requests,beautifulSoup

数据清洗:用了大量的正则表达式,collection模块,对书的出版日期用了datetime和calendar模块

多线程:用了threading模块和queue

结论:


好,今天的全网分析Python书,爬虫篇,就讲到这里,基本上我们整个这个项目的技术点都讲了一遍,爬虫还是很有意思的,但是要成为一个爬虫高手还有很多地方要学习,想把爬虫写的爬取速度快,又稳健,还能绕过反爬虫系统,并不是一件容易的事情. 有兴趣的小伙伴,也可以自己动手写一下哦。源码等后面的数据分析篇讲完后,我会放github上,若有什么问题,也欢迎留言讨论一下.

End.

来源:公众号“菜鸟学python”

运行人员:中国统计网小编(微信号:itongjilove)

微博ID:中国统计网

中国统计网,是国内最早的大数据学习网站,公众号:中国统计网

1.《【爬虫社区】爬虫实战篇:如何爬取全网1200本Python书》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【爬虫社区】爬虫实战篇:如何爬取全网1200本Python书》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/3179816.html

上一篇

【伍佰亿服装网】浙江棒杰数码针织品股份有限公司关于变更公司名称暨完成工商变更登记的公告

【爬虫社区】Python入门(一):爬虫基本结构&简单实例

  • 【爬虫社区】Python入门(一):爬虫基本结构&简单实例
  • 【爬虫社区】Python入门(一):爬虫基本结构&简单实例
  • 【爬虫社区】Python入门(一):爬虫基本结构&简单实例
【爬虫社区】谢佳标:RCurl爬虫和Shiny包在游戏行业的应用

【爬虫社区】谢佳标:RCurl爬虫和Shiny包在游戏行业的应用

爬虫社区相关介绍,【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】 :010 分享嘉宾 谢佳标准音乐趣味游戏高级数据分析师 共享主要内容 ...

爬虫社区 虎扑社区论坛数据爬虫分析报告

爬虫社区 虎扑社区论坛数据爬虫分析报告

以下是虎扑官方介绍: 虎扑是一个面向年轻男性的专业网站,涵盖篮球、足球、F1、NFL等赛事的原创新闻栏目和视频报道。它有一个大型的生活/影视/电竞/汽车/数字在线交流社区,对谈论体育充满兴趣。 二、数据描述 使用的数据源: 2018/1/1~1/19的两个半星期,虎扑论坛步行街各分区的帖子全部被撤,关注度极低的帖子总数为3.3W...