首先美女的照片从镇上爬出来,这样你就不会说我只是说说而已,不练假动作了!

好了,我们开门见山吧!

需要额外的第三方库

requestspip install requestspymongopip install pymongo

原则

因为淘大女孩的网站包含AJAX技术,只需要与后台交换少量数据就可以实时更新,这意味着直接抓取网页源代码然后分析信息的方式是无痛的,因为网站是动态连接的,直接抓取源代码无法获取淘大女孩的信息。

638855753

对于这类网站,一般有两种抓取方式:

利用selenium库模拟浏览器的用户行为,让服务器以为真正的用户在浏览网页,从而获得完整的网页源代码

利用Chrome等浏览器自带的分析工具,监控网页的网络,分析数据交换的API,然后利用API抓取数据交换的JSON数据,从而抓取。

效率方面,第一种方法比较慢,占用系统资源,所以我们用第二种方法来实现。

先写请求,然后在淘女孩的网站上获取JSON文件。

向服务器发送请求。然后获取服务器的JSON数据,然后对返回的数据进行处理,再转换成Python字典类型返回。

具体代码如下:

def getInfo: tao_datas try: r=requests. post except: return None rav_datas = json. loads datas rav_datas returh dat as

返回后,我们连接到MongoDB并保存返回的信息。

def main: client = MongoClientdb =client. TaoBao col = db. TaoLady for pageNun in range: 淘女郎一共有410页,所以我们抓取从1到第411页的内容。 print datas=getInfo if datas; col.insert_nany if__nane__='__main__'; main

解析返回的信息,然后提取信息中的PICture URL信息,下载后保存在pic文件夹中:

def downPic: client=HongoClient db = client.TaoBao col=db.TaoLady for data in col, find: nane = data url =“http:" + data pie=urlopen vith, open as file: print file.vrite if __nane__='__main__': downPic

好了,爬完了,原图都超级清晰。但是由于图片数量多,我的16G盘几乎装不下,这里就不一一展示了。只拍了一些截图给大家看。

扫码入群,更多知识等着你去学习

声明:本文在网上组织,版权归原作者所有。如有侵权,请联系边肖删除。

1.《淘女网 30行Python爬虫代码爬取淘女郎网美女图,哇太多了,我U盘要满了》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《淘女网 30行Python爬虫代码爬取淘女郎网美女图,哇太多了,我U盘要满了》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/1789125.html