#-*-代码: utf-8-*-
From urllib 2 import request、urlerror和urlopen
Import re、urllib和OS
Defget _ URL _ content (URL,retry _ times=2) :
Print 'Downloading: ',URL
tree :
Send_headers={
用户代理“:”Mozilla(windows nt 6.2;RV :16.0)eco/2010 01 01 Firefox;而且,
Accept' :' text/html、application/XHTML XML、application/XML;Q=0.9,*/*;Q=0.8 ',
Connection': 'keep-alive '
}
Req=request (URL,headers=send _ headers)
Html _ content=urlopen (req)。read()。decode ('gbk ',' ignore ')。encode ('utf-)
Except URLError、e:
Print e.reason
Html_content=None
列印' retry times : ',retry _ times
If retry_times 0:
If hasattr (e,' code') and 500=e.code 6003360
Get _ URL _ content (URL、retry _ times-1)
Return html_content
defget _ pic _ URL(html _ content):
Pic_reg='src='(http://。*?(png|jpg|gif)' '
Patten=re.com pile (pic _ reg、re.ignorecase)
Return (html_content)
Defsave _ pic _ urllib (save _ path,pic _ URL) :
save _ pic _ name=save _ path('/')[len('/')-1]
If not os。(save_pic_name):
Print save_pic_name
Urllib.urlretrieve (pic _ URL、save _ pic _ name)
Def mkdir(mkdir_path):
Path=mkdir_()
If not os。(path):
Os.makedirs(路径)
Return path
# print get _ URL _ content(';)。
If _ _ name _ _==' _ _ main _ _ ' :
save _ path=mkdir(' d : \ \ meizi \ \ ')
For index in range(1,755): #按ID攀登整个站点
src=' http://www . qiubaichengren . com/% s . html ' %(index)
URL _ content=get _ URL _ content(src)
If url_content:
son _ save _ path=mkdir(save _ path str(index)' \ \ ')
pic _ list=get _ pic _ URL(URL _ content)
for I in range(len(pic _ list)):
Pic_url=pic_list[i][0]
Save _ pic _ urllib (son _ save _ path,pic _ URL)
打印“页”“str(索引)”页,爬网完成。
撸叼屎,拿去撸吧!'1.《【糗百成人版地址】Urllib2爬取糗事百科成人版妹子图(老司机第四弹)》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【糗百成人版地址】Urllib2爬取糗事百科成人版妹子图(老司机第四弹)》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/3196889.html