当前位置:首页 > 奇闻趣事

贝壳网二手房 链家网和贝壳网新房、二手房、租房数据爬虫,稳定可靠快速!

爬取链家网、贝壳网的各类房价数据(小区数据,挂牌二手房, 出租房,新房)。支持北京上海广州深圳等国内21个主要城市;支持Python2和Python3; 基于页面的数据爬取,稳定可靠; 丰富的代码注释,帮助理解代码并且方便扩展功能。数据含义:城市-city, 区县-district, 板块-area, 小区-xiaoqu, 二手房-ershou, 租房-zufang, 新房-loupan。每个版块存储为一个csv文件,该文件可以作为原始数据进行进一步的处理和分析。支持图表展示。

如果链家和贝壳页面结构有调整,欢迎反馈,我将尽力保持更新。此代码仅供学习与交流,请勿用于商业用途。问题反馈QQ群号635276285。

完整的代码下载地址:

安装依赖性

pip install -r requirements.txt运行前,请将当前目录加入到系统环境变量PYTHONPATH中。运行前,请指定要爬取的网站,见lib/const/spider.py里面的SPIDER_NAME变量。清理数据,运行 python tool/clean.py

爬行住宅房价数据

内容格式:采集日期,所属区县,板块名,小区名,挂牌均价,挂牌数内容如下:20180221,浦东,川沙,恒纬家苑,32176元/m2,3套在售二手房数据可以存入MySQL/MongoDB数据库,用于进一步数据分析,比如排序,计算区县和版块均价。MySQL数据库结构可以通过导入tool/lianjia_xiaoqu.sql建立。MySQL数据格式: 城市 日期 所属区县 版块名 小区名 挂牌均价 挂牌数MySQL数据内容:上海 20180331 徐汇 衡山路 永嘉路621号 333333 0MongoDB数据内容: { "_id" : ObjectId("5ac0309332e3885598b3b751"), "city" : "上海", "district" : "黄浦", "area" : "五里桥", "date" : "20180331", "price" : 81805, "sale" : 11, "xiaoqu" : "桥一小区" }Excel数据内容:上海 20180331 徐汇 衡山路 永嘉路621号 333333 0运行, python xiaoqu.py 根据提示输入城市代码,回车确认,开始采集数据到csv文件运行, python xiaoqu.py city, 自动开始采集数据到csv文件 hz: 杭州, sz: 深圳, dl: 大连, fs: 佛山xm: 厦门, dg: 东莞, gz: 广州, bj: 北京cd: 成都, sy: 沈阳, jn: 济南, sh: 上海tj: 天津, qd: 青岛, cs: 长沙, su: 苏州cq: 重庆, wh: 武汉, hf: 合肥, yt: 烟台nj: 南京, 修改 xiaoqu_to_db.py 中的database变量,设置数据最终存入mysql/mongodb/Excel/jsonpython xiaoqu_to_db.py 根据提示将今天采集到的csv数据存入数据库。(默认导出为单一csv文件)python xiaoqu_to_chart.py 将单一csv文件数据通过图表展示。挂牌二手房数据爬取 获取链家网挂牌二手房价数据,数据格式如下:20180405,浦东,万祥镇,祥安菊苑 3室2厅 258万,258万,祥安菊苑 | 3室2厅 | 126.58平米 | 南 | 毛坯运行,python ershou.py 根据提示输入城市代码,回车确认,开始采集数据到csv文件运行,python ershou.py city,自动开始采集数据到csv文件出租房数据爬取 获取链家网挂牌出租房数据,数据格式如下:20180407,浦东,御桥,仁和都市花园 ,3室2厅,100平米,8000运行,python zufang.py 根据提示输入城市代码,回车确认,开始采集数据到csv文件运行,python zufang.py city,自动开始采集数据到csv文件

新房数据抓取

获取链家网新房数据,数据格式如下:20180407,上海星河湾,76000,1672万运行,python loupan.py 根据提示输入城市代码,回车确认,开始采集数据到csv文件运行,python loupan.py city,自动开始采集数据到csv文件结果存储 根目录下建立data目录存放结果数据文件小区房价数据存储目录为 data/site/xiaoqu/city/date二手房房价数据存储目录为 data/site/ershou/city/date出租房房价数据存储目录为 data/site/zufang/city/date新房房价数据存储目录为 data/site/loupan/city/date

看完这两套吴恩达课程笔记,你会省下几万的培训费

运用文本神经网络和lightGBM模型对景区口碑评价的情感进行分析

2018颤音数据研究报告,你最喜欢的网络名人头像是什么?

堆叠:Catboost、Xgboost、LightGBM、Adaboost、RF等

1.《贝壳网二手房 链家网和贝壳网新房、二手房、租房数据爬虫,稳定可靠快速!》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《贝壳网二手房 链家网和贝壳网新房、二手房、租房数据爬虫,稳定可靠快速!》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/1630522.html

上一篇

全球国土面积排名 世界国土面积排名前十的国家是哪几个

下一篇

直男的表现特征 直男癌和大男子主义是一回事吗?直男癌的特征有哪些直男癌和大男子主义是一回事吗?直男癌的特征有哪些

小松鼠燃气壁挂炉 教你一分钟读懂小松鼠壁挂炉故障代码!

  • 小松鼠燃气壁挂炉 教你一分钟读懂小松鼠壁挂炉故障代码!
  • 小松鼠燃气壁挂炉 教你一分钟读懂小松鼠壁挂炉故障代码!
  • 小松鼠燃气壁挂炉 教你一分钟读懂小松鼠壁挂炉故障代码!

明发滨江新城二手房 刚刚!江北415个小区房价出炉,这些小区跌惨了!

  • 明发滨江新城二手房 刚刚!江北415个小区房价出炉,这些小区跌惨了!
  • 明发滨江新城二手房 刚刚!江北415个小区房价出炉,这些小区跌惨了!
  • 明发滨江新城二手房 刚刚!江北415个小区房价出炉,这些小区跌惨了!

liujianfang 六间房经营状况数据报告

  • liujianfang 六间房经营状况数据报告
  • liujianfang 六间房经营状况数据报告
  • liujianfang 六间房经营状况数据报告
最恐怖的数字 “天佑之子”霍洛威生涯数据:恐怖击打数字史上第一

最恐怖的数字 “天佑之子”霍洛威生涯数据:恐怖击打数字史上第一

“有福的儿子”马克斯·霍洛韦将于本周末在UFC245举行他的第四次羽毛球卫冕冠军赛。 自从2017年6月击败何塞·奥尔多成为145磅的冠军以来,霍洛韦已经成为MMA中最具毁灭性的球员之一。他已经击败了奥尔多、布莱恩·奥尔特加和弗兰基·埃德加,并将在本周末迎接亚历山大·瓦尔卡诺夫的挑战。 那么,...

病毒代码 简单病毒浅析

病毒代码 简单病毒浅析

460500587  宏用于获取结构中字段的偏移量。对于IMAGE_DOS_HEADER结构中的e_cblp,其在结构中的偏移量为2。然后offsetof (image _ dos _ header,e _ cblp)返回的值是2,可以调试跟踪。 动词 (verb的缩写)自删除功能的实现...

dnf界面补丁怎么用 DNF补丁好玩吗?怎么用?教一下大家如何认识DNF的神秘文件

  • dnf界面补丁怎么用 DNF补丁好玩吗?怎么用?教一下大家如何认识DNF的神秘文件
  • dnf界面补丁怎么用 DNF补丁好玩吗?怎么用?教一下大家如何认识DNF的神秘文件
  • dnf界面补丁怎么用 DNF补丁好玩吗?怎么用?教一下大家如何认识DNF的神秘文件
儒豹搜索 从内容切入 儒豹利用搜索引擎大数据技术创新行业生态

儒豹搜索 从内容切入 儒豹利用搜索引擎大数据技术创新行业生态

“最近我在和几家报纸的编辑沟通。他们吃了很多苦,主要是每天早上6点开始手工作业,要做完才能上班。而且读者还是不满意,因为靠几个编辑的手工推荐不符合大家的利益。每个人兴趣不同,几个编辑都处理不了。儒家豹子将充分推动国内内容信息产业的发展,提高产业的运营效率。”近日,康柏公司创始人兼CEO韩松...

数据侠客行 大数据侠客行系列之一:数博会里的“金庸神功利器”

  • 数据侠客行 大数据侠客行系列之一:数博会里的“金庸神功利器”
  • 数据侠客行 大数据侠客行系列之一:数博会里的“金庸神功利器”
  • 数据侠客行 大数据侠客行系列之一:数博会里的“金庸神功利器”