imdb250 豆瓣已玩烂，这次我们爬取了IMDB电影Top250后发现...

本文转自微信官方账号数据森林

前言

搬到Python半年，接触爬虫两个月，看了10本相关的书，完成了这项工作，这是对我过去学习和实践的回顾。也希望能和更多的python和爬虫爱好者交流成长。

选择这个题目，首先是把豆瓣作为爬虫引入，对各种大牛的深入分析变得完善；另一方面，随着中国电影业的发展，我们需要将视角转向国际市场，通过数据分析找出外国人感兴趣的电影。

数据抓取

网页分析

IMDBtop250主页

IMDB电影详细信息页面(1)

IMDB电影详细信息页面(2)

基于上面的网页结构，我们发现我们只需要得到每部电影的详细页面代码(唯一)，实现详细页面(1)(2)导出国家&:类型，分数&:获取人数信息。简单易懂，抓取思维导图如下:

爬虫代码

IMDB top250主页

#导入库-导入库-导入库

fromurllib importrequest

fromchardet importdetect

来自bs4导入美化组

进口熊猫aspd

importtime

importrandom

#获取网页的源代码并生成soup对象。

定义汤(url):

withrequest.urlopen(url) asfp:

byt = fp.read()

det =检测(字节)

time.sleep(random.randrange( 1，5))

return美化组(byt.decode(det[ 'encoding'])，' lxml ')

#解析数据-。

定义数据(汤):

#获得评分

ol = soup.find( 'tbody '，attrs = { 'class': 'lister-list'})

score_info = ol.find_all( 'td '，attrs={ 'class': 'imdbRating'})

film_scores = [k.text.replace( 'n '，' ')fork inscore_info]

#获取分数、电影名称、导演和演员、发行年份和详细信息链接

film_info = ol.find_all( 'td '，attrs={ 'class': 'titleColumn'})

film _ name =[k . find(' a ')。文本叉infilm_info]

film_actors = [k.find( 'a ')。attrs[ 'title'] fork infilm_info]

film_years = [k.find( 'span ')。text[ 1: 5] fork infilm_info]

next_nurl = [url2 + k.find( 'a ')。attrs[' href '][0:17]fork in film _ info]

数据=pd。data frame({ ' name ':film _ name，' year':film_years，' score':film_scores，' actors':film_actors，' newurl':next_nurl})

returndata

IMDB top250电影详细信息页面

#获取详细的页面数据-。

定义下一个网址(详细信息，详细信息1):

#得到电影国家

detail_list = detail.find( 'div '，attrs={ 'id':'titleDetails'})。find_all( 'div '，attrs={ 'class':'txt-block'})

detail_str = [k.text.replace( 'n '，' ')fork indetail_list]

detail _ str =[k fork Inde tail _ str ifk . find(':')& gt；= 0]

detail _ dict = { k . split(':')[0]:k . split(':')[1]fork Inde tail _ str }

country = detail_dict[ 'Country']

#获取电影类型

detail_list1 = detail.find( 'div '，attrs = { ' class ':' title _ wrapper ' })。find_all( 'div '，attr = { ' class ':' subtext ' })

detail_str1 = [k.find( 'a ')。indetail_list1]中的文本分叉

movie_type=pd。数据帧({“类型”:detail_str1})

#按组获取电影的详细分数和数量

div_list = detail1.find_all( 'td '，attrs= { 'align': 'center'})

value = [k.find( 'div '，attrs = { ' class ':' big cell ' }). text . strip()fork indiv _ list]

num = [k.find( 'div '，attrs = { ' class ':' small cell ' }). text . strip()fork indiv _ list]

分数=pd。DataFrame({ 'value':value，' num':num})

返回国家，电影类型，分数

数据显示

最后，我们获得了以下数据，并将其存储起来供后续分析使用:

数据分析

电影类型比较

首先，让我们看看每种类型的电影所占的比例:

前250名电影的前三种类型是喜剧、犯罪和动作片。

激动的情绪和轻松的剧情可以给粉丝带来难忘的观影体验。

我们来看看各种类型电影的评分对比:

从类型来看，西方电影之所以骑在尘埃上，可能与观众少、狂放的粉丝分数高有关。其次，犯罪、动作、冒险、推理和恐怖题材也容易得分较高

年份比较

首先，我们来看看250强电影的年份:

在前250部电影中，1957年、1995年和2014年的电影较多，但1975年后，上榜电影数量明显增加，这可能与电影行业日益成熟有关。

至于1995年，熟悉电影的朋友可能都知道，1995年是世界电影百年，无数电影天才在这一年里诞生了他们的伟大作品。我们熟悉《肖申克的救赎》《阿甘正传》《低俗小说》《四婚礼一葬礼》《七宗罪》《狮子王》等等

同时，我们来看看各个年代电影的评价分数:

对比电影时代评分，没有明显的上升或下降趋势，说明电影艺术不会随着时间而失去自身的价值。对于电影来说，技术不是第一位的，情感共鸣因素占的权重更大；哪部电影最好看？答案在于我们每个人。

国家比较

让我们来看看来自各个国家的电影在250部电影中所占的比例:

这个数字很有意思。有点像诺贝尔奖。美国电影占据半个国家，其他国家瓜分剩下的蛋糕。排名靠前的是英国、法国、日本和德国。在中国，唯一上榜的电影是《花样年华》。

如果是由于西方主流价值观，同样是东方文化代表的邻国日本有16部电影上榜，说明西方价值观不能成为中国电影缺失的主要原因。近年来，国内出现了很多高质量的作品，如《大鱼海棠》和新上映的《流浪地球》，但在国际市场的反响依然平平。我相信电影有共同语言，真的有普世价值这种东西。如何打造一个国际化的电影产业，给全世界的人讲故事，是中国电影人接下来需要探索的话题。

导演比较

让我们看看最常出现在250强名单中的导演:

我们来看看名单上有哪些作者。鉴于可能大家都不太熟悉外国董事的名字，这里做一个董事代表对照表。值得注意的是，雷德利·斯科特(Redley Scott)、詹姆斯·卡梅隆(James Cameron)和大卫·芬奇(David Finch)分别执导了《异形1》、《异形2》和《异形3》，其中一部《异形》有三位导演上榜，可见其系列影响力。没看过的小伙伴强烈建议去看一看，虽然味道可能比较重。

人口比较

首先，我们来看看不同人的分数:

从性别维度来说，男性比女性更容易给出高分。另一方面，从年龄方面来说，无论男女，未成年人最容易给高分。随着年龄的增长，分数越来越有吸引力，45岁以上的给出的分数最低。一颗坚硬的心，过了海就很难被感动吗？又或许一部电影只有见多识广才能得到公正客观的评价？也许可以研究一下这个问题，比如《电影节评委年龄组科学分配方法》。

但是，了解评分情况，还需要了解各种人群的比例: