当前位置：首页 > 时尚生活

舆情搜索【网络舆情】这是一个科普贴

2021-04-22 11:28:40 时尚生活舆情搜索,舆情,网站,爬虫,数据

网络舆情监控模式

0 1

人工监控

人工就是搜索整个网络，通过关键词的信息量人工判断舆情的产生。这种方法需要在整个网络中推广。比如新闻网站、论坛、贴吧、微博、微信，都是舆论滋生的地方，可能产生舆论。但是人工查找比较重，容易漏掉，风险很大。最重要的是你错过的可能是关键事件。

0 2

专业舆情监控平台

专业舆情平台，借助专业机构的舆情相关软件，利用技术获取海量信息，然后利用中文分词技术、自然语言处理技术、中文信息处理技术对垃圾过滤、去重、相似度聚类、情感分析、摘要提取、自动聚类等信息进行处理，及时发现舆情。

网络舆情监控方式

0 1

使用搜索门户作为快捷方式

搜索门户有两种:一种是搜索引擎的门户，一种是网站的站内搜索。

舆情监控往往是带着主题和导向来做的，所以很容易找到与监控对象相关的关键词，然后利用这些关键词在各种搜索门户中抓取数据。

当然，你会遇到反剥离的问题。比如你长时间频繁的抓取搜索引擎的结果页面，就会触发网站的反剥离策略，允许你输入验证码来验证是否是人的行为。

使用搜索门户作为快捷方式也会带来一些好处。除了爬行的门槛低，不需要包含各种网站信息。另一个明显的好处是可验证性很好，程序搜索的结果会和人类搜索的结果一致，所以人们很难验证你得到的数据是有偏差的。

0 2

爬虫根据网站入口遍历抓取网站内容

第一步是规划抓取哪些网站。根据不同的业务场景，整理出不同的网站列表。比如只要在话题里监控热门话题，最容易的部分就是找到门户和热门网站，抓取他们的首页推荐，大做文章聚合，从而知道哪个最热门。思路很简单，大家都关心人气。至于如何判断内容网站的受欢迎程度，这个可以有一个反馈机制:一个是编辑推荐；一种是点击收集用户行为，然后反馈排序到首页。

第二步，使用爬虫获取数据。如何写一个爬虫是一个很大的话题。这里不想解释，但需要提一下，爬虫是一种门槛很低但上升曲线很高的技术。难点在于网站的多样性；反扒手策略不同；数据采集后如何提取想要的内容？

0 3

数据检索和汇总

需要一些NLP处理算法来解决这些问题，这些问题是你关心的，是数据采集后的垃圾噪声。这方面门槛高，难度大。首先，如何有效地检索和使用大规模数据是一个难题。比如一天记录一百万页(现实环境往往远高于这个数量级)，如何存储和检索几百吉字节的数据是一个难题。可喜的是，业界也有一些成熟的方案，比如使用solr或es进行存储检索，但是随着数据量的增加，这些也会面临各种问题。

通常流行的判断逻辑都是各种网站转载报道的，需要用NLP来计算相似度。业界常用的方法是Simhash或计算相似度的余弦角。在某些场景中，不仅文章相似，相似的文章也需要聚合。这时候就需要一些聚类算法，比如LDA算法。从我们的实践经验来看，聚类算法效果良莠不齐，需要根据文本特征进行测试。

1.《舆情搜索【网络舆情】这是一个科普贴》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《舆情搜索【网络舆情】这是一个科普贴》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/shehui/1428151.html