网络舆情监控模式
0 1
人工监控
人工就是搜索整个网络,通过关键词的信息量人工判断舆情的产生。这种方法需要在整个网络中推广。比如新闻网站、论坛、贴吧、微博、微信,都是舆论滋生的地方,可能产生舆论。但是人工查找比较重,容易漏掉,风险很大。最重要的是你错过的可能是关键事件。
0 2
专业舆情监控平台
专业舆情平台,借助专业机构的舆情相关软件,利用技术获取海量信息,然后利用中文分词技术、自然语言处理技术、中文信息处理技术对垃圾过滤、去重、相似度聚类、情感分析、摘要提取、自动聚类等信息进行处理,及时发现舆情。
网络舆情监控方式
0 1
使用搜索门户作为快捷方式
搜索门户有两种:一种是搜索引擎的门户,一种是网站的站内搜索。
舆情监控往往是带着主题和导向来做的,所以很容易找到与监控对象相关的关键词,然后利用这些关键词在各种搜索门户中抓取数据。
当然,你会遇到反剥离的问题。比如你长时间频繁的抓取搜索引擎的结果页面,就会触发网站的反剥离策略,允许你输入验证码来验证是否是人的行为。
使用搜索门户作为快捷方式也会带来一些好处。除了爬行的门槛低,不需要包含各种网站信息。另一个明显的好处是可验证性很好,程序搜索的结果会和人类搜索的结果一致,所以人们很难验证你得到的数据是有偏差的。
0 2
爬虫根据网站入口遍历抓取网站内容
第一步是规划抓取哪些网站。根据不同的业务场景,整理出不同的网站列表。比如只要在话题里监控热门话题,最容易的部分就是找到门户和热门网站,抓取他们的首页推荐,大做文章聚合,从而知道哪个最热门。思路很简单,大家都关心人气。至于如何判断内容网站的受欢迎程度,这个可以有一个反馈机制:一个是编辑推荐;一种是点击收集用户行为,然后反馈排序到首页。
第二步,使用爬虫获取数据。如何写一个爬虫是一个很大的话题。这里不想解释,但需要提一下,爬虫是一种门槛很低但上升曲线很高的技术。难点在于网站的多样性;反扒手策略不同;数据采集后如何提取想要的内容?
0 3
数据检索和汇总
需要一些NLP处理算法来解决这些问题,这些问题是你关心的,是数据采集后的垃圾噪声。这方面门槛高,难度大。首先,如何有效地检索和使用大规模数据是一个难题。比如一天记录一百万页(现实环境往往远高于这个数量级),如何存储和检索几百吉字节的数据是一个难题。可喜的是,业界也有一些成熟的方案,比如使用solr或es进行存储检索,但是随着数据量的增加,这些也会面临各种问题。
通常流行的判断逻辑都是各种网站转载报道的,需要用NLP来计算相似度。业界常用的方法是Simhash或计算相似度的余弦角。在某些场景中,不仅文章相似,相似的文章也需要聚合。这时候就需要一些聚类算法,比如LDA算法。从我们的实践经验来看,聚类算法效果良莠不齐,需要根据文本特征进行测试。
1.《舆情搜索 【网络舆情】这是一个科普贴》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《舆情搜索 【网络舆情】这是一个科普贴》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/shehui/1428151.html