当前位置:首页 > 时尚生活

舆情搜索 【网络舆情】这是一个科普贴

网络舆情监控模式

0 1

人工监控

人工就是搜索整个网络,通过关键词的信息量人工判断舆情的产生。这种方法需要在整个网络中推广。比如新闻网站、论坛、贴吧、微博、微信,都是舆论滋生的地方,可能产生舆论。但是人工查找比较重,容易漏掉,风险很大。最重要的是你错过的可能是关键事件。

0 2

专业舆情监控平台

专业舆情平台,借助专业机构的舆情相关软件,利用技术获取海量信息,然后利用中文分词技术、自然语言处理技术、中文信息处理技术对垃圾过滤、去重、相似度聚类、情感分析、摘要提取、自动聚类等信息进行处理,及时发现舆情。

网络舆情监控方式

0 1

使用搜索门户作为快捷方式

搜索门户有两种:一种是搜索引擎的门户,一种是网站的站内搜索。

舆情监控往往是带着主题和导向来做的,所以很容易找到与监控对象相关的关键词,然后利用这些关键词在各种搜索门户中抓取数据。

当然,你会遇到反剥离的问题。比如你长时间频繁的抓取搜索引擎的结果页面,就会触发网站的反剥离策略,允许你输入验证码来验证是否是人的行为。

使用搜索门户作为快捷方式也会带来一些好处。除了爬行的门槛低,不需要包含各种网站信息。另一个明显的好处是可验证性很好,程序搜索的结果会和人类搜索的结果一致,所以人们很难验证你得到的数据是有偏差的。

0 2

爬虫根据网站入口遍历抓取网站内容

第一步是规划抓取哪些网站。根据不同的业务场景,整理出不同的网站列表。比如只要在话题里监控热门话题,最容易的部分就是找到门户和热门网站,抓取他们的首页推荐,大做文章聚合,从而知道哪个最热门。思路很简单,大家都关心人气。至于如何判断内容网站的受欢迎程度,这个可以有一个反馈机制:一个是编辑推荐;一种是点击收集用户行为,然后反馈排序到首页。

第二步,使用爬虫获取数据。如何写一个爬虫是一个很大的话题。这里不想解释,但需要提一下,爬虫是一种门槛很低但上升曲线很高的技术。难点在于网站的多样性;反扒手策略不同;数据采集后如何提取想要的内容?

0 3

数据检索和汇总

需要一些NLP处理算法来解决这些问题,这些问题是你关心的,是数据采集后的垃圾噪声。这方面门槛高,难度大。首先,如何有效地检索和使用大规模数据是一个难题。比如一天记录一百万页(现实环境往往远高于这个数量级),如何存储和检索几百吉字节的数据是一个难题。可喜的是,业界也有一些成熟的方案,比如使用solr或es进行存储检索,但是随着数据量的增加,这些也会面临各种问题。

通常流行的判断逻辑都是各种网站转载报道的,需要用NLP来计算相似度。业界常用的方法是Simhash或计算相似度的余弦角。在某些场景中,不仅文章相似,相似的文章也需要聚合。这时候就需要一些聚类算法,比如LDA算法。从我们的实践经验来看,聚类算法效果良莠不齐,需要根据文本特征进行测试。

1.《舆情搜索 【网络舆情】这是一个科普贴》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《舆情搜索 【网络舆情】这是一个科普贴》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/shehui/1428151.html

上一篇

晚上吃梨好吗 春天能吃梨吗 春季吃梨的7大功效及食用禁忌

下一篇

澳方撕毁一带一路协议 中方回应 目前是什么情况?

外地车进深圳申请网站 最新2018深圳外地车限行细则:深圳外地车如何避免受罚?

  • 外地车进深圳申请网站 最新2018深圳外地车限行细则:深圳外地车如何避免受罚?
  • 外地车进深圳申请网站 最新2018深圳外地车限行细则:深圳外地车如何避免受罚?
  • 外地车进深圳申请网站 最新2018深圳外地车限行细则:深圳外地车如何避免受罚?
人均住房面积 国家统计局最新数据,人均住房建筑面积竟有这么多,你达标了吗?

人均住房面积 国家统计局最新数据,人均住房建筑面积竟有这么多,你达标了吗?

7月31日,国家统计局发布了《新中国成立70周年经济社会发展成就第十系列报告》(以下简称《报告》)。报告指出,随着国家建设步伐的加快,建筑业成功完成了一系列关系国计民生的重大基础设施项目,人民的居住、出行、通讯、教育、医疗条件得到极大改善。20...

特斯拉被责令提供相关行车数据 这意味着什么?

特斯拉被责令提供相关行车数据 这意味着什么?

特斯拉被责令提供数据目前,上级部门已明确批复,这一问题属于消费者知情权范畴,4月21日,郑东新区市场监管局责令特斯拉汽车销售服务(郑州)有限公司无条件向张女士提供该车发生事故前半小时完整行车数据。在随后的调解中,投诉人张女士认为,被投诉人特斯拉公司有义务并要求其提供事故发生前半小时完整的行车数据,被投诉人特斯拉公司同意将相关行车数据完整提供给投诉人,但提出三个前提条件:一是需签订协议约定数据用途,...

贵阳市教育局官方网站 贵阳市教育局官网启用新网址

4月26日,记者从贵阳市教育局获悉,贵阳市教育局官网将从即日起使用新网站域名。新域名为(http://j .贵阳. gov.cn/)。教育局提醒家长,义务教育网上报名可以通过以下方式进行。 一、直接登录贵阳市义务教育入学服务平台网站:http:...

特斯拉被责令提供相关行车数据 登上网络热搜了!

特斯拉被责令提供相关行车数据 登上网络热搜了!

特斯拉被责令提供数据目前,上级部门已明确批复,这一问题属于消费者知情权范畴,4月21日,郑东新区市场监管局责令特斯拉汽车销售服务(郑州)有限公司无条件向张女士提供该车发生事故前半小时完整行车数据。在随后的调解中,投诉人张女士认为,被投诉人特斯拉公司有义务并要求其提供事故发生前半小时完整的行车数据,被投诉人特斯拉公司同意将相关行车数据完整提供给投诉人,但提出三个前提条件:一是需签订协议约定数据用途,...

特斯拉被责令提供相关行车数据 过程真相详细揭秘!

特斯拉被责令提供相关行车数据 过程真相详细揭秘!

特斯拉被责令提供数据目前,上级部门已明确批复,这一问题属于消费者知情权范畴,4月21日,郑东新区市场监管局责令特斯拉汽车销售服务(郑州)有限公司无条件向张女士提供该车发生事故前半小时完整行车数据。在随后的调解中,投诉人张女士认为,被投诉人特斯拉公司有义务并要求其提供事故发生前半小时完整的行车数据,被投诉人特斯拉公司同意将相关行车数据完整提供给投诉人,但提出三个前提条件:一是需签订协议约定数据用途,...

特斯拉:将提供事故前数据 具体事件来龙去脉曝光

特斯拉:将提供事故前数据 具体事件来龙去脉曝光

特斯拉女车主维权事件持续发酵,特斯拉中国副总裁陶琳此前回应称:绝对不会妥协,负面新闻都是因为她。对于消费者的反映,郑州市郑东新区市场监督管理局责令特斯拉交出车祸前30  ...

12306官网注册 12306网站注册用户

东亚新闻(记者李秋实)近日,中铁客服中心12306网站发布公告。为了防止黄牛利用他人身份信息购票,铁路当局采取了限制性措施。注册用户名下已通过、送检、预通过的常用联系人(乘客)累计人数一般不超过100人(上限将根据春运高峰和夏季奥运会的具体情况...