一、网络舆情的定义

狭义的舆论是指作为主体的人民对作为客体的国家管理者的社会政治态度。简而言之,民意是指人们的社会和政治态度。一般来说,广义的舆论是社会条件和舆论,是指社会各界对社会存在和发展的情绪、态度、观点、意见和行为倾向。

狭义的网络舆论是指以人民群众为主体,以国家管理者为对象的社会政治态度。广义的网络舆情是指人们对社会事件、社会现象和社会主体的情绪、看法和态度,以及对社会事件、社会现象和社会主体产生直接或间接影响的行为倾向。

二,网络舆情分析概述

舆情分析,又称定向分析、意见分析或统计调查,是通过技术手段了解公众对某一事物或某一事项的看法。

传统的舆情分析通常采用抽样调查的方法,也称为舆情调查或市场调查,广泛应用于选举预测、产品市场预调研、市场评估等领域,更专业的市场调查公司提供此类调查服务。抽样调查渠道包括电话访谈、面对面访谈、邮寄问答表。但这些做法也存在一些问题,如劳动消耗大、抽样数量少、答题卡和可选答案的设计可能出现偏差、回答者因各种原则而隐藏真实想法等。因此,传统的舆情分析侧重于如何设计问卷、如何确定样本量和样本选择方法。

随着各种互联网应用中用户生成内容的支持,特别是互联网社交网络、博客、微博等信息发布平台的繁荣,个人表达观点的渠道日益开放,手段日益便捷。更有价值的是,信息流不再是单向的。报纸的信息流是从报纸到读者。在互联网的应用中,通过“评论”、“回复”等技术手段方便地使信息流双向流动,甚至评论和回复成为信息的有机组成部分,进一步丰富了原有的信息内容。比如在淘宝应用中,人们通常把评论的内容作为商品描述的补充。

因此,积极从互联网上收集信息,利用数据挖掘或自然语言处理来分析用户对信息的看法,已经成为一种非常重要和直接的舆情分析手段,即“网络舆情分析”。

1.网络舆情分析简介

网络舆情分析利用数据追踪网络舆情的起源和演变,以给出建议的结果,逐渐成为政府、企业乃至个人应对舆情的依据。网络舆情分析有两个重点:一是还原舆情发展过程,寻找舆情根源;二是预测,分析网络舆情未来趋势,然后根据预测结果提出对策。

网络舆情分析的主体是网络舆情分析师,由不同层次的各界人士解读。

网络舆情分析面临着与传统舆情分析完全不同的问题和研究难点。传统舆情样本存在内容效度高但样本数量少的问题;在网络舆情分析中,存在信息量大但信息有效性差的问题。信息有效性差的原因很多。第一,很难确定信息来源。其次,资料中的意见大多是附呈的,很多都不是故意的。但正因为如此,网络舆情分析具有传统舆情分析不可替代的优势:一是没有答案设计题,信息中反映的观点更真实;第二,数据多,成本低,抽样面广,很大程度上弥补了信息源不确定的问题,能更好地反映宏观层面的真实民意。网上舆情分析还有一个特别的优势,就是可以长时间重复舆情分析,更及时的掌握舆情的动向和变化。

由于网络舆情分析具有传统舆情分析所不具备的一些优势,网络舆情系统理论上可以有更全面、详细的分析结果。但是,由于网络舆情系统的分析是基于互联网上收集的文本等信息,同时自然语言处理技术在现阶段有很大的局限性,即机器不能真正理解人的语言,网络舆情系统在现阶段不能完善。所以网络舆情系统空的发展非常大。

如图1所示,网络舆情分析系统大致可以分为四个层次。图1简要列出了每一层可能的分析模块。信息收集层负责收集互联网上的信息,并对其进行整理和存储。趋势分析层可以进一步整理信息,识别话题的延续和传播,将信息组织成话题。根据信息传播的广度、发展时间的长短等数据,可以对热点进行识别和跟踪,持续观察和统计。从大数据处理和互联网深度的角度,大数据分析层融合多源数据,整合零散信息,从而获得更全面的视图。语义分析层借助自然语言处理技术,进一步处理话题信息,获取信息发布者对话题的倾向性观点,提取信息发布者的观点,最终达到传统舆情分析所能达到的分析深度。

图1网络舆情系统基本模块

2.网络舆情分析市场需求

经过多年的发展,网络舆情服务市场日益成熟,发展出多层次的业务需求。

近年来,我国网络舆情危机事件大多爆发在城管、维稳、拆迁、上访等领域,政府部门往往是危机事件的参与主体,因此政法舆情发展迅速。目前,大多数敏感地区的政府部门都设立了网络舆情监测部门,或者设置专门人员进行网络舆情监测。

从服务内容来看,主要有以下几类:

及时动态的舆情预警服务,一般是全天候24小时不间断的舆情预警。一旦发现负面舆论,会及时向客户报告;

基于网络舆情监控系统的智能分析,通过为客户提供智能分析系统,满足舆情服务;

监测和判断日常负面舆情或特定事件的走向,主要体现在日报、周报、月报、专报等各种舆情报道中;

舆情修复,为客户策划访谈节目,设置网络话题,有针对性地解读舆情事件,引导舆情发展方向,降低舆情事件风险;

为客户提供网络舆情管理者、分析师等专业培训,拓展专业舆情人才队伍;

建立舆情判断指标体系,发布网络舆情图片列表、政府微博列表、政府微博报告等舆情列表和报告。

3.网络舆情特征分析

跨学科研究

在CNKI中,以“互联网舆情分析”为关键词进行搜索,很多文献来自情报学、新闻学、社会学、政治学等领域。其中,情报学主要针对把握舆情阶段,致力于通过系统建模方法,包括层次分析法、网页挖掘、聚类、熵理论、文本挖掘等,对网络舆情进行早期检测;新闻学主要涉及舆论传播阶段,讨论新媒体和传统媒体的发展,以及传播的影响、媒体关系和舆论引导;社会学和政治学多致力于寻求解决方案,深入分析舆情事件,观察个别事件乃至大局对参与政治和社会阶层变动的影响。

这种跨学科的特点也充分体现在“互联网舆情分析师”的招聘信息中。专业要求是政治、社会学、经济学、统计学、新闻传播、公共管理等多学科知识和跨学科视野。

技术与写作的关系

从网络舆情分析的发展历史来看,技术应用经历了人工搜索阶段和舆情监控软件引入阶段两个阶段。早期的网络舆情分析是为特定对象服务的,搜索引擎数据更被视为选题是否热门的重要指标。除了搜索,还要依靠分析师自身的专业素养,尤其是对话题重要性和敏感性的判断,以及对重要舆情观点的把握、提炼和升华,从而综合判断重大事件的舆情走向。

近年来,随着技术的发展,出现了大量的舆情监控软件,其中很多是基于大数据和云计算技术的,给网络舆情分析带来了强大的工具。据统计,中国网民每天在微博上发布转发2.5亿条消息,每天在微信等即时通讯工具上发送超过200亿条消息。根据新浪微博、腾讯微信等7个网站发布的帖子统计,在网民关注的20大热点事件中,排名前12位的帖子均超过200万,其中排名第一的帖子数超过4500万。这样几千万的网络舆情事件的分析判断,不是单纯的人工搜索可以实现的。

从功能上看,一些舆情监测软件可以实现危机预警和基本判断,如输入关键词和监测时间,可以获得信息源类别分析、舆情倾向性分析、传播路径分析、高频热词分析、人物关系图等。,甚至形成简单的不需要人工分析判断的舆情报告。

然而,技术的过度应用也会引起关注。网络舆情管理存在技术主义倾向,在技术上给予舆情监控压倒性的优先权,造成技术依赖。舆情管理的目标抽象为实证主义或实用主义的目标,即平息舆情热点,依靠舆情监测等技术人员。技术主义倾向带来的问题包括无法解决重大问题、市场力量对政治权威的侵蚀、迎合政治需求对人民利益的损害、科学决策对舆论的话语权、检测技术本身不完善带来的缺陷以及单一价值目标带来的身份危机。总之,即使舆情监测分析系统输出的结果有眼花缭乱的视觉效果,分析结论一目了然,但这种可以通过技术层面实现的在线舆情分析仍然停留在较低层面,以及更高层面的舆情处置和引导建议、智库服务等。,还是要靠分析师的脑力努力。

三、网络舆情分析的关键技术

1.信息收集技术综述

信息收集技术,顾名思义,是一种可以从互联网上公开获取的信息中下载和收集的技术。互联网上的信息收集主要是通过网页爬虫实现的。网络爬虫是根据一定的规则自动抓取互联网信息的程序或脚本。爬虫存在的意义在于,互联网上的信息是分布的、独立的,但信息是相互联系的。爬虫穿梭在超链接建立的网络中,这就是爬虫也被称为蜘蛛的原因。

由于互联网资源的巨大规模和下载所需的时间,网络爬虫下载多个网络资源。)同时以多进程或者多线程甚至分布式的方式,这意味着这是一个组作业,爬虫共同完成爬行的任务。如图2所示,爬虫从一个初始下载队列开始,当在下载队列中找到更多的URL时,调度中心决定下载哪些URL,并将下载任务分配给各个下载者。

图2网络爬虫的工作

根据客户的不同,网页爬虫的行为差异很大,分工比工兵家更细致多样。为搜索引擎等搜索应用服务的Web爬虫有覆盖尽可能多的互联网网站的规则,单个网站的搜索深度不高。然而,在有针对性的信息收集应用中,如舆情分析系统,要求其网络爬虫具有较高的搜索深度和一定的主题选择能力。搜索深度高的爬虫称为路径跟踪爬虫,它尽可能深入地抓取给定网站的所有资源。一个具有主题选择能力的爬虫称为主题爬虫,它可以判断被抓取的资源是否属于用户指定的主题,并不断搜索和抓取与给定主题相关的网页。

比如为了了解某C公司某产品P的市场反映,可以使用话题爬虫抓取网络内容。自定义主题可以通过关键字来定义,例如产品p的名称或产品p的一些属性。).用户还可以使用介绍产品p的一段文字或一篇文章来定义主题。主题要定义准确,便于爬虫对抓取的内容做出正确的判断。主题爬虫还需要一个初始下载队列来启动爬行任务。一般来说,它可以在搜索引擎中搜索用户给出的关键词,并使用搜索引擎返回的一组结果作为初始下载队列。如果C公司知道网上有些网站对同类产品有大量评论,网络舆情分析系统也可以使用路径追踪爬虫对这些网站进行深度抓取。

通常舆情分析系统中使用的爬虫是上面介绍的两种爬虫的组合,做了一些定制化的改动。首先,随着网络技术的复杂化,网页爬虫也面临着越来越多的新问题,比如支持Frame的网页的处理,登录页面的处理等等。其次,随着智能手持设备和相应应用的发展,互联网资源的下载必须从简单模拟浏览器浏览行为的爬虫发展到可以模拟APP操作的爬虫。那么对于个性化定制内容的网站,如何持续保持登录状态,如何自动修改定制以获取更多信息,就是这类网站在抓取信息时需要处理的问题。

设计一个速度慢的爬虫是一件很简单的事情,但是要设计和实现一个下载量大、速度快、稳定的高性能爬虫,就面临着各方面的挑战。

2.信息采集技术的特点

目的:及时、准确、全面地收集国内外互联网信息。

范围:国内来源包括新闻网站、论坛、博客、微博、微信微信官方账号;海外收藏主要包括海外主流媒体,Twitter、Facebook等海外自媒体,以及非政府组织、智库等专门机构的网站,如表1所示。

表1网络信息采集系统的信息监控范围

工具:

人工搜索,借助商业搜索引擎等开放工具实时监控。百度搜索,常用新浪/腾讯微博搜索、搜狗搜索引擎。如果舆情分析师可以通过日常积累建立有针对性的新闻库和意见领袖库,人工搜索的结果将会得到极大的优化;

使用专业的网络舆情监测系统,可以实现跨屏幕、跨数据库、跨地区、跨媒体的全方位信息采集。对比两者发现,后者的优势在于自动抓取、定向抓取、全网抓取、高频更新、海量数据处理、一定程度的背景过滤,而前者的优势在于将分析判断融入监控过程,根据情况知晓语言变化,及时捕捉敏感信息,大大减少了重要信息丢失或丢失的情况。目前在实际使用中,很多专业的舆情服务机构交替使用两者,甚至有的机构只需人工检索就能写出高质量的舆情判断报告,受到一些政府机构的好评。

3.其他信息采集平台介绍

网络调查/投票

互联网调查,又称在线调查,是指通过互联网及其调查系统进行的在线、智能的传统调查分析方法。互联网舆情事件后,媒体、论坛、机构频繁使用这种方式,话题多为主要观点、情感倾向、建议等。,具有一定的随机性。这样的线索主要是手动找到的,比如新闻客户端互动栏目、微博微信分享等。,一些媒体根据调查结果发布新闻文章。在一些特定的重大事件中,也有相对常规的网络调查。比如每年人大之前,新华社。com和人民日报。

媒体和社交平台热门话题排名

根据背景信息,提供热点新闻和热点话题排名。指标包括点击、评论、分享、参与等。分拣时间一般为1 h、24 h、一周等。通过流行的排名条目,可以大大缩短特定事件的聚合信息和评论的收集过程。

背景信息

无法获得畅通的渠道,可以根据需要向相关单位提出明确的数据要求,一般适用于特定的课题、特定的领域、特定的群体。

4.舆情内容融合分析

舆论环境背景分析

互联网舆情事件都是在一定背景下发生的,舆情分析的首要工作就是了解其舆情环境背景。

在一般的舆情报道中,对舆情环境背景的分析不是独立的,而是多板块整合的。舆情环境背景分析的广度和深度是决定分析判断水平的重要因素。

分析包括:

在相同或相似的网络舆情事件中,是否存在相似的情况,相应的舆情反应和舆情处置,从根源上解读网民的心理和行为;

2了解新媒体时代网络信息传播规律,了解新闻传播中的乱象,政府对媒体的监管,网民对标志性案件的舆论态度和趋势变化;

了解与此次舆情事件相关的一些重大政府政策和反馈效果,以及当前民众对改善不足的预期。

舆情趋势分析

要分析网络舆情事件的舆情流行趋势,首先要了解网络舆情的生成机制。

现实生活中存在一些舆情风险点,在网民爆料或媒体报道后,话题出现在网络空上,产生网络舆情迹象。

②网民观看讨论热烈,大V等意见领袖转发,传统媒体跟进报道,造成舆论压力,舆论热点爆发。

③传统媒体和新媒体相互作用,不断推动舆论事件的演变和发展。除了事件报道,大量评论文章出现,话题的广度和深度都有所提升。

④当事人对事件做出反应,处理不当可能发生次生灾害,产生新的舆论热点和舆论发展第二高峰。如果处理得当,舆论热度消退。

舆情处置的关键在于及时预警,在话题出现初期加强实时监控,分析舆情趋势和焦点。最终目标是正确处理和解决危机,如图3所示。

图3网络舆情判断要点

沟通分析

1)通信器分析

研究传播者的身份特征对于预测舆论的下一步走向和制定舆论引导策略具有重要意义。

第一,在绝大多数网络舆情事件中,传播者的身份与其传播影响力正相关。以下比喻特别形象:如果你的微博受众超过100人,你就像一本内部杂志;如果有1000多,那你就是个公告牌;一万多,你就像一本正规的杂志;十几万是都市报;100多万,即全国性报纸;1000多万,那你就是电视台;一亿多,那你就是央视;;超过10亿就是春晚了。作为一个稍微熟悉媒体格局的人,他也能感知到央视报道与某省市报纸报道的区别。那么,对于网站编辑来说,启动和转发媒体就成为了他们决定是否转发、放在哪里的重要参考因素。

分析的重点是寻找有影响力的传播者:在社交媒体方面,主要跟踪大V、专业领域知名博主、媒体账号的传播;媒体方面,注意报道媒体的层次和类别。

②传播内容分析

根据出版商在舆论中的话语权,事件信息可能得不到充分展示,一些关键事实可能被选择性忽略,一些内容可能在传播中被扭曲、夸大、扭曲甚至异化为“谣言”。分析传播内容的目的是还原事实,寻找应对舆论的建议。

分析要点:一是按照时间线最大限度还原事件,包括事件的重要节点、发布时间、发布主题、发布内容、各方反馈;二、传播过程中事实内容是否走样。

③沟通渠道分析

只有对重要舆情信息的传播渠道进行分析,才能把握渠道之间联系的关键节点,判断不同渠道的传播效果,有助于为后期优化传播内容、开展舆情处置提供解决方案。

分析的重点是还原舆情事件发展的传播路径,比如从论坛、微博、朋友圈讨论到网络媒体传播,再到传统媒体跟进;从传统媒体报道到网络媒体传播,再到微博讨论;不同平台上信息传播的差异等。

情绪倾向性分析

媒体和网民对网络舆情事件的情感倾向往往是相关单位关注的核心内容。在早期的网络舆情事件中,一般都是明确爱恨情仇,质疑攻击责任方,对受害方表示同情和怜悯。但近年来,随着事件本身和传播环境的日益复杂,舆论话语权的不断分散,尤其是网民理性与感性的角力,出现“巅峰转折”或“强烈反击”的情况已不再罕见。

分析方法:

对网友的评论进行抽样分析,对文本进行人工分类,如“支持”、“反对”、“中立”;

根据网络舆情监测系统的初步分析结果,市场上大多数舆情监测系统都可以判断舆情态度的倾向。原理是基于情感词库,利用系统进行自动语义分析,直接绘制情感分析的饼状图;

③部分媒体和机构对网络舆情事件进行在线调查。除了直接的情感选项,一些意见选项也可以作为情感调查的参考。

对于服务相关单位来说,对其情感倾向的分析可以进一步深挖,解读舆情表现背后深层的心理预期,在长期考量的基础上为最终解决方案提供思路。

高频热词/观点分析

借助网络舆情监测系统,我们可以得到一个网络舆情事件的高频热词,简而言之就是被谈论最多的词。在新华网发布的《中国县级网络形象报告白皮书》中,利用武汉大学ROST虚拟学习团队开发的ROST全网信息捕捉工具,对报告样本的文本合并中名词、动词和形容词的总词频进行统计分析,从而考察政府管理者在政府工作报告中的关注点、趋势和工作期望。

根据舆情分析,一方面通过舆情监测软件,可以得到按照网络转载、网络点击等数据排序的主要报道和主要评论;一方面,网络舆情分析师对相似的观点和评论进行分类整合。

第四,话题跟踪和热点识别

网络舆情分析不同于传统的舆情分析,它可以随时不断地收集和分析舆情,因此可以分析舆情发展的全过程。

追踪话题,识别热点,是舆情分析的重要组成部分。因为互联网上信息发布渠道的强大互动能力,尤其是支持社交网络的应用,如国内微博、微信、国际Facebook、Youtube等。,通过转发和评论,可以通过不断的传播来加强一个话题,产生更多的内容,让话题向更广更深的方向发展。话题的影响力不再局限于发起者本身,而是在于整个互动过程中的每一个参与者。

话题跟踪技术有很多种,不同的实现环境必须使用不同的技术。例如,在博客环境中跟踪话题,需要对博客的内容进行分类,将同一类型的文本作为一个话题对待。这是因为博客发布的信息很长,内容丰富,博客之间的链接和引用很少,不可能从链接中获得太多的相关内容的信息。而信息本身包含大量的信息,信息量相对较小,足以实现相对较高准确率的文本分类。在微博环境下,微博正文字数限制在140字以内,大量微博只有几个字,标点符号或者表情符号。而微博无法提取足够的特征进行文本分类操作,但微博之间存在转发、回复等相关关系。通过追踪微博之间的关系,可以得到微博追踪话题的传播路径。

要通过文本分类来跟踪主题,您需要指定该主题的代表性文本。比如以崔永元为题,需要收集一些崔永元的介绍或者新闻等文字。这些文本包含了关于崔永元的地理位置、文化氛围等文字特征。这些文本称为样本集,分类器是根据文本特征在样本集中的出现来构造的。分类器用相应的主题标记收集的文本并保存它。过程如图4所示。

图4使用文本分类的主题跟踪

虽然微博型网站本身提供了话题功能,即#梭梭vs沙漠#等两个“#”字所围的内容,允许人们在一个内容上开始自己的叙事,而少数可以形成主题一致的持续互动。但是在实际交流中,因为使用这个功能的人不多,不可能全面追踪话题。更全面的算法是通过信息关联的话题跟踪算法,例如通过识别转发评论网络。虽然我们可以直接获取某条微博的转发量和转发人,但是对转发路径和舆情传播的分析更加深入准确,转发过程中的附加信息也可以完整收集。

以新浪微博为例,一条微博转发时,源代码中包含原文的ID,很容易识别这条微博的转发。转发的微博再次转发时,只记录原始信息,转发路径记录为转发体。比如微博正文是“//@范冰冰:转发微博//@冯小刚:转发微博”,说明冯小刚是第一转发人,范冰冰转发了冯小刚的转发微博,范冰冰的转发又被匿名转发了。这里的问题是转发路径太长时会被截断,文本中的转发路径是可编辑的。因此,一个强有力的算法不仅要根据一次转发来确定转发路径,还需要多次确认。

在一个舆情采集范围较广的系统中,由于数据量巨大,在实施话题追踪之前,首先要做的是识别热点,因为单在微博上一天发起的话题数量是惊人的,但只有少数几个话题能吸引越来越多的人的注意力。已识别的热点可以保存为主题库中的主题,以供跟踪。

实现热点识别的方法有很多,如文本聚类和频繁集挖掘。无论哪种方式,由于舆情系统处理的信息量巨大,都必须实施增量算法,即不需要重新构建已有数据建立的模型或数据结构就可以处理新数据,新数据会直接添加到数据模型中。现有的大多数算法都是基于文本聚类的,但是聚类算法本身速度慢,难以实现增量算法,并且难以处理时间戳数据,即实时数据。即使将最近时间段的信息进行聚类,也很难确定时间段的长度。如果时间段过长,数据过多,热点识别间隔较长;如果时间周期太短,信息传播需要时间,很容易错过很多发展缓慢的热点。

频繁集挖掘中有一种挖掘模式叫做紧急集,它是频繁集的子集,它需要新周期的出现频率高于旧周期的出现频率。可以看出,新兴集合的定义与热点的定义非常一致。该算法高效、快速,适用于大数据量的环境。

1.《网络舆情分析系统 网络舆情分析》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《网络舆情分析系统 网络舆情分析》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/junshi/1714198.html