目前,机器学习已经成为一个热点,并被应用到一些新闻报道中。机器学习对新闻学有什么价值?实际应用中需要注意什么?在本期RUC新闻工作坊中,什么是机器学习,我为什么要关心哥伦比亚新闻评论4月25日发表的文章?希望能为此提供一些思路。
短语“机器学习”描述了一个精心设计的工具。例如,Trint可以转录音频,因为它的算法学习如何将音频模式与字母和单词的规则相匹配。这是基于许多小时的手动音频转录训练而实现的。它的算法学习如何将音频模式转换为文本模式,然后它可以转录新的音频样本。
更正式地说,机器学习是指使用算法从数据中学习操作模式,它可以在不编写显式程序的情况下执行任务。有许多不同风格的机器学习方法和具体的技术算法,每种方法都有自己合适的用途。这些方法通常根据所提供反馈的数量和类型来区分:
1.从监督学习的训练样本中学习,尽可能标记和预测训练样本集之外的数据。,它为算法研究提供了一组经过仔细注释的示例。对于记者的调查,文档可能会被标记为“有趣”或“无聊”,一旦经过训练,算法就可以根据这些类别对新文档进行分类。事实证明,对于想要根据已知的兴趣模式过滤大量文档或数据的调查记者来说,这是非常有价值的。
2.另一个变体,弱监督学习,也为算法提供了一个例子,但是它没有单独注释每个项目,而是指定过滤规则来定义大的和有噪声的数据集。国际调查记者联盟正在与斯坦福大学的一个机器学习小组合作,以了解这在新闻场景中的具体应用。
3.另一方面,无监督训练样本用于找出训练样本中的结构知识。方法不需要注释。相反,它们允许算法找到数据中的模式,例如共享特征的条目组,这些特征通常用于聚集或链接相似的记录。
美联社(Associated Press)在分析对儿童的无意枪击时使用了这种技术,以找到有噪音数据的案例,这些数据是与来自更清晰和噪音更小的案例的数据一起收集的。在《纽约时报》上,这些技术帮助报道竞选财务主题的记者将多个捐赠记录与同一个捐赠者联系起来。
4.强化学习是另一种机器学习,不需要标注数据。然而,它确实利用了对算法的反馈。标题测试使用这种方法,通过点击标题来提供积极的强化和反馈,算法从标题中知道下一个用户应该尝试哪个版本的标题。
在考虑如何使用这些技术的时候,还有一些问题需要从业者去了解。
首先是偏见。杜克大学技术与验证合作中心利用ClaimBuster系统对文本进行监控,利用机器学习模型识别出所谓的具有检验价值的事实语句中的“事实陈述”,然后发送给事实审查员。它使用的模型是基于过去美国总统辩论中的20,000个手动标记的句子进行训练的。
学术研究人员评估了克拉布斯特对2016年美国总统辩论中21篇文章的分析。研究人员将ClaimBuster算法确定的事实陈述主题与CNN和Politifact中人类事实检查员选择的主题进行了比较。与人类事实检查员相比,ClaimBuster算法获得了更多关于经济的想法,更少的社会问题。如果人类事实检查员仅仅依靠ClaimBuster算法,他们的偏见会让他们远离社会问题。从公共利益的角度来看,这个结果可能是不可取的。
评估的另一个方面表明,特朗普在系统中被标记为“值得检查”的声明比希拉里少。特朗普的修辞风格可能会使他的陈述难以被算法识别。ClaimBuster系统在选择事实陈述时更注重包含数字的内容,而Trump的表述往往不注重具体细节,可能与上述结果有关。
这个机器学习系统可以以一种独特的方式引导注意力。使用这些工具的记者应该意识到这种可能性,并准备好根据需要填写空空格。特别是,编辑应该监督、监控和限制这些系统如何塑造新闻报道。
另外,还有不确定性的问题。预测分数或分类文档的机器学习模型很少100%确定它们的输出。它们具有统计特性。这意味着记者需要对他们持怀疑态度,并严格核实他们的输出。
可以使用各种验证方法来评估模型的整体质量,但是单个输出仍然可能是异常的。如果模型有效地指控了个人或特定组织的不当行为,可能对其造成严重的负面影响,那么在发布模型的输出时需要谨慎。
意识到不确定性是关键。但如果机器学习系统的输出只在编辑部内部使用,总有记者在发布前查看任何内容,那么问题不大。记者需要问的是,一个模型的预测或分类误差的可能性有多大?如果有,会有什么危害?
在工作中使用过机器学习系统的记者承认,这些算法并不完美。该算法可能会忽略具有潜在新闻价值的文档。所以相对于人工审核,基于算法处理结果的后续调查可能没有那么全面。但是,有时候新闻报道不需要详细记录事件。一篇可靠的新闻文章需要的是在一堆文献中找出最有价值的线索,或者一些有新闻价值的线索。
如果机器学习模型的输出结果可以被其他来源验证,并且仍然具有新闻价值,那么是理想的。《洛杉矶时报》在一项新闻调查中使用机器学习工具来评估警方数据的质量。该模型的主要结论是,洛杉矶警察局在其犯罪统计数据中少报了严重袭击的数量。据《洛杉矶时报》后续报道,洛杉矶警察局在内部审计完成后证实了这一结论。这种对证据的三角验证有助于提高记者对机器学习结果的信心。
最后,由于机器学习的种类繁多,新闻业也面临着这样一个挑战:哪种机器学习技术适用于特定的报道任务。解决这一挑战的一个方法是邀请机器学习领域的专家进入编辑室,让他们决定哪些机器学习技术对编辑室的记者最有用。
还有一种可能是让编辑在计算机环境下学习机器学习。随着时间的推移,我们可以通过更多的合作来丰富机器学习在新闻工作中的实际应用,让编辑室在海量的数据中发现隐藏的秘密。
总之,我看好机器学习对编辑的影响,但也需要提醒读者,机器学习并不适合所有的新闻报道。目前,新闻编辑室在引入机器学习时遇到的巨大挑战是,通过实验确定哪些报道可以借助于哪种类型的机器学习系统,而哪些报道只能依靠人类学习的积累。
图片来自网络
1.《什么是机器学习 什么是机器学习?我为什么要关心?| 编译》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《什么是机器学习 什么是机器学习?我为什么要关心?| 编译》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1439598.html