网络媒体的发展催生了一个神秘的职业——石,一个在很多宅男心中“梦寐以求的职业”。
众所周知,黄其实是一份极其艰难的工作:熬夜、疲惫、无聊……但即使他们像钟表一样工作,也仍然越来越难以满足短视频时代黄健封堵的需要。
今年4月,Aauto rapper和火山视频因传播低俗信息接受采访。此后,对网络色情的打击逐步升级。
人工智能黄色鉴定师(AI)应运而生,AI的出现极大地解放了在黄色鉴定伟大事业第一线奋斗的人工黄色鉴定师。
目前在国内上线的“黄爱施简”,不仅能识别黄色电影的黄图,还能快速捕捉带有色情信息的声音内容。阿里巴巴最近投入公测的AI语音识别和反垃圾邮件服务,不仅可以支持中文、日文、英文等语言,还可以识别东北话、四川话、粤语等方言,甚至是没有语义的呻吟。
《环球时报》记者满怀好奇,采访了AI智能黄剑在图片、声音、语义等领域的领先技术团队,请他们揭开黄爱剑的神秘面纱。
黄爱·施简是如何工作的?
图普科技股份有限公司运营总监蒋泽荣在图像黄色识别领域起步较早,他介绍说,图像黄色识别的原理是先建立色情图片的分类标准,然后收集大量素材,分类标记,最后用这些标记的素材训练图片,让机器学习每个分类中的特征,不断调整自己模型的参数,最终得到最佳的识别模型。
机器识别图像后,图像数据将被转换成数字信息,并被带入模型进行计算。根据计算值,图像会被标注为“正常、性感、色情”。如果在人工审核中发现机器识别错误,会有针对性地研究同一场景中图片的数据,并调整参数,直到错误率达到最低值。
黄爱剑是怎么训练出来的?
早在2014年,Tupu Technology就开始使用AI识别静态图像中的色情元素,但前期素材采集比较困难。“公司成立时,每天至少收集6个小时的数据。简单来说,它看了黄图和色情,然后把它们扔进了数据库。一开始只能靠自己的力量去收集素材。每天都号召亲戚朋友宅男贡献自己收集的资源,但是来源比较单调,主要是大陆和海岛片。收藏的关键在于找到“合适的人”。只要找对人,就能得到一个敌人。直到后来,有了客户提供的海量数据,才真正走上正轨。只有数据覆盖方案越全面,模型才能越准确。”
与语音识别和图像识别相比,不良信息的语义识别发展稍晚。相比之下,它能捕捉到语言之间微妙而不易察觉的“软色情”信号,汉语也是语义识别领域最难的语言。专注于AI语义识别的三角野兽科技有限公司技术总监齐超告诉环球时报记者,该公司目前的语义“歧视”主要体现在人工智能交互系统上,这是一种常见的“人机对话”。
▲2018年8月3日,北京,油库公司,29岁的季恒山是一名人工智能标注员。他正在训练机器识别什么是“接吻”镜头,所以他也被称为“接吻鉴定师”。图片:VCG
一般来说,当你故意想“调戏”AI时,它会先识别你的轻浮言论,然后迅速捕捉到字与字之间的“雷点”,在毫秒内做出反应和判断,以巧妙的方式避免你的“调戏”。对于一些粗俗下流的话,会在人机对话中自动屏蔽掉。
在大数据学习的初始阶段,AI需要学习“正反语料库”,通常包括网上收集的不雅词汇或污言秽语。有趣的是,网络上一些新词的快速变化已经成为目前程序员最难解决的问题。“有些词昨天听起来很正常,今天却变成了敏感词,比如2017年很火的‘黄鳝’。事故发生后,我们不能一刀切地屏蔽黄鳝这个词,因为它可能会伤害到它的本义,但我们必须让机器智能地判断这个词的场景和语义。这就需要我们的技术不断变化。
齐超说,在数据收集问题上,他也期待着将来与政府相关部门合作,以便收集更多的原材料来提高机器的快速学习能力。
由于担心孩子会成为网络黄色暴力的主要受害者,三角兽在其“儿童聊天引擎”的设计中对内容的控制也更加谨慎,将内容缺陷率降低到0.6%。齐超告诉记者,在儿童应用设备中,他们会筛选出成人可以接受的词语,如爱情、婚姻、怀孕等,但不适合儿童接触的词语,从而为儿童创造一个安全健康的聊天环境。
AI识别黄色的准确率和效率如何?
阿里巴巴高级安全官算法工程师尉氏告诉环球时报记者:建每天可以审核上亿张图片,识别准确率高于99.5%。
“比如你要一天审核4亿张图片,那就手工审核。一个人一天会审核一万张图片,需要四万人。AI黄简只需要筛选出20万张可疑图片。一起再审,只需要20个人。”
图普科技蒋泽荣告诉记者,AI完成识别分类后,只会告诉用户判断结果和概率,然后用户会根据结果做出相应的处理,比如自动删除或者人工访问审核。
人工黄色评估师AI上岗后会被裁掉吗?
蒋泽荣作为早期的人造黄标,承认人造黄标其实是一种枯燥的体力活动,就像“流水线上的工人迟早会被机器取代。”。人工智能的出现允许人类将这种体力活动外包出去,然后致力于更有意义的工作。"
很多帖子都被曝光了。由于近年来信息的快速增长和审计的严格控制,人工黄色评估师的加班已经成为常态。媒体曾经报道过这样的新闻,黄健因为压力太大,已经向公司提出工伤索赔。
“刚开始接触大量小黄图的时候,确实有生理反应,尤其是对一些心理素质不够好的年轻黄健老师。”江泽荣说。
一位有类似经历的黄色鉴赏家也告诉记者,频繁接触黄色信息必然会对身体造成伤害,偶尔会遇到一些不正常的视频或图片,“会让人一整天吃不下饭”。严重的话,路上的人都是马赛克。但是AI的免疫力会强很多。
但蒋泽荣和Vista都表示,AI不能完全取代人工审核,因为机器很难理解内容背后的深层含义,在不同的文化场景中也不会自由切换。
“最好的审计方式是以情报为主,人力为辅。人工黄色评估师数量少,目前主要做标记和审核可疑图片。”阿里安全部的产品专家夏念说。
如何把握色情与非色情的界限?
无论是语音语义还是图像,在初期设计模型时,都会根据大众的普遍接受程度,人为制定一套“界定色情的标准”。人为标准不是一成不变的,但在一定程度上是主观的。
蒋泽荣举例说:“三点式泳衣很性感,裸露的乳房只遮住乳头很色情,而以性感姿势舔香蕉等‘软色情’会被机器归为‘正常’。
当被问及如何区分“性感”和“色情”时,他认为在设定标准时有一个默认规则——极端性感就是色情。
▲2018年8月15日,优酷公司在北京举行“接吻鉴定师”招聘面试。从数百份简历中选出的四名候选人进入面试,回答了关于人工智能的技术问题,并在屏幕上识别了数百个死磕者。图片:IC
蒋泽荣介绍说,之前设计模型时,著名的“大卫”雕像被标为“色情”,因为它的一些部分雕刻得太逼真了。但随着人们对开放文化接受程度的扩大,机器通常会温和地对待“裸露外表”的艺术品,或者认为它们是合适的,但不包括那些“明显传播色情文化”的艺术品,比如春宫的图片。
在得知黄爱·施简在线的消息后,一些人担心人工智能的严格标准会切断所有“幸运”的内容。有人认为色情文化正是人类所需要的,但AI无疑是在阻挡人性的输出。
对此,蒋泽荣并不同意。他认为,在中国没有“分级制度”的情况下,更重要的是严格控制色情信息,“尽可能提高门槛,防止色情信息伤害未成年人。他希望家庭和学校的性教育能不断改进,家长能更科学地引导孩子的性需求。
今天,随着人工智能智能产业在中国的强劲发展,人工智能必将以更高效的步伐成为网络安全调查的先锋。我们期待艾黄师父在未来每一场扫黄战斗中为祖国而战。
1.《36人体艺术 揭秘AI鉴黄师的培养 能酌情处理裸体艺术品》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《36人体艺术 揭秘AI鉴黄师的培养 能酌情处理裸体艺术品》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/caijing/629838.html