编译:王朝军
分割——将图像分割或扫描成多个片段或像素组——是人工智能擅长的任务。例如,Google Alphabe的子公司DeepMind的研究人员最近在一篇学术论文中透露,他们开发了一种系统,可以以“近乎人性化”的方式分割CT扫描。现在,德国波茨丹大学的科学家已经为一种更卡通的媒体——漫画——开发了一种人工智能分割工具。
一幅两层的壁画占据了英雄城的一边。蝙蝠侠、罗宾和创业教父蒂姆·德雷珀由DC漫画家吉姆·李绘制。
在预印平台Arxiv.org【基于CNN的漫画对话框检测和漫画分割】上发表的一篇论文中,他们描述了一个可以检测和分离的神经网络(即模拟生物神经元的数学函数层)。图画小说和漫画中的对话气泡盒,在涉及到含有“摆尾”和“弯角”气泡的数据集的测试中,获得了0.94的F1分数(测试准确性的一种度量),研究人员称之为最先进的。
"对话框通常由一个载体(用于包含文本的符号设备)和一个小尾巴组成,小尾巴将载体与其生成的文本的根字符连接起来。尾巴和载体有不同的形状、轮廓和摆动程度,”研究人员解释说。它将【对话框】分为不同的类别,因为它们的功能不同:与通常用于叙事目的的字幕相比,对话框通常包含漫画中直接的文字或人物的思想。
研究者的人工智能模型成功提取了对话框
该团队开发了一种完全复杂的神经网络——一种通常用于分析视觉图像的人工智能——最初是为医学图像分割而设计的,并为“自然图像”的分类而训练。他们稍加修改,从90本漫画书中增加了750页的注释,这是一个用英文写的图文小说、回忆录和非小说类的数字图书馆。
随着时间的推移,它学会识别漫画中的每个像素是否属于一个对话框。
为了验证他们的方法,研究人员在从图形叙事语料库中提取的750幅图像的子集(15%)中测试了一个训练有素的人工智能系统。令人印象深刻的是,它试图接近虚拟轮廓——对话框的边界不是由物理线条勾勒出来的,而是通过定义面板之间线条的“想象”延续下来的空。
研究人员假设他们的人工智能对话框检测系统可以用来创建带注释的漫画书语料库,也可以作为历史手稿、科学文章、数字和表格以及报纸文章的一般分词的第一步。总有一天,它可能会帮助视力不好的人开发辅助技术。
研究人员提到,这并不意味着它是完美的,这种AI技术在提取日本漫画对话框的过程中表现不佳。这可能是由于拉丁字母编码的“文化特定”特性和训练数据集中对话框的水平方向。然而,有更多更新的漫画样本模型和扩展到字幕、角色和其他元素的模型。
“当然,这需要人工验证,但鉴于现有的计算机视觉领域,[部分AI]模型的性能至少接近人类的性能,我们还是希望解决几个繁琐的标注任务,释放人力资源用于更有趣的事业。”研究人员写道。
参考文章:
https://venturebate . com/2019/02/22/ai-extracts-speech-bubbles-from-连环漫画/
—结束—
1.《漫画对话框 AI可从漫画中识别“对话框”,以帮助提高工作效率》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《漫画对话框 AI可从漫画中识别“对话框”,以帮助提高工作效率》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/1047559.html