当前位置:首页 > 教育

gly NeurIPS 2019 | 香侬科技开源Glyce2.0,中文字形增强BERT表征能力

汉字表示的字形向量

文章链接:https://arxiv.org/pdf/1901.10125.pdf

作者:孟玉贤,,,小雅力等。

包括:2019年被神经科接受

开源链接:https://github.com/ShannonAI/glyce

研究兴趣:自然语言处理

前言

此前,香农科技发布了基于中文的自然语言处理模型Glyce1.0,最近,香农发布了Glyce2.0,Glyce2.0在Glyce1.0的基础上结合了Bert和Glyce,在很多自然语言处理任务和数据集上获得了SOTA结果,包括:

序列注释

NER命名实体标识:MSRA、OntoNotes4.0、简历、微博

词性标注:CTB5/6/9,UD1

中文分词系统:北京大学、城市大学、MSR、美国

句子对分类:北京大学语料库、西安语言学院、立法会管理委员会、DBQA国家语言文字处理中心

单句分类:中科院、复旦、凤凰

中国SRL:2009年

中文依存句法分析:CTB5.1

研究思路

作为世界上最典型的Logogram,汉语中的每一个字都代表着语素和音节,其中最特殊的是汉字的表意功能,即象形表意能力。虽然今天的简体字在很大程度上无法推断出其原始的象形意义,但是汉字的发展还是可以给我们很多语义信息,如下图所示:

就自然语言处理而言,过去已经有许多关于汉语字形的相关研究,希望将字形表示与词向量相结合来增强语义表示能力,但并没有取得显著的成功。

例如,[刘等,2017,张,乐村,2017]未能实现一致的改善,只是在相当有限的条件下取得了一点点改善,甚至[戴,蔡,2017]得到了负的改善。[苏和李,2017]发现字形信息有助于单词类比和单词相似性的任务,但没有用更高级的语言单位如短语和句子进行实验。

经分析,认为【戴、蔡,2017】具有负面影响,原因是:

未使用正确的字体。当前的简体字(繁体字同理)已经十分抽象化,基本无法得到字的表义信息,单纯地使用简化字隔离了字形的象形意义。未使用正确的 CNN 结构。不同于一般图片,字体图片很小,一般为 12*12,需要谨慎设计 CNN 结构。未使用正则约束。中文汉字共计约 10000 个,远少于 ImageNet 等大型数据集的图片数量,因此极容易导致过拟合。

在这方面,提出了三种策略来建模和训练字形:

使用汉字的多种历史字形、字体使用田字格 CNN使用图像分类的多任务学习

在这三种策略下,Glyce可以补充单词向量(如Word2Vec、BERT等)所代表的字体信息。)缺乏中文,在多个任务上实现了超过Bert的一致性提升。与此同时,香农还进行了一项消融研究,以探索许多因素的影响。

具体方法

Glyce-BERT将BERT和Transformer添加到Glyce中。具体来说,Glyce采用以下三种策略。

一是历史汉字字形的使用。使用了金文、隶书、篆书、魏碑、繁体中文、简体中文(宋体)、简体中文(仿宋)和草书这八种字体。二是设计了 Tianzige(田字格)-CNN 结构。对 12 * 12 的汉字图片,首先用一个大小为 5 的卷积核去做卷积,得到一个 1024 通道的输出,然后用大小为 4 的 max-pooling 将 8 * 8 的特征图降为 2 * 2 的田字格尺寸。三是使用图像分类损失。将得到的 Glyce 向量过一层全连接进行图像分类,得到的损失为 L("cls" ),从而总的损失为 L=(1-λ(t))L("task" )+λ(t)L("cls"),这里 λ(t) 随着训练递减。

对于Glyce-Bert,将Bert加入到Glyce中,希望在Bert的基础上进一步提高模型效果。一般来说,格列格伯特分为以下四个部分:

Bert 层:得到字的 Bert 表示Glyph 层:得到字的 Glyph 表示Glyce-Bert 层:将位置表示加到 Glyph 表示上,然后再和 Bert 表示连接Task-specific 输出层:将 Glyce-Bert 向量输入到 Transformer,再用得到的输出进行预测

实验结果

Glyce2.0在以下任务和数据集上取得了SOTA成果:

NER 命名实体识别POS 词性标注CWS 中文分词句对分类单句分类中文 SRL中文依存句法分析

NER实验的结果如下:

可以看出,格LSTM超越了所有的非伯特模型,而伯特模型超越了所有的非伯特模型。使用Glyce后,格LSTM上升了1个点左右,而伯特模型上升了一个不确定的量,与数据集有关。

以下是水煤浆的实验结果:

对于CWS来说,F1值在Bert中有小幅的增加,这是CWS本身的难度和数据集较小造成的。

下表为POS实验结果。格列格加入后,格列LSTM和伯特也有相应的改进。

另外,在句子对分类和单句分类任务的各个数据集上,Glyce-Bert都可以得到比Bert更好的结果。下表显示了实验结果。

在中文SRL和中文依存句法分析中,与以前的最优结果(没有伯特)相比,Glyce可以提高近一个点。

语言表征是理解习语的关键。可以看出,将成语表达为独立的语义单位要优于基于合成假设的成语表达,后者明显优于基于字面意义的成语理解。这说明好的模型不仅要有合适的模型结构,还要有好的表达成语的方式。

分析和讨论

在这一节中,我们讨论了几种糖策略,并探讨了它们的实际效果。在接下来的所有实验中,我们使用立法会MC数据集来说明。

培训策略

首先,探索几种不同的培训策略:

Glyph-Joint:首先固定 Bert 去微调 Glyce,然后再结合微调 Bert 和 Glyce。Bert-Glyph-Joint:首先微调 Bert,再固定 Bert 微调 Glyce,最后综合两者微调。Joint:直接训练 Bert 和 Glyce。

下图是几种训练策略的实验结果。由此可见,伯特-字形-关节是最好的训练策略,而关节是最差的。这是因为Bert是预训练的,Glyce是随机初始化的,所以预训练和随机初始化会有不匹配。

图像分类丢失

下表显示了是否有$mathcal{L}(text{cls})$的图像分类损失。可以看出,加入图像分类损失后,F1值增加了0.4,准确率增加了0.8。图像丢失用于避免小数据(约10000个字符)下的过拟合。

输出层的影响

甘利贝采用两层变压器块,我们用BiLSTM、CNN、BiMPM代替变压器来探究其影响。

显然,变压器的结果明显更好,因为伯特和变压器结构更匹配。

CNN结构的影响

最后,分析了CNN结构的影响。对比【金,2014】、【何,2016】和香草-CNN,结果如下。可以看出,使用田字格-CNN可以显著提高F1值。

总结

香农科技提出的甘格-伯特模型通过实验证明了甘格字形特征与伯特向量的互补性,可以在伯特上统一推广。同时,香农还开辟了Glyce代码,方便研究人员复制使用。未来希望他们继续加强中文字体信息的挖掘,完善模型,发布高质量的预训练字体向量。

引用

[1]刘永康,卢汉,卢杰,和格雷厄姆·纽比格。学习具有视觉特征的人物级构图。arXiv预印本arXiv:1704.04859,2017。

[2]张翔、燕恩乐村。中文、英文、日文和韩文文本分类的最佳编码是什么?arXiv预印本arXiv:1708.02657,2017。

[3]猎鹰Z带和蔡政。汉字的字形感知嵌入。arXiv预印本arXiv:1709.00028,2017。

[4]苏与洪。从汉字字形中学习汉字表示。arXiv预印本arXiv:1708.04755,2017

[5]尹金。用于句子分类的卷积神经网络。arXiv预印本arXiv: 1408.5882,2014

[6]何,,任,。用于图像识别的深度残差学习。《美国电气和电子工程师协会计算机视觉和模式识别会议记录》,第770-778页,2016年

点击以下标题查看更多以前的内容:

#

怎样才能让更多高质量的内容以更短的方式到达读者手中,缩短读者寻找高质量内容的成本?答案是:你不认识的人。

稿件确实是个人原创作品,稿件中要注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

《纸周刊》默认每篇都是第一篇,会加“原创”logo

1.《gly NeurIPS 2019 | 香侬科技开源Glyce2.0,中文字形增强BERT表征能力》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《gly NeurIPS 2019 | 香侬科技开源Glyce2.0,中文字形增强BERT表征能力》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1180596.html

上一篇

100招商网 九正招商100城全国行助全国经销商抢占2020市场红利!

下一篇

解决问题五年级上册 小学数学五年级上册解决问题专项训练题190907

pytorch中文文档 GitHub项目 | PyTorch 中文手册

  • pytorch中文文档 GitHub项目 | PyTorch 中文手册
  • pytorch中文文档 GitHub项目 | PyTorch 中文手册
  • pytorch中文文档 GitHub项目 | PyTorch 中文手册

腐烂国度2中文 《腐烂国度2:主宰版》Steam简体中文更新 支持对话字幕

官方宣布,在《烂国2:统治版》Steam最新更新中,游戏中所有中文文本均已本地化。 《烂国2:统治版》Steam版15.1更新中,游戏简体中文本地化已经完成,对话字幕已经完成对简体中文的支持。 更多信息,请关注:烂国2区...

joma “JOMA”的中文名叫什么?为何是西班牙第一??

  • joma “JOMA”的中文名叫什么?为何是西班牙第一??
  • joma “JOMA”的中文名叫什么?为何是西班牙第一??
  • joma “JOMA”的中文名叫什么?为何是西班牙第一??

dailyfx DailyFX中文财经网招募财经翻译

DailyFX中国金融网(https://www.dailyfx.com.hk/index.html)是一个领先的外汇新闻、图表、研究和教育门户。DailyFX提供主要货币对实时报价、金融日历、实时外汇黄金商品市场消息、技术分析和交易策略报告。...

世界时钟 The Clock for Mac v4.3中文激活版

  • 世界时钟 The Clock for Mac v4.3中文激活版
  • 世界时钟 The Clock for Mac v4.3中文激活版
  • 世界时钟 The Clock for Mac v4.3中文激活版

藏龙网 厉害了!加拿大28万人上班讲中文,大多区有11万

  • 藏龙网 厉害了!加拿大28万人上班讲中文,大多区有11万
  • 藏龙网 厉害了!加拿大28万人上班讲中文,大多区有11万
  • 藏龙网 厉害了!加拿大28万人上班讲中文,大多区有11万