作者:熊伟、黄飞、高阳、腾讯PCG应用研究院。

本文介绍了QQ R & amp介绍了D中心自主开发的PPT重构技术。目前腾讯文档正在进行访问工作。目前,office、wps和Tencent文档等主要办公产品使用AI技术对图像进行排版,恢复为doc格式的文档。一般适用于文字多、格式简单的图像。内容丰富、图片茂盛的内容图像转换为doc文档时,由于图像比例、文档排版插入、丰富的背景还原度差异等原因,很多PPT格式的图片无法很好地恢复到电子文档中。

现在越来越多的资源信息被存储为图像,但很多用户在获得图像后需要编辑图片或将其存储为电子文档。最常用的方法是直接执行OCR提取,但这种方法不能满足用户对合成的需求。目前,office、wps、腾讯文档等主要办公产品使用部分技术将照片排版恢复到doc格式的文档中。一般来说,对文本多、形式简单的形象更好。但是,如果内容丰富,当图片丰富的PPT内容图像转换为doc文档时,由于图像比例、文档排版插入限制、文档适应背景单一、丰富背景还原度差异等原因,可能会导致很多PPT。

QQ R & ampd组此前发布了深度基于学习的文件重组、表格重组的技术文章等。产品也已经添加了腾讯文档、PCQQ、手机QQ在线、最近PPT重建功能。小程序在构建过程中添加了更多的子功能,包括OCR、文档自动选择框、去除摩尔骨、修复照片失真等。感谢您通过QQ小程序体验。

下面主要介绍PPT的重构技术,产品流程如图1所示,如图2所示。

图1图片与PPT产品流程

图2图片切换为PPT(左:原始右:PPT)

一、图片转 ppt 框架

项目的技术过程主要分为三个模块。

预处理:包括文档检测和修改、照片成型、文档失真修复、文档旋转、语义分割等主要深度学习、模型放置GPU。

合成分析:每个实体的恢复和合成处理,以及逻辑进程分布在CPU上。

后处理:生成导出的PPT文件

图3项目技术模块

我将逐一介绍主要模块使用的技术细节。

二、AI 模块

2.1 自动框选

用户拍照一般不是整齐的图片,所以提取前要做很多预处理工作。最重要的模块之一是首先选择我们真正需要转换的PPT/文档内容。

图4自动交叉选择效果

内容的交叉选择选择了现有的很多技术,如图像处理的边缘提取,但效果不好,需要特别多的后期处理,随着AI的发展,可以使用HED网络等深度学习方法提取边缘。(威廉莎士比亚,Northern Exposure(美国电视剧),内容名言)早期同事也在hed的基础上进行了模型训练,取得了良好的测试效果。使用的结构件图如下图所示。

其中,Decoder1季度的简单图片如下:

ps://p3.toutiaoimg.com/large/pgc-image/ad8985af51b64b8faa0a7d7452b1761d?from=article.detail&_iz=31825&index=6" width="452" height="739"/>

经过 HED 处理后在工程的后处理还是需要很多规则判断,特别在候选框选取时添加过多规则,如下图。所以我们需要进一步对模型进行优化减免后处理的繁杂工作以及优化框选准确性。

图5 框选后处理

通过 case 分析,我们预测的选框通常会多出背景区域,如果通过语义分析知道大致的文档内容区域,再通过边缘线条检测准确的边框信息,融合信息是否能得到更精确的选框。

所以在原有基础上增加了一个分割分支,多任务学习,在 decoder 模块分出两个分支,一个分支学习图像的边缘信息,一个分支学习图像的语义信息,如下图所示。

图6 多任务边缘检测网络

图7 网络示意图

两个分支的 encoder 部分卷积层权重共享。

在边缘检测分支,我们还是分为多个 block 计算 loss,并通过 se 模块融合分支。对于边缘检测,我们更多想得到全局信息,所以引入了 SEblock,如下图,在 featrueMap 上做了一次 attention。

图8 SEBlock

在语义分割分支,我们采用通过的 Unet 结构。最终加权两个分支的 loss 进行训练。

在训练过程中,我们的数据来源于仿真和真实数据的标注,另一部分来源于半监督方式通过检测分支的结果获取到文档内容从而得到分割 mask。在 infer 过程中,检测分支获取得到所有可能组成的四边形,和分割分支的结果计算 Miou,选择 miou 最大的检测框作为最终框选对象。

图9 检测结合分割获取最佳选框

通过对比可以发现,语义分割分支可以得到更精准的检测框。

图10 优化前后对比图

通过验证集验证,hed 验证集 miou=88.38,多任务网络 miou=90.63,多任务训练的方式 miou 可以提升 2 个点。

2.2 图像矫正

检测到 PPT 文档内容后,我们还需要对图像质量进行提升后再进行后续处理,希望转换后的文件还原度更高。针对图片矫正我们主要做了,去摩尔纹,文档旋转矫正和扭曲恢复。

2.2.1 去摩尔纹

对于屏幕拍摄图片,摩尔纹很影响我们后续处理的图像质量,所以检测到图片后我们首先通过小的分类模型判断是否需要对摩尔纹进行处理,如果属于屏幕拍摄场景会调用去摩尔纹模块。

去除摩尔纹的网络框架和效果图如下:

图11 去摩尔纹网络

图12 去摩尔纹效果(左:带摩尔纹图片 中:原图 右:去摩尔纹效果)

2.2.2 扭曲恢复

检测出四边形后,通过投影变换可以对图片进行一步矫正,但是对于扭曲图像,仅仅通过图像处理是不够的,我们通过扭曲恢复模型,对图片扭曲恢复。这一步骤对于纸质的 PPT 拍摄以及文档拍摄图片比较重要。

扭曲恢复的网络框架和效果图:

图13 扭曲恢复效果

扭曲网络借鉴了 Document Image Unwarping via A Stacked U-Net 论文思路,近期也做了比较大的优化,主要通过将曲线拟合算法结合到网络结构解决了扭曲恢复后的文字在空间上存在细微抖动的问题,后续我们也会公开这块的技术细节。

2.2.3 文本旋转

OCR 也是我们重建的一个重要模块,除了能够提取图片中的文字信息,还有一个作用是可以通过文本检测框获取到图片中文本的旋转角度。但是目前 OCR 对于角度的预测在-45---45 角度之间比较准确,对于 90 度,180 度的旋转图片,预判角度不太准确。

我们采用的方案是首先通过小的分类模型预测图片的象限方向,分类类别为[0,90,180,270]。先把图片旋转到-45~45 之间。再通过 OCR 预测角度将图片旋转到 0 度。效果如下图:

图14 综合分类模型和OCR 模型旋转图片

左图为原图,中图为判断需要旋转 180 度,右图为通过 OCR 预测角度旋转后图片。

2.3 实体提取

通过以上步骤,我们可以获取到比较干净工整的 PPT 内容图片,这一步我们要通过语义分割,检测到图片的实体部分,方面后续生成 PPT。本模块在图片转 word 和图片转 excel 中都需要的模块。

对于 PPT 图片,我们主要分割的类别为文本,图片,表格,背景。下图为标注的语义分割类别示意图。

图15 语义分割示意图

对于主流框架和基础网络,我们使用 PPT 的分割数据做了一些实验对比

图15 语义分割主流框架实验对比

从基础网络上看,shufflenet 速度更快,resnet 效果更好。网络结构上从性能上分析 bisenet 性价比更好。

我们在项目中使用的是 Bisenet 框架,在学习特征时并行两条支路,一条学习空间细节信息,一条支路学习高层语义信息,然后将学到的信息融合,能够更好学习到全局信息和局部信息特征信息。

图16 BiseNet网络

2.4 实体恢复

在上一步我们已经知道图片中哪块区域是文本,图片,表格,但是直接插入到 PPT 中会存在很多问题,比如图片中还嵌有文本的处理,文本框直接插入的背景问题等。我们重要介绍文字和背景的恢复。

2.4.1 文本恢复

通过实体分割文本段以及 OCR 提取后,可以获取到文本框信息。如图 17,左图为原图,右图红框为我们获取到的文本区域,但是无法直接获取到字体颜色。

图17 OCR框选文本框

得到文本框后,字体颜色恢复步骤为:

  • 截取文本框区域,如图 18(a)
  • 对文本框区域自适应二值化得到前景背景,如图 18(b)
  • 前景颜色区域计算均值得到前景和背景颜色值,如图 18(b)上前景像素区域对应的 a 点像素值 rgb 计算均值,设置为字体颜色。
  • 图 18(a)的文本块区域,背景颜色为 RGB([73.,192.,179]);前景颜色 RGB ( [207, 255,255])
  • 图 18(c)的文本块区域,背景颜色为 RGB([229,250,245]);前景颜色 RGB ( [78,156,149])

图18 获取文本框前景

得到了字体大小和颜色恢复,结合之前的背景重建,我们可以得到最终的还原效果,字体几乎完全还原,如图 19 所示:

图19 字体还原效果

2.4.2 背景恢复

通过语义分割模型后,我们可以获取到前景所有实体,和剩下的背景区域。通过实体抽取直接在画布上进行插入,效果如图 20。

图20 未对背景做处理插入效果

直接插入效果可以看出,在文本区域块和周围其他背景颜色差别太多,过度显得特别突兀,而且如果插入文本框颜色和文字颜色一致会导致文本看不清。所以我们需要通过 inpainting 算法,对背景进行重建。重建背景,图片,文字,表格,包括图片上的文字后就可以生成 PPT 了。

2.5 生成 PPT

通过以上步骤我们得到了各个实体模块,并且对每个模块进行了恢复重建。通过语义分割模块,可以获取到各实体(表格,图片,文本,背景)的相对坐标位置。通过重建模块,可以获取:

  • 表格:表格的样式,行列数,单元格内文字内容
  • 图片:图片抹除文字区域后,通过 impainting 重建图片内容
  • 文本:文本区域的字体颜色,字体大小
  • 背景:抹除前景区域后,通过 inpainting 重建背景内容

最后可以按照 office open xml 的格式在画布上依次插入背景,表格,图片,文字实体,得到最终的可编辑.ppt 格式。腾讯文档通过 http 请求获取到.ppt 格式文件后再转化为腾讯文档在线电子文档形式展示。

1.《【腾讯文档ppt怎么导出发送】QQ的新功能:照片一键式PPT、比OCR更强大的文档重组技术》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【腾讯文档ppt怎么导出发送】QQ的新功能:照片一键式PPT、比OCR更强大的文档重组技术》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/2517467.html