需求描述:朋友在日常工作中经常会反复打开不同的PDF文件,选择特定的信息组,复制粘贴到不同的Word文档中。完成一个PDF文件平均需要15分钟。我想试试Python代码是否能有所帮助。
因为涉及文件隐私,所以要求简化如下:我提供一个愚蠢Python的PDF版本,我想把第五页的第一段和第四段填到Word文档“注意”的具体位置。docx ":
看不懂原理图没关系,我们关心的是应用。先安装PDFMiner,注意Python3需要安装pdfminer3k,可以通过pip安装pdfminer3k来安装。
解析PDF涉及很多代码步骤,先不展开。文末提供注释源码供参考。通过PDFMiner分析,将文本内容按区域存储在不同页码的文本列表中;每页都作为一个元素存储在整个文档的列表中。即假设内容代表整个PDF文本信息,内容[0]是第一页信息,内容[4]是我们想要的第五页信息。在第五页,根据列表元素的顺序,我们想要的第一段和第四段可以通过内容[4][1]和内容[4][4]获得:
其内容如下:
目标达成!写给朋友的第一版代码对于可用的文本信息也非常准确,可以批量处理文档。代码运行几秒钟后,需要几个小时才能完成工作,剩下的相对容易检查和纠正。也许你一天的繁琐工作对代码来说只是几秒钟的事情。
回顾
就实现效果而言,达到了预期,但仍需改进。最终效果直接关系到PDF文件的格式是否规范。许多扫描的PDF文档就像每页上的图片,因此文本信息不能通过PDFMiner顺利获取。后续我们会先尝试把PDF转换成图片,然后用OCR识别图片中的文字信息。
另外,为了显示,选择的PDF和Word文档以及要插入的信息更加规范简洁。在实际需求中,由于批量操作,会遇到各种尺寸问题,需要在实战中不断改进。
1.《python读取txt 教你用Python读取PDF信息插入Word文档,工作效率翻倍!》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《python读取txt 教你用Python读取PDF信息插入Word文档,工作效率翻倍!》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/989825.html