当前位置:首页 > 教育

文本分析法 一文看懂自然语言处理 NLP 及文本分析 Text Analytics 原理入门

你消化了今天的知识吗?

企业可以充分利用文本分析和自然语言处理的强大功能,从文本数据中提取有价值的信息。

让我告诉你它是如何工作的。

文本分析的基础

文本分析(也称为文本挖掘或文本数据挖掘)是一个提取和挖掘对公司有价值的数据的过程,可用于从非结构化文本中进行分析。

文本分析允许数据科学家和数据分析师评估文本内容,以确定其与特定主题的相关性。研究人员通常使用CS开发的复杂软件来挖掘和分析文本。

举例说明商务中文本分析的用例;

顾客360。分析客户电子邮件,调查呼叫中心日志和社交媒体渠道(如博客、推文、论坛帖子和新闻来源),以更好地了解客户。

保修分析。深入了解经销商服务专业人员、保修索赔、订单和类似的文本来源。

产品或服务回顾。分析客户对产品或服务的评价,有助于企业了解客户的情绪和客户遇到的常见问题。

*招聘。关键词分析(比较简历和职位描述)有助于简单列出合适的候选人。

文本分析过程

根据业务需求、数据类型和数据源,文本分析可以通过多种方式实现。有四个关键步骤。

第一

数据采集

文本分析的第一步是收集要分析的文本——定义、过滤、获取和存储原始数据。这些数据可以包括文本文档、网页(博客、新闻等)。),网上评论等等。数据源可以分为内部通道和外部通道。

2号

准备数据

获得数据后,企业必须做好分析准备。有必要将数据以适当的形式排列,以便与机器学习模型合作。数据准备分为四个小阶段:

文本清理删除任何不必要或不必要的信息,如网页上的广告。重建文本数据,以确保数据可以在整个系统中以相同的方式读取,并提高数据的完整性(也称为“文本规范化”)。

令牌化将一系列字符串分解成称为令牌的片段(如单词、关键词、短语、符号和其他元素)。语义上有意义的片段(如单词)将用于分析。

词性标注(也称为“PoS”)为识别的标签分配语法类别。众所周知的语法范畴包括名词、动词、形容词和副词。

解析基于令牌和PoS模型从文本创建语法结构。句法分析算法是一种考虑语法结构的文本语法。意义相同但语法结构不同的句子会产生不同的句法结构。

3号

数据分析

数据分析是分析预处理文本数据的过程。机器学习模型可以用来分析庞大的数据集,分析结果通常是以JSON格式或者CSV/Excel文件生成的。数据可以多种方式分析;两种流行的方法是文本提取和文本标记。

简而言之,文本提取是从非结构化文本中识别结构化信息的过程。文本标记是根据文本数据的内容和相关性为其分配标记的过程。

文本标注的两种常见模式是“词包”和“Word2vec”。

“包字”法最容易理解,但已经过时,被抛弃。不管位置和上下文如何,这种方法仅用于计算文本内容中的字数。这种技术的缺点是它没有提供一种从单词中理解上下文的方法——单词数量越多的内容得分越高。

Word2Vec已经成为文本标注的首选方法。Word2Vec收集的文本将被转换为矢量格式,以提供关于单词的相关信息(包括同义词)。例如,“男人”和“男孩”这两个词可以是密切相关的。Word2Vec也理解“幽默”(美式拼写)和“幽默”(英式拼写)这两个词应该同样对待。Word2Vec生成一个相关单词的网格。在神经网络中,单词之间的距离越近,它们之间的关系就越紧密。这种神经网络允许算法更好地理解单词的上下文,因此数据科学家可以生成更好的内容相关性分析。

4号

数据可视化

可视化是将数据转化为具有深层价值的信息,并以图形、表格等直观表达方式表达数据的过程。市场上有各种商业和开源可视化工具可供企业使用。

自然语言处理的作用

自然语言处理是文本分析的一个组成部分。大多数高级文本分析平台和产品使用NLP算法进行语言(语言驱动)分析,以帮助机器阅读文本。NLP分析词语的关联性,包括应该被视为对等的相关词语,即使它们的表达方式不同(例如,“幽默”和“幽默”)。这是步骤2和步骤3不可分割的一部分。

自然语言处理的一个流行应用是为搜索引擎识别相关的高质量内容。比如Google在很多方面使用NLP,最突出的就是搜索引擎组织和分类。

很久以前,站长只有在网页内容中填充关键词才能在谷歌搜索结果中获得更高的排名,所以谷歌修改了其搜索引擎使用众多算法和NLP处理内容的方式。NLP帮助谷歌识别和分类“垃圾内容”。谷歌可能会对这些内容取消索引、进行惩罚,或者只是将其排名远远低于其他内容。

NLP也广泛应用于垃圾邮件过滤。垃圾邮件发送者通过改变单词、故意拼错单词或使用同义词来尽力避免这种过滤器。电子邮件垃圾邮件过滤器使用各种因素来识别和阻止垃圾邮件、网络钓鱼和恶意内容。比如Gmail的过滤器结合机器学习和NLP进行“情感分析”。如果邮件被定义为“内容可能是垃圾邮件”,该邮件将被自动发送到用户的垃圾文件夹。对于一些敏感内容,Gmail会直接删除邮件。

回到十年前,NLP的应用还是比较难理解的。近年来,基于人工智能的技术(包括NLP和文本分析)发生了翻天覆地的变化,企业可以轻松使用云服务、商业产品和开源平台。以下是一些开源NLP应用程序,供您参考:

Stanford CoreNLP

自然语言工具包

Apache Lucene和Solr

Apache OpenNLP

盖茨和阿帕奇·UIMA

最后一句话

虽然文本分析不是一个新概念,但是很多企业对它还是知之甚少。如果你想看完这篇文章,可以利用API,基于AI的云服务,合理利用开源平台,在不久的将来,通过更好的了解客户,提升品牌价值,获得竞争优势。

原作者:Dheeraj Nallagatla

孙协志翻译

美术编辑:郭儿

校对和复习:东东

原文链接:https://tdwi . org/articles/2019/06/03/adv-all-introduction-to-use-text-analytics-and-NLP . aspx?页面=2

1.《文本分析法 一文看懂自然语言处理 NLP 及文本分析 Text Analytics 原理入门》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《文本分析法 一文看懂自然语言处理 NLP 及文本分析 Text Analytics 原理入门》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1250142.html

上一篇

头部按摩器 减压从头开始——MINI头部按摩器评测

下一篇

大立科技最新消息 (上市公司人事)大立科技拟聘任姜永峰任副总经理

参观报告 商业项目考察报告内容,怎么写?

参观报告 商业项目考察报告内容,怎么写?

案例大纲模板  1.上海商业地产检验计划(参考)一、准备工作 1.调查地图 2.调查项目 1)梅陇镇商圈-恒隆广场 2)南京东路商圈——莱佛士城、欢乐城 3)淮海路商圈——新天地广场和K11购物艺术中心 4)小陆家嘴商圈——郑达广场和国际金融中...

考察报告格式 商业项目考察报告内容,怎么写?

考察报告格式 商业项目考察报告内容,怎么写?

案例大纲模板  1.上海商业地产检验计划(参考)一、准备工作 1.调查地图 2.调查项目 1)梅陇镇商圈-恒隆广场 2)南京东路商圈——莱佛士城、欢乐城 3)淮海路商圈——新天地广场和K11购物艺术中心 4)小陆家嘴商圈——郑达广场和国际金融中...

企业文化宣传册内容 企业文化宣传册意向画面设计欣赏

  • 企业文化宣传册内容 企业文化宣传册意向画面设计欣赏
  • 企业文化宣传册内容 企业文化宣传册意向画面设计欣赏
  • 企业文化宣传册内容 企业文化宣传册意向画面设计欣赏
淮河流域 数据告诉你:为什么淮河流域容易发生洪水

淮河流域 数据告诉你:为什么淮河流域容易发生洪水

回顾1470-1991年的522年,淮河流域平均每三年经历一次大洪水。淮河流域为什么容易发洪水?淮河和黄河洪水频发有什么深层关系?王家坝为什么这么重要?中国气象网让数据告诉你。 主编:宣 七天天气预报看这里!!!-链接地址:http://3g....

深圳门面出租 【会员福利】全国主要城市商铺租赁数据分享丨城市数据派

  • 深圳门面出租 【会员福利】全国主要城市商铺租赁数据分享丨城市数据派
  • 深圳门面出租 【会员福利】全国主要城市商铺租赁数据分享丨城市数据派
  • 深圳门面出租 【会员福利】全国主要城市商铺租赁数据分享丨城市数据派

马拉松多少米 跑步步幅多少合适? 大数据告诉你

  • 马拉松多少米 跑步步幅多少合适? 大数据告诉你
  • 马拉松多少米 跑步步幅多少合适? 大数据告诉你
  • 马拉松多少米 跑步步幅多少合适? 大数据告诉你
荒谬绝伦!所谓涉疆数据库是造假库谣言库伪证库 究竟发生了什么?

荒谬绝伦!所谓涉疆数据库是造假库谣言库伪证库 究竟发生了什么?

一些国家的政府政客、组织、媒体甚至还寡廉鲜耻地将一些“演员”奉为座上宾,颁发所谓的奖项,给他们涂上“人权卫士”色彩,并据此给新疆扣上“反人类罪”“种族灭绝”的帽子,简直是荒谬绝伦。...

典型相关分析 R语言典型相关分析:NBA球员身体素质与统计数据关联性

数据科学从业者的研究日记。数据挖掘与机器学习,R与Python,理论与实践并行。个人微信官方账号:数据科学家发展(微信ID: louwill 12) 昨天备受期待的2017年NBA总决赛G1,我相信你们JRs都看过吧?不是骑士不尽力,而是对面有...