【长虹怎么写数据】长虹如何快速交互分析？

长虹公司概况

长虹创建于1958年，公司前身国英彩虹机械厂是我国“十五”期间156个重点工程之一，是当时国内唯一的机载火控雷达生产基地。

从军工入业、彩电兴业、信息电子的多元扩张，长虹正在成为集军工、消费电子、核心零部件开发和制造为一体的综合性跨国企业集团，向具有全球竞争力的信息家电内容和服务供应商迈进。

经过第三阶段、50多年的发展，长虹的销售额近两年连续突破1000亿，成为四川第一大企业。

长虹智能开发过程

长虹的大数据研究始于2009年开始的ERP企业管理系统。

当时开始布局数据化的长虹业务数据量不大，用户并发性也比较少。随着企业的发展，长虹以智能终端为中心，通过更多的渠道和更多的手段，大大提高了数据采样的规模和多样性，在大数据浪潮中引发了长虹的变化和创新。

2014年，我们跟上时代的步伐，选择了Hadoop这条路，自己搭建了公司的大数据存储和计算平台，为了整个公司的数据业务开发，依靠大数据平台。

通过大数据处理平台，智能转换的核心是企业云、业务云和设备要上云。能够实现公司行政流程、业务流程、生产流程、财务流程的高度信息化、智能化。

上云后，业务行为作为数据沉淀到各个数据库中，聚合到企业数据仓库中，通过数据处理形成相应的数据服务能力。也就是说，今天说的数据中队，最终为长虹的新兴业务提供服务，提高企业的竞争力。

长虹大数据技术的演变

为了应对不断变化的业务需求，长虹大数据的技术开发堆栈主要使用主要的开源软件，如这里所示的Hadoop的发展过程。

2016年，在总结长虹的数据特征和业务需求后，开始分析。如何在超过2000万个智能终端和超过8000万亿个数据集场景下进行快速交互式查询分析？经典Hive不再能够满足快速查询要求，因此开始调查Apache Kylin及其商用Kyligence Enterprise，将其作为重要的组件工具包括在平台中。

围绕整个数据的特点，确定了当时的整体进化方向，并使用Kylin Druid的联合方法进行了整体业务分析。

7407fa63e922f7916f614?from=article.detail&_iz=31825&index=6" width="640" height="319"/>

依托扎实的技术平台，我们总结形成了长虹的大数据业务架构，底层是一个 TinyVoice 平台及大数据基础平台，做数据采集、数据存储、数据管理等。过程中建立公司的整个数据标准体系，而且我们的数据标准体系过审了国家 DCMM 的认证，是四川省首家拿到三级认证的企业。基于标准化之后的数据，搭建了个性化推荐、精准营销、供应链评级等服务于研发、生产、制造等各个方向的系统，最终服务于公司的经营业务。

应用案例

光说数据或者光说大数据都是不行的。数据如果脱离了业务，其实没什么价值，下面介绍一下我们应用大数据技术做的真正有业务价值的案例。

端子分析

原来电视机上有很多不同接口，当时我们就想了解下我们用户到底会接哪些接口。于是我们在 2014 年 10 月，对 6 万多个有效联网智能电视终端样本数据的输入端做了一个统计分析。

根据统计我们发现，长虹 CHiQ 电视高端用户用 HDMI 接口的数量最大，传统 CVBS 和 ATV 接口需求量仍然很大，VGA 、YPBPR 使用占比很少。针对 VGA 的用户我们深入分析其 IP 来源，我们发现大部分来自于 CBD 等办公场地，故判断这部分用户应该是企业拿来做投影的，且量特别大，当时就我们建议裁剪。裁剪之后，电视机不仅节省了硬件成本，还节约出了硬件空间，多的硬件空间可以用于其他部件的摆放，从而提升了产品竞争力。

个性化推荐

电视的个性化推荐和视频网站的个性化推荐不太一样，我们是没有做内容的，所以我们做推荐，依托自建的媒体库推荐对应的视频软件。

另一个和视频网站不同的是，电视机实际是以家庭的方式存在的，在用户家里有不同的人在用，老人、孩子、家庭主妇等不同的角色可能都在用这个电视机，但是每个人的喜好不同，这就给我们的精准推荐带来了挑战：我们如何确定这个时间点背后的是个什么样的角色呢？

最终我们通过声纹识别、行为训练和分析，形成了家庭 ID 识别的深度模型，它能识别你是男性女性老人小孩，然后整体形成家庭画像，再以家庭画像为依托，对用户进行千人千面的精准推荐。

智能财务 OCR（光学字符识别）识别

我们公司在做财务上云的过程中，进行了财务的集中化处理，集中化之后就累计了大量的数据需要进行精细化的采集和分析，所以我们开发了一套 OCR 系统来做票据数据的采集。

实际业务开展过程我们会在 A4 纸上贴很多票，所以 OCR 系统需要首先对票据进行切割，切割完成后票据有些是歪的，我们需要把它旋转。由于我们的票据种类有很多，所以预处理做完之后，系统需要对它进行自动分类，也就是自动分捡的系统所要做的事情。分捡完之后我们会进行票据字符识别，字符识别完成后会进行字段的匹配，我们在字段这里加了语义纠偏的处理方式。

举一个例子，比如成都东站或者成都站，我们会根据爬取的信息，它会有车次信息，图谱会进行检索，检索这个车到底有没有经过成都站还是成都东站，以这个信息辅助我做整个字段识别的纠偏，从而提升整体的票面识别率。

目前，我们的 OCR 图像字符串识别率在国内、国际都属于领先地位，识别率达到97.9%，支持的票据类别 50 类，行业第一，形成 80.5 万条的标注数据集，改善了文字识别领域的一些核心算法，并成功形成了发票识别领域的语义库。

在这个项目过程中我们也实现了 20 多个自系统的数据统一归集，归集到一个数据中。在此之上，我们使用 Kyligence 构建了我们的数据仓库和数据集市，在解决构建非实时这个问题时，还用了 Hive 外表和查询下压相结合的方式来满足业务查询联动的需求。

除此之外还做很多数据相关的应用比如工业大数据、舆情监控分析、战略营销地图、供应链管理、外汇金融、语义云等等。

作者简介：蒲文龙，长虹集团数据服务部技术总监，擅长 Hadoop Eco 的大数据系统架构设计和海量数据下的高并发、高可用应用系统架构设计；主导建设了长虹 Matrix Cloud 基础云平台、长虹大数据基础平台、长虹标签画像体系、长虹个性化推荐体系、长虹工业大数据平台以及长虹大数据平台数据标准体系。目前致力于 Cloud Native 技术和大数据技术在长虹海量物联网设备上的应用和实现。

1.《【长虹怎么写数据】长虹如何快速交互分析？》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《【长虹怎么写数据】长虹如何快速交互分析？》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/why/3006592.html

【长虹怎么写数据】长虹如何快速交互分析？

【电磁炉更换igbt后怎么试机】IGBT管式燃烧炉维护步骤和方法

【天然气热水器显示E6是怎么回事】万和热水器E6故障维修

【长虹怎么写数据】长虹智能电视工程模式详情

【长虹怎么写数据】击穿企业与用户的围墙长虹用数据打造“最强大脑”

【长虹怎么写数据】电视大数据怎么玩？长虹智q第二代“智能指南”全秘密

【长虹怎么写数据】长虹如何快速交互分析？

【电磁炉更换igbt后怎么试机】IGBT管式燃烧炉维护步骤和方法

【天然气热水器显示E6是怎么回事】万和热水器E6故障维修

【长虹怎么写数据】长虹智能电视工程模式详情

【长虹怎么写数据】击穿企业与用户的围墙 长虹用数据打造“最强大脑”

【长虹怎么写数据】电视大数据怎么玩？长虹智q第二代“智能指南”全秘密

【长虹怎么写数据】击穿企业与用户的围墙长虹用数据打造“最强大脑”