长虹公司概况
长虹创建于1958年,公司前身国英彩虹机械厂是我国“十五”期间156个重点工程之一,是当时国内唯一的机载火控雷达生产基地。
从军工入业、彩电兴业、信息电子的多元扩张,长虹正在成为集军工、消费电子、核心零部件开发和制造为一体的综合性跨国企业集团,向具有全球竞争力的信息家电内容和服务供应商迈进。
经过第三阶段、50多年的发展,长虹的销售额近两年连续突破1000亿,成为四川第一大企业。
长虹智能开发过程
长虹的大数据研究始于2009年开始的ERP企业管理系统。
当时开始布局数据化的长虹业务数据量不大,用户并发性也比较少。随着企业的发展,长虹以智能终端为中心,通过更多的渠道和更多的手段,大大提高了数据采样的规模和多样性,在大数据浪潮中引发了长虹的变化和创新。
2014年,我们跟上时代的步伐,选择了Hadoop这条路,自己搭建了公司的大数据存储和计算平台,为了整个公司的数据业务开发,依靠大数据平台。
通过大数据处理平台,智能转换的核心是企业云、业务云和设备要上云。能够实现公司行政流程、业务流程、生产流程、财务流程的高度信息化、智能化。
上云后,业务行为作为数据沉淀到各个数据库中,聚合到企业数据仓库中,通过数据处理形成相应的数据服务能力。也就是说,今天说的数据中队,最终为长虹的新兴业务提供服务,提高企业的竞争力。
长虹大数据技术的演变
为了应对不断变化的业务需求,长虹大数据的技术开发堆栈主要使用主要的开源软件,如这里所示的Hadoop的发展过程。
2016年,在总结长虹的数据特征和业务需求后,开始分析。如何在超过2000万个智能终端和超过8000万亿个数据集场景下进行快速交互式查询分析?经典Hive不再能够满足快速查询要求,因此开始调查Apache Kylin及其商用Kyligence Enterprise,将其作为重要的组件工具包括在平台中。
围绕整个数据的特点,确定了当时的整体进化方向,并使用Kylin Druid的联合方法进行了整体业务分析。
7407fa63e922f7916f614?from=article.detail&_iz=31825&index=6" width="640" height="319"/>依托扎实的技术平台,我们总结形成了长虹的大数据业务架构,底层是一个 TinyVoice 平台及大数据基础平台,做数据采集、数据存储、数据管理等。过程中建立公司的整个数据标准体系,而且我们的数据标准体系过审了国家 DCMM 的认证,是四川省首家拿到三级认证的企业。基于标准化之后的数据,搭建了个性化推荐、精准营销、供应链评级等服务于研发、生产、制造等各个方向的系统,最终服务于公司的经营业务。
- 应用案例
光说数据或者光说大数据都是不行的。数据如果脱离了业务,其实没什么价值,下面介绍一下我们应用大数据技术做的真正有业务价值的案例。
端子分析
原来电视机上有很多不同接口,当时我们就想了解下我们用户到底会接哪些接口。于是我们在 2014 年 10 月,对 6 万多个有效联网智能电视终端样本数据的输入端做了一个统计分析。
根据统计我们发现,长虹 CHiQ 电视高端用户用 HDMI 接口的数量最大,传统 CVBS 和 ATV 接口需求量仍然很大,VGA 、YPBPR 使用占比很少。针对 VGA 的用户我们深入分析其 IP 来源,我们发现大部分来自于 CBD 等办公场地,故判断这部分用户应该是企业拿来做投影的,且量特别大,当时就我们建议裁剪。裁剪之后,电视机不仅节省了硬件成本,还节约出了硬件空间,多的硬件空间可以用于其他部件的摆放,从而提升了产品竞争力。
个性化推荐
电视的个性化推荐和视频网站的个性化推荐不太一样,我们是没有做内容的,所以我们做推荐,依托自建的媒体库推荐对应的视频软件。
另一个和视频网站不同的是,电视机实际是以家庭的方式存在的,在用户家里有不同的人在用,老人、孩子、家庭主妇等不同的角色可能都在用这个电视机,但是每个人的喜好不同,这就给我们的精准推荐带来了挑战:我们如何确定这个时间点背后的是个什么样的角色呢?
最终我们通过声纹识别、行为训练和分析,形成了家庭 ID 识别的深度模型,它能识别你是男性女性老人小孩,然后整体形成家庭画像,再以家庭画像为依托,对用户进行千人千面的精准推荐。
智能财务 OCR(光学字符识别)识别
我们公司在做财务上云的过程中,进行了财务的集中化处理,集中化之后就累计了大量的数据需要进行精细化的采集和分析,所以我们开发了一套 OCR 系统来做票据数据的采集。
实际业务开展过程我们会在 A4 纸上贴很多票,所以 OCR 系统需要首先对票据进行切割,切割完成后票据有些是歪的,我们需要把它旋转。由于我们的票据种类有很多,所以预处理做完之后,系统需要对它进行自动分类,也就是自动分捡的系统所要做的事情。分捡完之后我们会进行票据字符识别,字符识别完成后会进行字段的匹配,我们在字段这里加了语义纠偏的处理方式。
举一个例子,比如成都东站或者成都站,我们会根据爬取的信息,它会有车次信息,图谱会进行检索,检索这个车到底有没有经过成都站还是成都东站,以这个信息辅助我做整个字段识别的纠偏,从而提升整体的票面识别率。
目前,我们的 OCR 图像字符串识别率在国内、国际都属于领先地位,识别率达到97.9%,支持的票据类别 50 类,行业第一,形成 80.5 万条的标注数据集,改善了文字识别领域的一些核心算法,并成功形成了发票识别领域的语义库。
在这个项目过程中我们也实现了 20 多个自系统的数据统一归集,归集到一个数据中。在此之上,我们使用 Kyligence 构建了我们的数据仓库和数据集市,在解决构建非实时这个问题时,还用了 Hive 外表和查询下压相结合的方式来满足业务查询联动的需求。
除此之外还做很多数据相关的应用比如工业大数据、舆情监控分析、战略营销地图、供应链管理、外汇金融、语义云等等。
作者简介:蒲文龙,长虹集团数据服务部技术总监,擅长 Hadoop Eco 的大数据系统架构设计和海量数据下的高并发、高可用应用系统架构设计;主导建设了长虹 Matrix Cloud 基础云平台、长虹大数据基础平台、长虹标签画像体系、长虹个性化推荐体系、长虹工业大数据平台以及长虹大数据平台数据标准体系。目前致力于 Cloud Native 技术和大数据技术在长虹海量物联网设备上的应用和实现。
1.《【长虹怎么写数据】长虹如何快速交互分析?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【长虹怎么写数据】长虹如何快速交互分析?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/why/3006592.html