当人们面对非结构化数据时,他们往往没有控制权。他们能做的就是接收他们。比如文本数据、视频数据、音频数据等等。图像是由独立的像素以特定的方式组成的,但组合的方式是不断变化的。完全非结构化的数据就是这种情况。事实上,大多数大数据应该被视为半结构化的。
半结构化数据仍然有可以理解的逻辑流程和格式,但是这些格式对用户并不友好。半结构化数据在某种程度上也可以称为多结构化数据。这种数据,大量无价值的数据包包裹着有价值的数据。在同样的情况下,理解和分析半结构化数据要困难得多。所以要用一套复杂的规则去理解半结构化的数据,只有在阅读了每一条信息之后,才能动态决定处理方法。
最典型的半结构化数据是weblog。当人们看到博客时,他们会觉得自己很丑。事实上,其中的每一条信息都有特定的价值。
非结构化的大型数据源并不常见,但大量半结构化数据和多结构化数据是常见的。它们有可理解的逻辑流程,可以从中提取信息进行分析。只有掌握了半结构化数据,才有时间保障,这才是最好的处理方式。
博客中的信息是合乎逻辑的,尽管在许多情况下很难看到。日志中的字段和分隔符是不同的,就像结构数据一样,包含很多值。只是它们之间没有固定的联系。在不同的网站上点击博客需要不同的时间。此外,理解半结构化数据的内部逻辑也不是不可能,但这需要一些时间。
分析师似乎更害怕非结构性数据。对他们来说,征服半结构化数据需要付出努力,他们可以做到。分析师应该首先将半结构化数据组织成结构化数据,然后在他们的分析过程中应用它们。对于非结构性数据,难度会大很多。即使他们征服了半结构化数据,在面对非结构化数据时,仍然会感到巨大的挑战。
1.《裹是什么结构 什么是大数据的结构化、非结构化、半结构化及多结构化?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《裹是什么结构 什么是大数据的结构化、非结构化、半结构化及多结构化?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/1038051.html