永洪社区

标题: 数据的五个特征、三道难题、一种自大 [打印本页]

作者: puffs    时间: 2024-5-27 16:09
标题: 数据的五个特征、三道难题、一种自大
“数据是新石油”(Clive Humby,2006)。如果一定要找出一样,数据最像的还真是石油。两者都是重要的战略资源,都是驱动世界的动力。但数据只是数据,它不是其它任何东西。
一、五个特征
数据是一种客观存在,是关于事物的事实描述,可通过测量、记录、发现等方式去获得。数据具有无限性、易复制性、非均质性、易腐性和原始性五个特征。
1. 无限性
与实物不同,数据不会因使用而耗尽,反而是因使用而产生,会不断被创造,会越来越多。“数据将成为最基本的客观产物,无论做什么,我们都在产生数据”(Paul Sonderegger,2017)。根据DASA R&T《2016-2045年新兴科技趋势》,全球新产生的数据量大约每两年翻一番。这堪称大数据摩尔定律,数据大爆炸是必然。
2. 易复制性
数据可以快速地以近乎零成本的方式进行复制,可供多人同时使用,可多次循环使用,一个人的使用可以不排斥和妨碍别人对其使用,不同人之间在使用上不存在直接的利益冲突。易复制性使得数据具有一定程度的非竞争性和非排他性,但数据不是公共品,有公共数据、企业数据和个人数据之分。
3. 非均质性
《潜伏》中谢若林有句话:“现在两根金条放在这儿,你告诉我哪一根是高尚的,哪一根是龌龊的?”这说明了一个道理——金条是均质的,两根金条有着同等的价值表现。均质性普遍存在,例如出厂的商品、油电气等能源。而数据是非均质的,一比特数据跟另一比特数据所包含的价值完全不同,同一份数据对不同人的价值也不一样。正如王钦敏(2023)所说:“数据价值因使用对象而异,因应用场景而异,因专业化数据质量标准而异。”
4. 易腐性
数据是一种易腐品,会随着时间的流逝而迅速贬值。根据IBM(2015)数据,60%的非结构化数据在几毫秒内就失去真正价值。这意味着,数据的价值很大程度体现在时效性上,超过一半的数据在产生的那一刻就不再有价值,我们可称之为“一秒钟定律”。能得到分析处理并产生实际效用的数据则更少。全球90%的数据从未得到分析使用(IBM,2015;DASA R&T,2016)。2020年被创建或复制的数据中,只有不到2%被保存并保留到2021年(来源:IDC)。
5. 原始性
数据是原始的,本身并没有意义,只有对它进行处理分析,才能转变成对人们有用的信息。如果说数据是新石油,那么分析就是内燃机。信息是数据提炼后的产物;信息经人脑加工后形成知识,知识具有主观性;数据、信息和知识是历史的,而智慧是关于未来的,是人们运用知识做出决策和判断的能力。
对数据、信息、知识和智慧之间的关系,福特汉姆大学Zeleny教授(1987)提出了DIKW金字塔模型(如下图所示),从底层到顶层依次是:






欢迎光临 永洪社区 (http://club.yonghongtech.com/) Powered by Discuz! X3.4