摘要:不要急着否定那些看似无用的数据,它们也拥有价值,确切的说是低价值密度数据。企业应该保留这些数据,虽然暂时尚未发现它的价值,但可以用低成本的存储服务器保留它们。 |
没有无效数据----只是价值不同
怎样分辨大数据蕴含的价值?宝立明表示,不要急着否定那些看似无用的数据,它们也拥有价值,确切的说是低价值密度数据。企业应该保留这些数据,虽然暂时尚未发现它的价值,但可以用低成本的存储服务器保留它们。
比如,人们在通过搜索引擎检索时,会出现一些习惯性的拼写错误。这些错误数据虽然表面上没有意义,但通过收集这些数据却可以发现大量的用户习惯和规律。人们对于海量数据感到困惑,这是因为未能全局掌握整个数据只是看到破碎的、零散的、局部的数据。这就像通常“给数据做提炼总结”而在总结的过程中往往会丢失掉大量细节,但是很多有价值的信息正隐藏在具体的细节当中。
对于不同价值的数据要进行区分对待,把价值不高的数据存储在低成本的环境当中,但绝对是把它丢弃,因为假以时日,它还是会有一定的价值会被挖掘出来。
隐私保护仍待解决
在大数据的隐私恐慌问题上,宝立明觉得,对用户隐私要提供一定的保护,例如通过数据加密,只让需要知道数据的人了解、接触或者访问到这些数据。人们需要明白的是,通过数据挖掘软件,实际上看到的用户数据或者信息并不针对某个具体的人。很多国家的立法机构或者政府希望通过制定隐私保护法律来实现对用户信息的保护。但由于对数据分析不了解,有些法规最终可能限制了用户对信息和数据的使用。
责任编辑:余芯