摘要:人们过去认为,大数据分析是指挖掘大量数据以发现特定的信息这一过程,但是现在这个词更常用于一个更广的含义,泛指不断增长中的大量数据。 |
Toigo认为对象存储是成功实现大数据架构的最佳方式之一,因为它允许存储管理的粒度分级。他甚至将其视为“存储的未来”。但是当决定如何存储大数据时,他认为系统管理员必须首先考虑大数据的用途,比如,容量需求对于一个大数据架构来说可能要比私密性更为重要。Toigo分享了很多想法,如关于大数据是什么、最好的存储方法及大数据架构下存储管理员可能遇到的问题。
IT专业人士在大数据架构中将遇到什么样的存储挑战?
Jon Toigo:首先,我认为我们需要知道大数据意味着什么。我大概在四、五年前第一次听到这个词,它指多个数据库的联合,在某些情况下是将非结构数据集中到某种框架中,对实时分析做镜像。关键是我们要把所有数据集中起来。我们将数据彼此关联,然后在任何情况下我们都能让数据告知我们有哪些变化并给我们有用的信息。
一个典型案例是基于潜在恐怖分子的已知信息找到嫌疑犯,这些信息可以是他在不同国家的记录,航空预定数据库中有他所可能会乘坐的航线,如果他会租车并填充上炸药就需要为租车付钱,那么就可以找到他的租用信息,所有的事都能联系到一起。就像是在干草堆中找一根针,这就是大数据。另一个应用是通过查看死亡记录与汽车驾照、白页目录清单和投票注册数据库来找到潜在的投票作弊者,将所有的这些联合在一起就可以找到已注册投票的人中可能已经去世的人。
实质上这些是我们应用大数据分析的经典例子。而它们既表达了大数据是什么,又表达了大数据分析是什么。简单来说大数据就是将待分析的数据收集起来。现在,我听到很多厂商将大数据这个词用在所有事情上面。这是对我们所面对的真实情况的一个参考——我们获得了很多数据而且还在不断增长,大多数以文件的形式存在,而且我们在组织数据、存储数据以及高效低成本使用上都存在很多问题。所以就像如今很多词一样,大数据看起来被很多营销人员使用,而且现在无论这个词在市场营销部门眼中意味着什么,这个词对市场营销部门来说即是价值。
所以首要问题是确定“大数据”一词的含义。然后我们进入另一个问题集:弄清楚如何存储数据量越来越大的数据,并保存相对长时间;还是找到一个方式管理多个数据源,共同实现一些数据分析的目的。所以如果你了解我说的是什么,这儿面临的挑战是,众所周知没有人对什么是大数据有很好的定义。
对于数据的超级大卷,对象存储为何备受欢迎?
Toigo:首先,我认为对象存储是存储的未来,这也是业内一致的意见。有很多厂商走在前沿,在宣传它。对象存储引领着下一代数据存储的变革。文件是唯一方法,目前在我们存储的数据中超过一半。他们主要是由用户进行控制,所以我们对文件内部是什么没有太多信息。这有点像是匿名数据。如果我们想要创建某种有组织的方法来存储一段时间的数据我们需要一个更细粒度的数据管理方式,这就是对象存储未来要做的。