摘要:目前,趋势中心对如何应对分析挑战的关注力度正逐级攀升,绝不亚于他们考虑在新商业视角中如何充分利用机遇的力度。 |
首席信息官们总结出了影响他们进行分析的IT趋势,分别为:大数据的增长、快速处理技术、IT商品的成本下降、移动设备的普及和社交媒体的增长。
大数据的增长
大数据指非常庞大的数据集,尤其是那些没有被整齐的组织起来无法适应传统数据仓库的数据集。网络蜘蛛数据、社交媒体反馈和服务器日志,以及来自供应链、行业、周边环境与监视传感器的数据都使得公司的数据变得比以往越来越复杂。HMS公司首席信息官CynthiaNustad认为,大数据呈现为一种“爆炸性”增长趋势。
在大数据技术的谈论中,最多的一项技术是Hadoop。该技术为开源分布式数据处理平台,最初是为编辑网络搜索索引等任务开发的。Hadoop为多个“非关系型(NoSQL)”技术(其包括CouchDB和MongoDB)中的一种,其通过特殊的方式组织网络级数据。Hadoop可将数据的子集合分配给成百上千台服务器的处理,每台服务器汇报的结果都将被一个主作业调度程序整理,因此其具有处理拍字节级数据的能力。Hadoop既能够用于分析前的数据准备,也能够作为一种分析工具。
商业分析速度加快
大数据技术只是快速分析这一大趋势中的一个元素。与更为快速地分析数据相比,数据的大小并不重要,因为你想让这一过程快速完成。但由于目前的计算能够在内存中处理更多的数据,因此与在硬盘中搜索数据相比,其计算出结果的速度要更快。即使你仅处理数G数据,但情况依然与此。
尽管经过数十年的发展,通过缓存频繁访问的数据,数据库性能提升了许多。在加载整个大型数据集至服务器或服务器集群的内存时,这一技术变得更加实用,此时硬盘只是作为备份。由于从旋转的磁盘中检索数据是一个机械过程,因此与在内存中处理数据相比,其速度要慢许多。
列式数据库服务器改变了关系型数据库的传统行与列结构,解决了另一些性能需求。查询仅访问有用的列,而不是读取整个记录和选取可选列,这极大地提高了组织或测量关键列的应用的性能。但Ternent警告称,列式数据库的性能优势需要配合正确的应用和查询设计。他称:“为了进行区别,你必须以适当的方式问它适当的问题。”此此同时,他还指出,列式数据库实际上仅对处理超过500G字节数据的应用有意义。
技术成本下降
随着计算能力的增长,分析技术开始从内存与存储价格的下降中获益。同时,随着开源软件逐渐成为商业产品的备选产品,竞争压力也导致商业产品价格进一步下降。计算成本的变化正在改变着一些基础性架构的选择。例如,创建数据仓库的一个传统因素是让数据一起进入拥有强大计算能力的服务器中以处理它们。当计算能力不足时,从操作系统中分离分析工作负载可以避免日常工作负载的性能出现下降。Nustad称,目前这已经不再是一个合适的选择了。尽管性价比趋势有利于管理成本,但是这些潜在的节约优势将被日益增长的能力需求所抵消。尽管JohnHancock每台设备的存储成本在今年下降了2至3%,但是消耗却增长了20%。