机房360首页
当前位置:首页 » 云存储 » 数据访问特点与分析

数据访问特点与分析

来源:机房360 作者:GOCN编辑 更新时间:2013-2-6 18:02:16

摘要:本节中主要介绍系统的内部组成和数据访问模式,并讨论几个典型因素在数据传输中的影响。

  本节中主要介绍系统的内部组成和数据访问模式,并讨论几个典型因素在数据传输中的影响。

  1·系统组成

  图4.34所示为服务多个应用会话的大规模归档存储系统的内部组成。多个会话(S1到Sn)从多个客户端连接到系统相应的存储节点上。每个会话代表了一个具有一定的网络带宽Rni的可用网络通道。访问请求在每个会话相对应的会话队列中排序。每个会话也有一个相应的数据缓冲来接收请求的访问数据。

  因为存储数据块状分布于多个硬盘设备,每个请求要被分割成多个子请求,然后发送到相应的设备。起始的设备,涉及的硬盘数最和每个子请求的大小由请求的逻辑地址和数据大小所决定。这些子请求随后被传输到物理硬盘。数据从硬盘的内部缓冲区取得,并且被存储在与最初请求对应的会话缓冲区中。

  2·大数据请求的影晌

  数据访问硬盘设备有一定的开销,如硬盘寻道时间、转动时间和切换时间等。这种开销不能通过一个先验的模型来决定,而是取决于当前一个和上一个访问之间的相对位置,

  如请求的顺序,它是通过负载和底层的硬盘调度策略来决定的。为了达到更大的硬盘访问吞吐最,大的请求将会更好。

  图4.35展示了希捷SC39102FC1型号的硬盘的访问性能。在这个测试中,请求随机分

  布于整个硬盘空间中。很明显,在小请求时,性能是很差的,如当请求是4KB时,所达到的性能是0.5Mb/s。这是因为硬盘访问开销决定了访问时间,而与开销相比,数据传输时间是很小的。当请求增大时,传输时间也在增加,而硬盘开销保持不变。当请求接近4MB时,内部的传输时间决定了总体时间。结哭,吞吐率很近似地反映了内部硬盘带宽。

  大规模归档存储系统作为分布式共亨设施,服务于不同的客户端及各种不同需求的应用,可能会收到不同特性的数据请求,如不同速率的请求、不同大小的请求等。对于其些

  应用,如数拥备份应用或者科学图像处理应用,数据请求可能是巨大的。

  对于大数据请求,在硬盘访问的请求将会占据一段较长的时间,就像网络传输一样。图4.35所示的大请求的一个优点就是硬盘利用率利吞吐量较高,因而这种类型的请求很适合于对吞吐量要求追切的应用。但是,大的请求也会带来一些缺点,这在后续章节中会详细分析和讨论。因此,为每个对话保持合理的请求大小和请求速率是非常重要的。

  3·磁盘阵列负载的影响

  通常情况下,总的吞吐虽伴随请求数量的增加而提高,因为现阶段大部分SCSl硬盘有内部的调度算法,通过这些调度算法来对到达的请求重新排序以减少寻道和转动时间。另外,通过磁盘务带化 (Data Striping),更多的并行访问增加了磁盘的利用率。

  然而,平均响应时间随着未完成请求 (Outstanding Requests) 数最的增长而相应地增加。图4.36所示为不同负载和大小的请求对请求响应时间的影响。请求大小的范围为

  16KB~1MB,块单元大小是64KB,硬盘采用希捷SC39102FC。从图4.36可以看出,大请求 1MB)的平均响应时间随着硬盘负载的增加而明显增加。当硬盘负载从l个请求变化到6个请求时,响应时间从28ms增加到了322ms,超过11倍。这意味着小请求的响应时间发生波动的可能性要小于人请求。换句话说,为了能对响应时间更好地控制,人请求的负载应该受到限制。

  另外,吞吐率随着硬盟负载的增加而相应地受益。对于16KB大小的请求,从l个请求到6个请求的捉升是350%,如图4.37所示。对于64KB大小的请求,提升也达到80%。因为不能预测物理硬盘中请求调度的顺序,不仅新的请求会被增加的访问时间所影响,以前的请求也会受到影响。因此,如果现存请求的处理时间已经很紧凑,再递交新的请求是不明智的。如果现存请求有充足的时间来处理,增加更多的请求到硬盘对获得高吞吐率是有益的。

  责任编辑:GOCN

本文地址:http://www.jifang360.com/news/201326/n517345086.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
更多
推荐图片