应用驱动的数据切分算法_机房360

摘要：　　ADMAD面向大规模归档存储系统的实际应用而设计，这些应用都有减少存储空间及优化数描管理的需求，包括企业级电子邮件服务器归档、Web文档归档，以及多媒体数据文件归档。为了验证ADMAD的想法，因此目前只是简单地将文件类型和文件格式作为文件的元数据信息用于文件切分。

　　ADMAD面向大规模归档存储系统的实际应用而设计，这些应用都有减少存储空间及优化数描管理的需求，包括企业级电子邮件服务器归档、Web文档归档，以及多媒体数据文件归档。为了验证ADMAD的想法，因此目前只是简单地将文件类型和文件格式作为文件的元数据信息用于文件切分。

　　1.企业级电子邮件服务器归档

　　(1)法规遵从的要求 (Regulatory Compliance)。E-mail及其他电子信息通信在今天的企业中是至关茧要的应用。越来越多的规章及法律用来严格规范包含E-mail文件的电子记录的归档，而这加重了存储系统的负担。

　　(2)合法发明或发现及知识管理 (Legal discovery (e-discovery)and KnowledgeManagement)的商业需求。目前，许多组织只是周期性地使用一些备份工具(如tar)将所有的E-mail文件打包，并未对E-mail信息及附件做相应的管理或分类。在目前的实现中，采用一种广泛应用的开放源码的企业级E-mail服务器Extmail用做E-mail计应用服务器。每一个标准的E-mail文件被划分成6个语义部分(在这里主要考虑标准格式，:MIME格式的E-mail也能采用同样办法划分成MC):FROM地址(可能是多重地址):TO地址(可能是多重地址):SUBJECT;TEXT;ATTACHMENT FILENANME和ATTACHMENT内容信息。fileChunking0API接口实现了E-mail文件切分过程，如图4.8所示。

　　2.web文档归档

　　越来越多的数据和信息出现在web网页上，因此Web文档的归档工作对诸如搜索引擎、Web代理、博客及Web挖掘等与Web有关的应用越发重要。例如，Web文档归档时构造索引，以便搜索引擎为终端用户生成相应的搜索结果。大多数Web文档归档为HTML文件，它提供的机制用来描述在互联网上的可读测览器的超文本页，那些页将某些文本标记成链接、标题、段落、表等，用交互式的窗口、嵌入式的图片及其他对象对文本做补充说明。一个HTML文件由若干元素组成，通常有一个开始tag(如)及一个结束tag (如，它也可能只有一种tag，格式为tag-name)，它们由三角括号括起来。元素的属性包含在开始tag中，内容在tag之间，如Content 上描述一个文档的外观及语义，以及包含嵌入式的脚本语言代码 (如 Javascript和VBScript)，能够影响Web测览器及其他HTML处理器的行为。因此划分一个HTML文件的快捷方法是将每个tag的开始或结束作为语义分块的切入点。

　　与E-mail文件不同，HTML格式的文件包含非常多的tag(一个典型的HTML文件遮常具有100个以上的tag，它们用于划定该文件元素的范围，这样潜在地导致了实际上可同大小元素的存在，因此标记每个元素作为MC并不合适。依据上面对HTML文件特征的描述，定义一个tag的每一个开始和结束作为candidate dividing point P，一个指针的标志符作为相应shingle(88)的指纹(57)，自P的m字节开始，在p之后的m字节结束，也就是说，Identifier(P)=fingerprint(shingle{P-m，P+m})的大小是2m字节，其中m可以依据不同的工作量予以配置。如果candidate dividing point P的64位Rabin指纹与一个预先标记的值匹配，那么该点就被认为是一个划分点(即一个MC的边界鉴于Web文档在每个站点总是成批归档(设想一个典型的Web搜索引擎的场景，蛛状网在递归式地搜寻该站点的Web文档)，以及基于观察Web文档在同一站点内通常拥有相同或近似的风格及格式，用户可以对比样本文件得到该站点的模板template。如图4.9所示，在同一站点内的两个Web页有着同样的Header片段及Bottom片段 (对应于Head元素、标题元素及风格元素等)，相似的工具条片段及相似的内容片段。应用这样的模板，用户可以进一步对 Web文档划分并去除相同的片段。由于被归档或搜索的Web区域可以使用这样的叨让结构来指定，其中是指浏览器与服务器通信使用的协议 (如HTTP、FTP等)，是指服务器的名字 (Web地址)，是指在服务器存储文档的目录路径。因此在具体实现中，具有相同服务器名字的URL仅限制在特定的服务器页中，同时拥有相同文件夹前缀的URL仅限制在其子文件夹的页中。

　　3.音频MP3文件归档

　　MP3(MPEG-1音频层3)是一种数字音频编码格式，使用有损数据压缩技术，即降低声音一些部分的精确性，被认为是在大多数人们的听力解析能力之外。这种方法通常被称为Perceptual Coding(89)有知觉的编码。它是消费者音频储藏库的常用音频格式，同时也是事实上的，特别在互联网的世界里数字音频播放器上传送及重放音乐的标准编码。所以使用MP3格式的音频数据归档对相关的应用是很更要的。

　　Mp3文件有一个标准格式，包含TAG_V2(ID3V2)元数据、帧，以及与它们分别对应的TAG_V1(ID3V1)元数据 (当前更多地提到APEv2元数据)三个部分，如图4.10所示。帧构成多重的Mp3帧包含MP3头和Mp3数据，这一帧序列称为基本流。帧不是独立的项目(“byte reservoir字节储藏库")，因此不能在任意帧边界提取出来。MP3数据是实际的音频有效载荷。Mp3头含有一个同步的字，用于识别一个合法帧的开始。随后的一位显示这是MPEG标准，两位显示层3被使用，因此是MPEG-1Audio Layer3或MP3。这之后，值依据相应的MP3文件开始有所不同。ISO/IEC 1172-3定义了头每一部分取值范围，以及头的相应规范。目前，大多数Mp3文件含有ID3元数拥，先于MP3帧或在Mp3帧之后。ID3V2部分是一个可变长度的tag表，用于描述音频。在压缩音频文件中一个"tag"，是指包含诸如标题、艺术家、专辑、音轨号或其他与该文件内容相关信息的元数据的域。另外，这一部分可以扩展D3Vl信息，它是一个拥有128字节的tag结构，如图4·11所示。

　　ADMAD对于MP3音频文件切分算法的实现基于以下的观察与考虑:许多不同的文件有着相同的音频内容和不同的tag描述信息，即相同的歌曲由同一个歌手演唱，但发布在不同的专辑中，或者相同的歌曲由不同的工作室编码，这样就有了不同的评论tag，或者甚至有些tag被人通过一些音频编辑工只进行修改或评论。因此，一般把每个MP3文件划分成三个部分。ID3V2和ID3V1tag被解析和存储在MDS的 File_Attibutes_Table中，音频帧作为一个逻辑的MC存储，以便迸一步被打包成物理对象被实际符储到磁盘设备中。具体的文件存储和恢复过程将在后面的章节中予以详细论述。

　　4.FlashVideo视频文件归档

　　FlashVideo(FLV)是Adobe(90)提议的一个流行的视频格式，用于在互联网上传送使用Adobe flash播放器 (原先叫Macromedia flash播放器)版本6、7、8或9的视频数据。著名的FlashVideo格式的用户包括YouTube、GoogleVideo、Reufers.com、Vahoo!Video。许多TV新闻报道也在其网页上使用FlashVideo。由于Web2·0标准被　迅速采用，所以Wed2.0网页、多媒体知识库及互联网代理服务器等越来越重视FLV视频的归档工作。

　　在目前的实现中大多使用FLV格式(91)的元数据。一个典型的FLV文件包括Header部分及Body部分，如图4.12所示。在FLV的Header部分之后，Body部分(一个FLV文件的其余部分)包括交互的返回指针及标签协g，用于对同步的音频及视频流进行编码。在一个PLV文件中，每个tag类型组成单一的流数据。这就是说，在大多数情况下，一个音频流和一个视频流同步在一起，构成一个FLV文件。有关Header或tag域定义的细节可以在FLV格式规范中找到(91)。

　　基于文件格式，可将每个FLV划分成若干个临时的MC。分块过程如下：

　　(1)进行文件解析，分离出以时间为索引的帧特性。

　　(2)对帧取样，取得每个临时画面的关键帧 (主要使用相关的分割算法及边界快照侦测技术[92],[93])。

　　(3)恢复每一个关键帧，对每个关键帧生成该图像。

　　(4)生成该图像的特征码，将该特征码作为相对应的临时画面的标志符。假设文件1是一个FLV文件。解析了它的7个帧之后，对3介面面取样关键帧，生成这3个关键帧的特征碉，将该文件分成3个MC，使用相应的特征码来标志MC。上述过程如图4·13所示。

责任编辑：GOCN

JIFANG360.com - 机房360

应用驱动的数据切分算法