多媒体大数据的技术趋势与应用前景_机房360

摘要：在第五届中国云计算大会中，国家自然科学基金委员会副主任、中国工程院院士高文发表了名为《多媒体大数据的技术趋势与应用前景》的主题演讲，高文在演讲中提到在2020年，整个网络上产生的数据体积可达40个Z，非常丰富，然而数据体积的膨胀同样给存储及计算平台带来极大的挑战，期间高文还列举了大数据对生活、工作产生的5大变化。

　　
　　第三代、第二代、第一代的编码效果有多高呢，第一代的编码标准能够把原来的视频数据压缩到1/75，第二代比第一代效率增加了一倍，能够把原来的视频压缩到1/150，现在正在做的第三代大概能把数据压缩到1/300，大概是这样，取下来的视频压缩完之后存储在那里，如果有办法找到一个编码压缩技术就可以提高它的编码效率。为什么有150：1、300：1，甚至未来修600：1的压缩能力呢，因为我们拍视频的时候里面有很多的冗余，只要你有很好的算法把这个冗余去除掉，所以拧毛巾就是做视频压缩要做的，为什么可以这样呢？因为冗余里面有各种各样的，比如说同样的东西每一桢被拍了很多遍，如果每一桢都重新表达出来肯定很浪费，能不能把后来拷的都一样拷过来就可以了。还有一种叫编码冗余，实际从理论可以分析出来，现在的算法离真正的理论上限还差很远，只是找不到更好的算法逼近那个理论上限，所以现在有成千上万的工程师和科学家找高效编码的算法，希望一点点进行改进。所以我们还有很多的空间。基本大的框架就是这张图给的框架。笼统说，采用包括正交变换、运动预测、商编发等等使编码效率一点点的提高。
　　
　　AVS视频标准的框架也是大的思路上，都是大同小异的，全世界几大不同的技术集团采用的思路都是比较相近的，为什么中国要做这件事？除了提高效率问题以外，还有另外一些原因，专利、知识产权等原因，为了让中国自己的企业，或者说中国的企业向海外发展的时间，不受欺负，所以中国要有一套这样的东西，这套东西还是从纯粹的技术、效果等等角度考虑问题。
　　
　　在中国做了一段时间以后，在中国做不一定都是中国人，当然AVS都是国外企业，国际上比较知名的大的合作视频编码有关的企业都有派代表加入到AVS工作团组，最近做出了一个东西变成了IEEE的标准的，叫做IEEE1857的标准，面向互联网视频编解码的群体，这个群体在2012年2月份正式成立起来，经过一个很完整的流程，第一个视频编码标准昨天已经刚刚印刷，今年3月份批准，经过三个月的准备时间昨天刚刚印刷完成。IEEE1857整个处理流程，从去年2月份成立以后，4月份第一次会议大概到今年3月15日开了7次会议，最后把文本全部完成。
　　
　　这个文本里，整个的编辑经历了非常漫长的过程，因此做一个标准技术很行以外，处理流程也要按部就班要往返很多次，现在这个IEEE1857的标准里面有各种各样面向不同应用的部分，我们叫profile或者叫group，它和别的标准不一样的，或者是有特色的地方，就是IEEE1857对监控视频有特别的支持。
　　
　　什么样特别的支持？是第一次把背景建模技术加到整个处理流程，加到环路里面，这是非常不容易的一件事，这张图可以看出，当你没有进行背景建模你的处理效率没那么高，随着你的建模越来越好，你的编码效率会越高。所以下面这条蓝色线，它实际整个效率，就是你的码率越高效率越高，比如说现在给你2兆的带宽，同样的质量的东西你会占的带宽为什么低，所以效率越来越高，这是一个非常好的想法。这件事，背景建模怎么做出来的？这是非常直观的一张图，当给你一个视频，你要看这个食品区编还是非常复杂的，通过一个映射变化另外一个空间上，你会发现横的几乎都是一样的，只是有人、有车动的地方稍微有点点变化，我们根据这个变化建出来一个背景模，用它来提高编码效率，如果从技术的角度来看，我们有一些对象，我可以把这个对象建模，把原来没有和有的做插分，最后就找到一个非常干净的背景，上面全都是一些非背景的东西，根据这些东西我就知道哪些新进来的，哪些是新的，通过就使编码的效率变成非常高，这也包括各种各样不同的天气条件、时间、雾天、雨天都可以进行相应的建模，模型通过参数的变化覆盖住，就是有很容易把对象检测出来了，检测出来我们后面的分析就会非常有帮助。而且模型可以不停的进行更新。这个标准昨天已经出版了。当然这个版本，一个版本完了，后面还有各个部门在按部就班的做，这个标准比现有的同类标准编码效率提高一倍。这是关于存不下。
　　
　　再来看找不快，到现在为止分析和编码是分开做的，分开来做因为是完全两个不同的体系，如果你从技术上来讲无可厚非，但是分开来做有一个最大的问题，在编码的时候不能分析，在分析的时候就不能编码，一般是先编码从采集端送回到局端以后进行分析，分析再把它解开进行分析，这样就把自己的宝贵时间丢掉了。这还不是最重要的问题，你为了追求编码效率可能会损失到你的识别率，我们举一个例子：当然IEEE1857可以很好的解决这个问题，比如说红框是感兴趣的，检测出来立刻在描述文本里面这个描述出来，在后面就可以启动，包括对象的检测、对象的跟踪、行为的分析、行为的跟踪，一个完整的环就可以流出来，而且可以包括GPS的信息都含进去。对象检测出来，人脸怎么办，实际上现在有技术可以把这个找得到。
　　
　　具体的做法，左边有一个录像，有人在那儿走来走去，这一段视频里面到底哪一张人脸最好，我不知道现在是不知道，现在是计算机来干这件事，我们可以一个模型，模型里面有6个主要的参数，通过这6个参数就包括，我看它的分辨率、亮度、姿态、清晰度、噪声水平、灰度级，把这6个参数综合起来就可以找到一个最清晰的人脸图象。当然同样的想法可以检测车、检测人等等。
　　
　　为了做这件事，今年要组织一个全国的研究生智慧城市比赛，现在正在组织，由教育部学位研究中心、智慧城市产业联盟、中国科协等等，秘书处现在设在北航，现在已经有一些具体方案。
　　
　　最后
　　
　　作为结束语，大数据本身这件事，不管你是否同意它已经来的，而且在大数据图象和视频的数据量又特别大，在图象和视频里面怎么使存得下和找得快，这是两个非常大的技术挑战，我们应该在这两个技术挑战方面努力下一些功夫，使得大数据不要对它没有办法，能够有办法去处理它，把它作为智慧城市大数据的一个最好的应用场景来进行对待，也希望过几年这个会上有更好类似的成果展示给大家。谢谢！责任编辑：余芯
　　
　　更多内容请关注机房360，www.jifang360.com，中国绿色数据中心

[1] [2] [3]

JIFANG360.com - 机房360

多媒体大数据的技术趋势与应用前景