崔建业：从大数据中感知食品安全_机房360

摘要：日前，中国存储峰会在北京悠唐皇冠假日酒店成功举办。分论坛作为中国存储峰会的经典环节，再次引来现场嘉宾的热烈参与。此次的大会分论坛包括：软件定义与数据中心论坛、云存储与数据保护论坛、大数据与行业应用论坛、2013中国闪存高峰论坛。其中大数据论坛作为当下的热点话题，加之其接地气的行业应用分享，现场气氛再次引爆。

　　通过我们分析发现互联网食品安全事件出现的时候会有以下几个特征。首先是突发性，食品安全事件发展之后会迅速发展，短时间形成集群爆发，食品安全需要分布在地理位置。第三信息有海量信息数的特点。涌现海量信息数据的量这个增量过程是几何爆炸式的增长。还有动态性，食品安全事件发生会带来很多次生衍生的后果。三聚氰氨事件发生以后影响到了牛奶业和保健业。整个过程形成了虚拟社会，虚拟社会这些信息构成整个公共数据源规模在日益扩大。这个基础上我们只要通过有效的办法将互联网的信息进行有效采集、监控以及分析就能够为我们所要服务的行业提供这个最基础的数据支撑，以及为以后的预警方案和食品检测方案提供一个巨大的数据支持。

　　现在互联网的数据很多，我们怎么样有效的获取过来，比较老的客户技术不先进采用人工搜集方式，但是现在不可行了，互联网站那么多，日益在增长，人工搜集也很有问题。人工搜集数据提供不了可视化的收集，人工收集不能获取很全面的信息，也可能搜集信息不是你想要的，人工监测互联网的时代已经过去了，我们要提供可靠高效的手段。世界范围内以及中国范围内都有一些探索。欧洲委员会联合研发中心就是基于互联网信息快速采集技术进行及时的食品安全的预警。通过信息技术采集分析和处理海量数据互联网相关数据情报基于这些信息建立庞大的数据库，借助有效人工智能发觉算法，从链接关系找到恐怖的情报。像有一些公司通过热点发现追踪，敏感信息监控这些功能，实现对敏感信息和热点领域的监控。我们这些年一直探索怎么样从互联网信息实现食品安全事件预警互联网数据分析和采集系统。

　　正是基于以上原因这是我们做这个研究的根本，为什么做这些东西?就是为了解决相应人工监控的困难，以及怎么样全方位有效时事监控食品安全信息，我们研究食品安全信息监控云平台，给食品安全系统提供一个技术服务。

　　下面介绍我们整个云平台核心组织架构?分为四个层次。基于底层硬件环境，构建了一个分布式的基础设施，这个基础之上构建分布式的计算框架层，提供信息处理层以及最上层用户服务层，这是我们整个系统架构的结构层，通过我们服务器，盘阵，接触网络构成我们网络，为上层云计算分布系统，分存储系统提供一个环境。我们通过分布式的处理技术实时框架构成了我们分布式的计算框架。

　　再以上的计算框架、存储网络环境基础之上完成我们数据处理，垃圾处理、最后为用户信息展示，预警等服务。我们通过这些年积累总结了一下我们有几类，新闻网络，包括各大门户网站，Web2.0来临，用户参与的微博等信息量很大，这个也是我们监控范围之内，随着微博技术发展用户量增加我们现在微博信息出现一个海量增长趋势，这个过程我们就目前探索阶段把新浪微博纳入了我们监控的范围。另外考虑到一个关联性我们现在对中文、也对英文信息和繁体中文信息进行探索配置，这个过程当中纳入基本的范围。

　　分布式云存储方案，通过我们全局文件系统组合起来协同协作，在虚拟化基础上实现统一的资源池，用户可以自助使用软件，支持应用在线存储和访问，右侧是我们整个云存储系统的结构图，这块主要通过我们底层各个分路径的存储集群，这个基础上我们开发相应存储服务的接口，为上层云存储系统以及云存储平台提供一个基础架构的支撑。

　　它主要有几个特点：全局唯一利用空间，这块使我们云存储设备对使用者透明，他不关心底层是什么，他使用就可以，因为是云平台，使用者不用担心存储设备在哪，我们给他一个授权他就可以在互联网使用。

　　再有一个全局元数据管理，通过层次结构和多备份形式保证我们原数据安全可靠。

　　还有我们基于策略的数据管理，数据物理存储、备份、缓存过程当中可以通过基于策略的数据管理实现高效可靠的管理。

　　还有全局文件调度，对状态监控以及在此基础上访问调度策略，当各别分中心网络出现异常的时候，用户可以通过其他中心继续访问和维护这些数据。

　　异构存储设备的兼容，这么多分中心他们设备不是单一形式，我们需要以云存储系统兼容各种不同的设备，NAS、SAN、DNS等等，这是我们整个云存储底层物理环境。

　　这是我们云计算的系统，我们数据中心的资源整合形成通过互联网访问和使用共享的资源池，以服务方式供大量用户按需可计量使用，通过我们计算机、控制节点，我们以这些硬件为基础，通过我们上层计算模块，网络模块，运维、复制模块形成大的云计算系统。它的特点有以下五个。

　　一、全局透明管理，可以为用户屏蔽不同计算资源差异，用户使用就可以。

　　二、按需分配，用户可以根据需要自主选择所需要的资源，并且不需要可以及时的退还还供其他客户使用。

　　三、弹性扩展。整个云平台跟传统的PC机，分给它单纯的物理机不一样，他计算需求比较大我可以调整分配CPU，考虑到不同应用不同层次的需求我们实现了物理主机和虚拟机分开管理。

　　四、资源分配部署和管理自动化。

　　下面我们介绍一下分布式的计算框架，这个细节大家都了解了，不介绍了，我们基于三大开源构架。Hadoop主要是应用于网页信息的爬取，而其他的对计算实时性要求较高的作业比如摘要提取等则通过storm实现，处理的结果比如网页正文内容、相关元数据主要保存在mongodb中，各系统之间通过统一的作业调度中心负责协调。

　　现在计算资源有了，信息源有了，我们下一个比较重要的技术就是信息爬取技术，我信息爬取技术指我说的信息监控过程，这个过程主要对信息有两点需求，主题相关性和时效性。我不可能把任何信息拿过来，拿过来信息我也不可能不做处理，我找出我所需要的信息，我不可能把什么时候的信息拿出来对信息时效性要求也比较高，赶在食品安全事件爆发之前，或者刚爆发之后就要及时的发现。

[1] [2] [3]

JIFANG360.com - 机房360

崔建业：从大数据中感知食品安全