机房360首页
当前位置:首页 » 大数据 » 崔建业:从大数据中感知食品安全

崔建业:从大数据中感知食品安全

来源:机房360 作者:yuxin编辑 更新时间:2013/12/13 16:41:58

摘要:日前,中国存储峰会在北京悠唐皇冠假日酒店成功举办。分论坛作为中国存储峰会的经典环节,再次引来现场嘉宾的热烈参与。此次的大会分论坛包括:软件定义与数据中心论坛、云存储与数据保护论坛、大数据与行业应用论坛、2013中国闪存高峰论坛。其中大数据论坛作为当下的热点话题,加之其接地气的行业应用分享,现场气氛再次引爆。

  右边这个图是我们整个爬取大致的流程图,首先是信息搜集和整理我们设置我们总的URL,通过通用爬虫对网页爬取和保存,爬取过程当中我们分析每一个网站分析导航,以及信息更新范围等等做一个分析,在这个范围之内我们进行一个比较频繁,时间间隔比较小的页面爬取保证信息的时效性。爬取以后我们对信息进行整理分析建立我们一个信息爬取的模型,把这个页面按照导航页,主题相关主题不相关建立一系列的模型,记录时间变化同时建一些主题相关模型,主题不相关模型等等。建立模型做一个互联网的爬取,我们时间预测的模型时间预测值对导航页面和子栏目进行爬取,爬取之后根据我们前面主题模型进行主题相关和不相关的判断,这个判断完基础上进行后续处理。

  同样跟我们模型不是一成不变的,需要实时更新,需要实时根据结果调整的过程,爬取过程当中根据新爬取到的网页信息定期进行样本集合模型更新,更新以后再继续爬取,爬取之后再调整精确度提高这样的功能。我们存储资源、信息资源都有了我们信息也爬到了,现在就是说垃圾信息的过滤,大家上网发现网上信息真的不一定都很能,从有效信息发觉33%有用信息就不错了。我们做食品安全事件的时候发现从100个信息发现10%的来我觉得很高,很多互联网评论信息很多是无用的。特别高赞誉,特别低贬低这些我们都要过滤出去,留下剩下信息我们再进行一个分类过程,整个垃圾过滤过程我们基于从正例和无标注数据中学习方法的欺骗性的垃圾实施系统。

  首先我们进行欺骗性和垃圾意见的收集确认,我们根据这些年积累整理出来,针对哪些事件频发,哪些是垃圾信息,根据这些信息建立我们一个模型,根据我们底层模型检测,分别出哪些是垃圾信息,哪些不是垃圾信息,同样这个模型也是在不断的优化,不断补充的过程,需要我们根据实时爬取过程优化,优化根据新的模型再去检测新的信息,这个提高我们垃圾信息检测一个过滤。

  下面关于我们事件预警的技术,我们信息拿过来了也进行了好的分类,同时进行了一个垃圾信息过滤,我们怎么利用这些有用的信息给用户提供更有价值的信息出来,这块我们用到信息预警技术,我们信息处理过程当中识别可能演变成安全事件的信息,基于发现已识别的信息,确定可能发现事件,可能出现大面积的流传,这样的信息及时给用户进行预警推送。右侧是整个流程图,关键步骤我简单介绍,首先根据我们发现预警事件,因它属性建立预警的本体,通过本体对我们信息处理,分析是不是我们预警事件,然后对这个事件进行预警评估,判断出来是不是发生预警的信息,确定出来以后将这个信息提供实时的结果展示。这个本体是不断的优化过程,在预警当中优化不断的各项参数和指数,用新模型分类调整监测这些监控到的信息。

  下面我对我们云平台功能进行一个大致的展示,我们应用部署,我们部署我们中科院下属12个分中心当中,这样可以快速处理PB级的任务,可以通过我们科技网优势快速达到信息同步传输。这块是我们整个云平台的一个展示首页的抓图,这块可能看不太清楚,这块有一些定时整理我们的热词,以热词的范围内进行可视化的展示,我们对今日当天发生互联网报道的一些热点事件进行向用户直观展示过程。我们会第一时间向用户展示很快大概在一个小时会发现它,向用户展示,根据爬取到的信息提炼出这些食品安全事件的热词信息,让观众一目了然,这些关键词发现你要及时关注,根据哪些词最近关注特别大可能要重点关注它。

  这块是动态跟踪事件发展趋势的结果展示,我们在地图范围内,哪些省范围内根据颜色值,标注,根据你区域我们重点关注哪个食品安全会发生问题或者已经出现问题了。

  下一个我们根据风险评估模型可以确定食品安全风险指数的等级,我们通过这块一个直观的展示,用户不需要知道技术信息,我们一颗星两颗星分级热词,这些分析结果他们觉得有必要知道可以通过邮件等等方式推送。还要给他展示一些他想要看的信息,食品发展趋势是怎么样,信息来源,哪个网站重点报道比较多,这个用户需要直观可视化的展示过程。

  另外这块是模板定制化的,根据食品安全监管行业他们定期出一些食品安全方面的报告,或者白皮书之类,这块根据他们需求整理出他们需要的数据,为他们报告提供一个基础的数据支持,并且帮他们自动生成这些报告他们只要下载就可以。

  小结一下我们整个的云平台它到目前为止实现了整个食品安全行业里面实时并且准确的监控,我们研发过程当中形成了我们识别体系,识别词库,我们可以很高程度识别出这些食品安全事件,另外我们通过实时监控以及专业词库实现我们互联网信息广泛过去,实现了不留死角的监控范围。我们服务于亚运会、奥运会等。这个是我们食品安全的邮箱,大家可以通过这个邮箱联系到我。食品安全监管目前是很热的话题,我们希望通过我们目前专业的技术跟大家相应行业内的应用进行更广泛的结合,这样才能提高我们精度,也是为服务大众提供一个有效的手段,谢谢大家!

  责任编辑:余芯

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/20131213/n683054887.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片