大数据应用（下）：应用驱动技术，DaaS创造价值_机房360

摘要：2013中国大数据技术大会大数据应用主题论坛中，既有来自搜狐、360、小米、阿里等互联网企业的大数据技术实践，也有传统企业海尔在大数据方面的探索，提供数据分享服务的数据堂也分享了科研数据应用和共享方面的实践经验。

　　搜狐移动：构建移动场景下的个性化推荐引擎

　　来自搜狐移动研发部的负责人蔡明军带来了“构建移动场景下的个性化推荐引擎”的分享，介绍了大数据场景下，移动端个性化内容推荐的基本情况。

　　内容推荐引擎主要是为了在爆发信息过程当中，建立一个信息的路由，让合适的资讯在合适的时间，以合适的方式正确地传递给用户。个性化内容推荐的原理是：

　　对词的统计和分析来理解内容，即内容建模;

　　对用户行为的分析来理解意图，即用户建模;

　　利用推荐算法，让合适的内容遇见合适的用户。

　　基于移动端的资讯获取，搜狐提供了四套引擎做支撑：

　　热点引擎，每个人获取信息的时候，都不希望把热点忽视掉。

　　信息引擎，每个用户有自己特征信息，这样才能匹配他的个性化。

　　探索引擎，基于计算挖掘跟用户的兴趣和人际关系，把类似的事情试探性地发送给用户，挖掘用户未知的兴趣点。

　　LBS引擎，基于用户的位置和所在的场景挖掘相关信息。

　　在实战方面，蔡明军介绍了搜狐的系统框架，整个推荐引擎是后台系统。后台有实时日志流，对用户的行为进行实时关注，中间做的是实时的计算。底层会有搜狐基础的云平台，旁边有监测运维效果平台。最前端会有推荐服务的网关，我们在这个过程不断进行算法的替代，不断的进行切换，跟产品进行有效的脱离，这是详细细化的结构。这是大致的流程，第一个用户识别，然后进行用户推荐计算，最后推送出去。比如说对用户的识别，对内容的分组。

　　海尔：数据拼图演绎按需定制

　　提到大数据，大家想到的都是大型互联网公司，其实在很多传统行业也在进行大数据方面的工作，来自海尔集团电子商务有限公司CTO盛国军进行了“数据拼图演绎按需定制”的分享。

　　海尔希望发展自己的交易平台，而不是依赖苏宁、京东等别的平台，第一步要解决的问题是通过有效的手段获取用户，然后根据自己的记录比较精确的观察用户如何和我们交互。第二步要得到和用户交互的数据。有了这些数据之后，要对用户做各种各样维度行为的总结。最后要解决两个问题：一个是强关系，落实到购买行为上;另一个是弱关系，要引导分享这些信息。

　　在技术架构方面，海尔电商大数据平台借鉴了阿里的基本架构，是刊登在《程序员》杂志上的一篇文章。海尔做了一些改良，其中一个改良就是传统的业务有一些特征比较复杂，节点比较长，整个的日志或者数据元的采集没有纯互联网企业或者新兴企业那么容易。各个应用之间，通过统一的格式把这些数据发出来，专门有一个收集。数据存储起来之后，第一步解决量化的指标，第二解决实质性，第三解决个性化，第四解决自动化的问题。

　　奇虎360：Storm在实时网络攻击检测和分析的应用与改进

　　奇虎360高级软件工程师肖康的演讲题目是“Storm在实时网络攻击检测和分析的应用与改进”。肖康介绍360之所以采用Storm平台基于以下几个原因：

　　它是实时的数据平台，流式处理，数据都是在内存中，不经过磁盘。

　　Storm是一个分布式平台，可扩展性强，需求增加时，增加机器，增加并发即可。

　　分布式系统的容错性强。

　　Storm平台比较灵活的，它的计算模型是DAG，可以针对需求组合出很多流程。

　　肖康接下来介绍了在利用Storm解决业务需求的过程中，遇到的问题及解决方案，主要问题包括：storm程序资源(如内存)占用过多导致系统不稳定、流量大时storm程序出现OOM等问题、内存队列没有大小限制、worker程序异常退出后需要等超时才能重启恢复、worker间通信的组件ZMQ使用了JNI，异常时导致JVM直接退出，且无日志可查、增加JVM的stdout stderr日志等。

　　小米：HBase在小米的应用与扩展

　　小米软件开发工程师冯宏华带来了“HBase在小米的应用与扩展”的分享。小米从去年底开始用Hadoop HBase，目前有15个HBase集群，9个在线集群，2个是离线处理，4个测试集群，服务小米内部十多个不同业务，现在有几百台机器。主要服务于小米云服务、米聊消息全存储、小米推送服务、MIUI离线分析和多看离线分析。

　　冯宏华介绍了小米对Hbase的改进和扩展，以及进行中的或者计划要做的改进和扩展。目前，HBase存在许多缺陷，小米对其的改进主要在：Delete的语义改进、可控粒度跨机房备份、写吞吐性能优化、反向扫描、可配置比例/抢占式 block-cache、DeleteFamilyVersion、block-index key 优化、region内跨行原子写等方面。

　　未来计划进行的改进将涉及Compact优化、Failover优化、Master重构、多租户、全局事务 – 全局二级索引、同步跨机房备份等问题。

　　数据堂：科研数据应用和共享方面的实践

　　数据堂主要做数据共享和在海量非结构化数据方面提供服务的供应商，即DaaS。数据堂联合创始人肖永红的演讲“科研数据应用和共享方面的实践”，就数据堂如何做服务创新，如何推动科研领域大数据应用等问题进行了分享。

　　数据堂想做的事，是将数据从公开到开放，到互联的过程。某一个用户想用数据的时候，随时随地可以获取利用它，不必关心它来自于淘宝、阿里、国家电网、中国电信。目前这个目标看起来还是很遥不可及，但数据堂一直在向着这个方向努力。

　　数据堂目前主要做两块事情，第一块是推动数据共享的事，数据堂搭了数据共享的网站，大家可以在网站共享、下载数据，包括对数据的评论引用都可以在上面交流。目前网站的数据聚焦在互联网领域，数据量有135TB，用户数160万，多用于高校科研机构。

　　第二块要做的事情是科研数据的采集处理服务，包括腾讯、百度、跨国研科院，他们做产品研发的时候，会碰到海量的数据，采集处理的困难，数据堂在帮他们做这些事。提供的是基础的数据服务，包括语音数据的采集制作，给百度、腾讯、阿里，帮他们处理海量的云数据，帮他们采集方言小语种的数据，帮他们研发。

　　具体的方法是采用大众的力量，一是大家有数据可以共享上来，每个人都是大数据的生产者。腾讯、百度或某一个手机厂商需要什么数据，数据堂可以找人去采，解决他们底端数据问题。

　　阿里大数据应用平台

　　阿里巴巴数据平台架构师刘昌钰介绍了“阿里大数据应用平台”。阿里的数据平台整合了海量数据存储和云计算的能力，整个大数据平台上面，最主要的业务是传统的BI型业务，包括传统的报表，点击的分析，以及双十一的分析。而最重要的业务是生产型的业务，尤其是金融业务对数据交付和时间点，以及对数据计算准确性要求是非常高的。

阿里大数据架构

　　阿里的大数据架构，包括底层计算平台、数据应用平台、数据服务的平台，上面是数据业务。

　　刘昌钰围绕数据导入、数据开发、数据生产、数据回流、元数据中心、数据质量中心几个方面介绍了阿里的大数据应用平台。

　　责任编辑：Mary

JIFANG360.com - 机房360

大数据应用（下）：应用驱动技术，DaaS创造价值