Hadoop10大应用

最近,在Hadoop最新版本的发布会上,Cloudera COO Kirk Dunn和业内一些专家指出了Hadoop在不同领域的应用案例。这与我近些年来关注的方向相同。为此,特别总结出在线旅游、移动数据、电子商务、能源发现、能源节省、基础设施管理、图像处理、欺诈检测、IT安全和医疗保健这十个领域,这其中,几乎每个领域都有我曾采访过的创新企业。当然,我也相信,在这些企业之外,还有更多的应用空间等待挖掘。
1. 在线旅游(Online travel)。Dunn表示,目前Cloudera的Hadoop架构正在为80%左右的全球在线旅游预定服务。尽管其并没有提及这些客户的名字,但是去年的时候我曾对应用了Hadoop的一家企业Orbitz Worldwide做了采访。Orbitz CEO Barney Harford当时表示,受益于Hadoop架构,他们极为轻松地实现了诸多的数据分析工作,并在其中得出“MAC用户比Windows用户愿意支付20美元的成本来预订酒店”,这样的影响范围很广的调查结论。当然,在他看来,Hadoop本身并不能带来如此的神奇效应,但是其可以帮助发现以前从来没有发现的数据点,进而使分析和挖掘成为了可能。
2. 移动数据(Mobile data)。这是Dunn的另一项“匿名”统计,Cloudera为“70%美国智能手机”提供服务。我认为他谈论的是通过无线方式存储和处理移动数据,以及有关市场份额的数学可以帮助他们锁定客户。
3. 电子商务(E-commerce)。Dunn所谈的Cloudera第三个市场是美国超过10,000,000家网上商店。Dunn说一家大型零售商(我认为说的是eBay,作为一个主要的Hadoop用户并且成功经营着大型零售卖场来帮助数百万商人销售)在使用了Hadoop后仅90天内就增加了3%的净利润。
4. 能源发现(Energy discovery)。在Cloudera的圆桌会议上,来自行业的一位代表 Chevron 解释了为什么他们选择了Hadoop:我们采用Hadoop来对数据进行排序和整理,而这些数据全部来自从海洋深处地震时产生的数据,而其背后有可能意味着石油储量。
5. 能源节省(Energy savings)。与 Chevron目标截然相反,Opower使用Hadoop来提升电力服务,尽量为用户节省在资源方面的投入。一个代表小组注意到,某些特定功能,如精确并长期的费用预测如果没有Hadoop几乎很难完成。据了解,Opower现在管理着30TB的信息,其中包括来自5000万用户(横跨60个公共事业部)能源数据,气象与人口方面的公共及私人数据,历史信息,地理数据及其他。这些都是通过超过20个MySQL数据库和一个Hadoop集群来存储和处理的。
6. 基础设施管理(Infrastructure management)。这是一个比较常见的应用方向,实际上,随着更多的公司(Esty,我最近采访过)从服务器、交换机及其他IT设备商收集并分析数据,Hadoop更有市场。在Cloudera发布会中,NetApp代表指出他们公司收集设备日志(现在已经超过1PB的容量了),并将它们存储在Hadoop中。事实上,Esty是专门从事国产与复古商品的电子商务网站,现在已经超过110万的用户,250万的独立访问量和11亿的页面浏览量。举个例子,通过Splunk管理和分析的集群数据已经到了每天1TB的量级。Esty每晚都要在以 Elastic MapReduce Hadoop service为基础的亚马逊云计算平台上运行数十种Hadoop工作流程。根据一些详细技术报告,其运行差不多5000 Hadoop job是在2011年5月份来分析来自内部运行数据和外部活动数据如用户行为变化。
7. 图像处理(Image processing)。一家创业型企业Skybox Imaging,利用Hadoop来存储和处理高来自卫星捕捉的高分辨率图像,并尝试将这些信息及图像与地理格局的变化相对应。
8. 欺诈检测(Fraud detection)。这已经是老生常谈了,在金融服务机构和情报机构中,欺诈检测一直都是关注的重点。一家企业,Zions Bancorporation向我讲述了他们是如何利用Hadoop来存储所有数据,并对客户交易和现货异常进行判断,对可能存在欺诈行为提前预警的。
9. IT安全(IT security)。如基础设施管理一样,企业通过使用Hadoop来处理机器产生的数据,以识别恶意软件和网络攻击模式。去年,ipTrus通过使用Hadoop来指定IP地址的名誉得分(在0-1之间的得分,O等于没有防线或未知的风险),从而使其他安全产品可以判断是否接受来自这些来源的通信,IBM和HP都使用ipTrust的安全产品。
10. 医疗保健(Health care)。我认为有很多方法可使更多的医疗保健医生从Hadoop中受益。但是最常见的仍然在搜索领域。去年,我介绍的Apixio,利用Hadoop平台开发了语义分析服务,可以对病人的健康提供医生、护士、及其他相关人士的回答。Apixio试图通过对医疗记录进行先进的技术分析,与一个简单的基于云计算的搜索引擎来帮助医生迅速了解病人相关病史,挽救生命。