大数据的五大迷思:价值取决于Hadoop?

目前,大量企业拥有海量的客户信息,包括在线交易记录及社交媒体数据等。但是,成功的关键是要能够从不同渠道和来源的数据中洞察价值,而具备收集并分析这些数据能力的企业将在竞争中拥有显著优势。
但是,数据的非结构化已经成为企业的重大挑战。企业已经熟悉收集和分析结构化数据,如传统的销售年报信息。目前,许多企业都困惑于如何收集和分 析更多类型的多结构化数据,如网络日志、无线电射频识别(RFID)、传感器网络、社交网络、互联网文本和文件、互联网搜索索引、详细通话记录、医疗记 录、摄影档案、视频档案以及电子商务交易数据等。
由于这些数据的结构问题及大数据类型的复杂关联,导致无法应用现有的传统技巧进行大数据分析。这为企业带来了新的任务,需要开发一套全新方法,不仅能够处理传统数据,而且可以便捷地分析和应用这些新兴数据,而不是仅仅进行储存。
迷思一:大数据是针对数据量和数据增长量而言
这种说法并不完全正确。的确,大数据包括海量的以指数速度增长的传统业务数据,也包括web应用、传感器网络、社交网络、基因组、视频、照片等新渠道生成的各种数据。同时,大数据还很复杂,进行收集、储存、管理和分析的难度极大。
目前,两种类型的数据都在不断增长。据IDC集团出版的《2011年十大预测》报告称:“企业正被淹没在信息海洋里,却仍渴望获得更多信息,这 也为大数据分析和管理带来了巨大机遇。”该报告指出,企业的愿望终将实现。“全球数据总量(digital universe)将扩张近50%,达到约1.8 泽它字节(约合2万亿Gb)。作为参考,专家们预计1泽它字节相当于长度高达3600万年高清视频文件产生的数据量。”
迷思二:企业应淘汰并更换现有分析系统以应对大数据时代到来
错误,没有必要!建立大数据分析能力需要人才、流程和技术的完美组合。如果企业尚未发掘现有商业智能环境的价值,在启用大数据分析平台前需率先 解决该问题。当传统业务数据分析被赋予大数据的视野,才能实现大数据分析的真正价值,带来透明和全面的业务观点,从而创造出业务迅猛发展的机会。
首先,企业应制定计划,明确应用大数据分析要达成的业务目标。依据这些目标,企业应部署适用的硬件和软件以应对挑战。根据一线员工的需求部署商 业智能解决方案,帮助他们做出最佳决策。在采用正确的技术支持后,企业用户和数据科学家能够迅速收集和分析新的数据源,发掘业务需要的洞察力。
迷思三:大数据只对谷歌、Facebook和亚马逊这样的高科技公司才有意义
无论是互联网公司、财富500强、或者小型企业,都与大数据的爆炸式增长息息相关。无论所在行业或企业规模,数据分析已经成为当前重要的业务需 求。现今,在企业运营中若无法从业务数据中获得真正的洞察,是绝不可行。全球主要市场的企业正在实现新一代高级分析应用的转型,通过全新方式应用海量的传 统数据和新型数据,提供更深入、更智慧的洞察力。而且,企业的竞争优势取决于在商业环境中管理和分析所有关键数据的能力,以及帮助企业做出最佳决策的洞察 力。
迷思四:数据科学家和大数据分析是2012年的IT界时尚
大数据分析绝非一时狂热,这点毋庸置疑。正如O’Reilly Media创始人Tim O’Reilly所言:“我们正在开创迷人的数据驱动应用新世界,这是一个任由我们塑造的世界​​。”目前,数据科学家已经成为独立的职业,奋战在塑造这 个商业新世界的最前线,精通数据的专家将成为新时代中的重要成员。
数据科学家必须对数据充满好奇,拥有专心钻研的态度,积极进取并善于批判性思考。他们具有对业务流程的深刻理解,同时融合数学、统计学,以及使用Excel、SQL和分析工作台等技能。目前,市场对拥有技术能力及商业意识的专业人才需求量巨大。
迷思五:大数据的价值取决于Hadoop及同类软件的技术处理能力
没有任何单一技术能够满足所有需求。根据企业努力解决的业务问题,建立大数据分析能力需要人才、流程和各种技术的完美组合,而最关键的是释放这些数据的商业价值。这将需要复杂的分析应用,其中包括数字营销优化、欺诈侦测和预防,以及和社交网络分析等。
Hadoop在大数据技术库中拥有一定价值及重要位置。Hadoop既是框架,更是实现多结构数据过滤、转化及整合的优异平台,类似于未搭载引擎或车身的跑车底盘。采用这种架构,Hadoop可以支持迭代及实时数据探索和分析,快速发现新数据及数据的变化模式。
成功的关键
成功的关键在于能够整合企业既有传统业务数据和新型数据。通过开放访问整个企业生态系统并整合各种来源的数据,企业可以应用大数据分析对客户进行超级全面的分析,进一步改善客户服务和销售业绩。

Hadoop必将风靡2012年的六个理由

毫无疑问,Hadoop已经赢得了大量投资者和IT媒体的青睐,但却很少看到任何的实际产出。即将过去的2011是风暴来袭前的准备阶段,为很多新公司新用户建立了一个海量数据的分析平台。就连微软这样的互联网巨头都已放弃其他平台而选择Hadoop,看来Hadoop风暴来袭已指日可待。
2012年,Hadoop必将风靡世界。以下是六个具体的理由:
1.投资者看好Hadoop
目前,投资者十分看好Hadoop,并开始纷纷投资相关技术。从分布式层面上来说,Hadoop开源软件整体方案供应商Cloudera已获得7600万美元投资,分布式架构新成员MapR和Hortonworks分别融资2900万美元和5000万美元;而从栈的层面上来看,Hadoop海量数据分析平台Datameer、 Karmasphere和Hadapt已分别获得了1000万美元左右投资。大量专注这一技术的初创公司(如Zettaset、Odiago和Platfora等)更是如雨后春笋般迅速涌现。另外,投资机构Accel Partners最近还成立了一个总额为1亿美金的大型数据基金,专门用于投资基于Hadoop和其他核心大型数据技术的应用。
2.竞争孕育成功
Hadoop必将是未来的发展趋势,尤其是当涉及到集成管理等业务问题时。Hadoop也是Cloudera、MapR和Hortonworks能在赢取客户资源方面具有明显竞争优势的原因。
3.学习曲线
除了改善在分布式层面的管理和支持能力外,Cloudera、MapR和Hortonworks等公司已经开始着手提高Hadoop的易用性。同时,Karmasphere和Concurrent公司也已开始提供编写Hadoop流程和应用服务,而Datameer和IBM等公司正在努力将Hadoop普及到普通商业用户。随着越来越多的Hapdoop创业公司涌现,通过各种创新方法简化繁重的数据分析工作也将变得越来越常见。
4.用户是永远的黄金准则
懂得任何管理Hadoop集群和编写Hadoop应用是一回事,而将它有效地用于实际的分析管理却是另外一回事。在Hadoop World大会和网络博客上经常可以看到Walt Disney、Orbitz、LinkedIn、和Etsy等很多大公司通过讲述自己的亲身实践大赞Hadoop。用户口碑永远是最有效的宣传途径。这些大用户的“亲身试法”,对很多潜在用户来说是一种无形的鼓励,也能在一定程度上帮助他们认识“从何开始、去往何处”的问题。
5.无处不在的用武之地
像Oracle、MySQL和SQL Server等老牌数据库一样,虽然人们对此了解不多也不深,且容易被忽视,但它们无处不在,几乎所有人都听过。从长远来看,Hadoop也将发展到类似阶段。一旦遇到涉及大量非结构化的数据采集和处理时,Hadoop就有了用武之地。
6.内容多,功能强大
除了核心设计思想MapReduce和HDFS(Hadoop Distributed File System)外,Hadoop还包括了从类SQL查询语言HQL,到NoSQL HBase数据库,以及机器学习库Mahout等内容。Cloudera、Hortonworks和MapR都已在他们的分布式系统中加入了Hadoop项目。最近,Cloudera还成立一个名为Bigtop的项目,集成了所有Hadoop相关项目。作为一个幕后英雄,Hadoop未来必将应用于越来越多的领域,风靡全球。

基于英特尔平台的Hadoop私有云架构

基于英特尔平台的Hadoop私有云架构
提到云计算,我们通常能够与Google、微软、雅虎这样的业界大腕相联系,与中小企业无缘。而实际上,得益于诸如Hadoop这样的开源软件,广大中小企业也可以搭建自己的私有云,并相当程度的满足自身需求。这篇文章会从实践出发,谈一谈企业如何在基于英特尔的开放架构上架设Hadoop私有云系统,以及测试实施的效果到底如何。
目前系统面临的问题
从过去来看,企业系统当中存在相当数量的应用,各自承载不同类型的大计算量任务,比如分词、产品分析、新词发现等等。
而目前的系统由于是基于单机的实现的,尽管单服务器性能也足够强,但对于多任务的执行,效率实在相当低下,某物流公司仅当月的产品分析一项就花了近300个机时。
如果沿着现在的方式走下去的话,那么开发成本,维护成本,硬件投入,以及跨项目组的沟通协调成本都会持续提升;而硬件使用效率跟开发人员生产率却会下降。从这点出发,需要构造一个通用的分布式计算框架引擎作为新的基础计算架构,来满足任务需求。
系统需求
1、通用性——系统需要实现任务分发,负载平衡,错误恢复等分布式计算的基础工作,一个计算密集型的任务可以通过简易的封装,部署在系统执行,在同一时间内,系统可以执行不同类型的任务,由此达到对服务器资源的最有效利用,从这一点上来看,系统需要的是一个开放式的基础架构。
2、稳定性——系统本身的运行稳定;
3、可扩展性——主要是指Scale Out的能力,需要新的服务器资源可以简易的集成进集群,投入应用;
4、灵活性,除去通过API或者通过扩展框架来将任务部署在系统中外,也要支持利用Python等脚本语言进行轻量级的开发,来应对一些ad-hoc的任务;
5、支持对大规模数据量的处理,以及对最终结果的集中收集。
英特尔平台的Hadoop私有云解决方案
从开放行、稳定性和扩展性等多方面角度考虑,基于Intel至强处理器平台是新的系统架构的选择,整个系统建立在Intel至强5600架构平台之上,在开源的分布式计算框架Hadoop上定制开发。Hadoop是一套对Google著名MapReduce模式的实现,用最简单的话说,MapReduce就是把任务数据拆分成多块,分别在不同的服务器上进行处理,最后再把中间结果聚合起来,得到最终结果。
从应用加载来看,所有的服务器资源根据应用被划分,运行稳定可靠,如果中间因为网络或者小部分服务器本身故障,Hadoop的内部机制可以自动将任务分配到正常机器上运行,以保证所有任务最终的顺利完成。
另外,由于所有的计算任务会在单独的线程中进行,所以可以充分利用至强5600的多线程和超线程技术。此外,配合英特尔QPI总线设计,处理器间的连接带宽提升至25.6GB/s,CPU与内存的数据带宽也达到了32GB/s,经在四核的服务器上测试,由于应用本身没有对多核进行优化,因此在主程序执行时,即便是单机性能也提高了近50%。
总结
基于Hadoop的开放平台私有云架构的战略意义
1、大幅减少现有计算密集型任务的时间,大幅提高服务器利用效率;
2、使未来对计算要求更高的业务成为可能,这样的架构允许任意添加新的X86服务器就能扩充计算资源,而不会增加额外的管理和维护成本。
3. 最后,系统除了支持Java,也支持Python和Bash Shell这样轻量级的脚本语言,也使得开发人员能够利用廉价而高性能的计算平台进行业务创新。