标签 云计算 下的文章

Top5 things the cloud is not

It’s clear that the technology industry is moving from the PC era to the cloud era in several significant ways. While cloud represents a new way for IT to deliver — and end users to consume — IT applications and services, this transition also represents a significant change in how applications, services and systems are defined. The move to cloud computing is the most important technology disruption since the transition from mainframe to client-server, or even since Al Gore invented the internet. While industry veterans like Oracle’s commander in chief declared it a fad, this is a decade-long trend that is here to stay, and one that will define the next generation of IT.
The movement itself has been in play for the last decade, however there continues to be a lot of (mis)information in the marketplace about the cloud. So much so that it is difficult for organizations to figure out what is real and what is not to help them develop a successful cloud strategy, or simply learn about technologies that have been specifically designed and purpose-built to meet this dramatic shift in technology. While it’s important to know what the cloud is, it’s just as important to separate the wheat from the chaff, and for IT to understand what cloud is not.
To this end, I encourage you not to add yet another definition of the cloud to your glossary, but to truly understand the top 5 things the cloud is not.
1. Cloud is not a place. People often talk about moving to the cloud as if they were moving to another city. But the cloud is not a place. In fact, the cloud can be anywhere, in your data center or someone else’s. Organizations that believe they are moving to a strategy that leaves legacy apps and systems behind are in for a rude awakening. The single most important way for enterprise organizations to prepare themselves for the cloud is to understand that the cloud is a radically new way of delivering, consuming and adopting IT services in a far more agile, efficient, and cost-effective manner, which will spread throughout the ether and be a mix of public, private, managed or hybrid clouds. By looking holistically at the cloud, organizations can optimize its benefits for their budgets, privacy needs, geographies and overall business needs.
2. Cloud is not server virtualization. Despite what many believe, and what many will tell you, the cloud is not the same as next-gen server virtualization. It doesn’t surprise me that many believe that by virtualizing their data center they will create a private cloud. Some vendors are intentionally trying to blur that line, aiming to convince customers that their vCenter clusters somehow deliver a private cloud. On the contrary, that is a gross exaggeration of the term cloud.
If you take a look at the way Amazon has built its cloud architecture, it becomes very clear that there are some fairly stark differences between a server virtualization environment and a true cloud architecture. While Amazon starts with Xen virtualization technology, the brains of its architecture comes with a new layer of software that Amazon built in an effort to create a new control plane, a new cloud orchestration layer that can manage all the infrastructure resources (compute, storage, networking) across all of their data centers. This is at the heart of the cloud’s technology disruption. Some analysts refer to this as the “hypervisor of hypervisors,” or a “new software category of cloud system software.”
The fact of the matter is that some of the major players are doing cloud without server virtualization. Take Google for example. They have deployed a cloud architecture that is not using server virtualization, but rather a bare metal infrastructure. So while virtualization can be an important ingredient of cloud, it is not always a requirement.
3. Cloud is not an island. Depending on what you’re reading, you’ll hear a lot about public clouds versus private clouds, and it may feel as if enterprises must make a wholesale decision on which way to go. But the cloud is not an island, it is not a place where you put all of your IT services, and then lose all interconnectivity and access. The recent Amazon outages have proven this to be an important point for any organization leveraging the cloud. The right cloud strategy will be one that enables you to have a hybrid approach with the ability to easily connect private and public clouds. Even the recent move by NASA to include Amazon Web Services as part of its cloud rollout after a significant investment in the build-out of its own technology proves that the market is moving to open, interoperable multi-cloud environments.
4. Cloud is not top-down. The cloud has up-ended the traditional IT approach to delivering services. The lines of business have been leading the charge in making the decision to move to cloud computing. With specific needs to get to market quickly, functional business leaders are consuming cloud services to avoid traditional IT processes. But we don’t need surveys to clarify this movement. The reality is that with the simple swipe of a credit card and the creation of an account, end users can gain instant access to infinite pools of IT resource to help test out a new idea, get their job done or even become more agile in their daily work. This is part of why this revolution is so powerful. The Consumerization of IT is driving this new movement. Users are already there and the C-level offices are just now trying to catch up with them. Those that embrace this move sooner rather than later will learn how to use the cloud as a strategic weapon before their competitors do. So the cloud is not top down, but rather a bottoms-up phenomenon.
5. Cloud is not hype. As I started this piece, I wrote about the (mis)information that has flooded the market and slowed progression and adoption of the cloud for some organizations. I’ve spoken with people in many organizations who are still skeptical of the cloud and believe that it is something that is very far off into the future. No doubt there is a lot of noise in the market with many claiming early victory in the hearts and minds of developers, with open source momentum, or beta products. The reality is that the cloud is ready now, and Citrix has more than 100 organizations that are running clouds in production today. Companies like AutoDesk, Edmunds.com, Nokia, Chatham Financial and others, already reaping the benefits.
My words of advice to companies considering a move to the cloud – learn from others who have already built highly scalable, successful clouds that have helped them transform the way they deliver and consume IT resources.
This is just the beginning of the discussion. There are many more topics that we will continue to talk about in the coming weeks, months, years (such as, cloud is not only an infrastructure and cloud is not just for service providers). All with the goal of helping organizations and the market understand what the cloud is and what it is not.
 
http://www.wired.com/cloudline/2012/06/top-5-things-the-cloud-is-not/

思特奇:打造云服务业开放“生态圈”

云计算在电信行业中的渗透正在不断加深。随着2011年下半年三大运营商纷纷发布自己的云战略,2012年“云服务”正成为新的关注热点。而对于电信业软件开发和服务提供商思特奇公司而言,作为业内最早向“云”转型的公司之一,2012年,正是自己的云业务布局大展拳脚、全面开花的一年。通过不断的产品调整,思特奇已经不单单是一家BOSS系统提供商,而是成为了能够同时提供如车辆定位、人员定位、电子社区、掌上行业应用、融合通信以及手机支付等多种应用的ICT方案提供商。而现在,思特奇的这些业务已经走上了“云端”。
新业务中心“腾云”
不久前,记者拜访了思特奇在北京的新业务中心。思特奇新业务中心总经理刘琨介绍说,这是思特奇在2011年5月新成立的部门,由原来的数据和增值业务部门转型而来。而思特奇与云计算相关的业务,目前也由新业务部门全面负责。
思特奇新业务中心总经理刘琨
思特奇的云计算战略规划,并非一朝一夕之功。早在2009年,云计算概念在中国还初露头角,思特奇就敏锐地捕捉到了市场的变化。“公司首先感受到虚拟化应用带来的研发和测试环境的改变,意识到,向云计算转型将成为运营商们的必经之路。”刘琨说。于是,思特奇开始了自己的云计算规划,推出了独特的E3Cloud“三朵云”解决方案:从运营商、软件开发商和最终用户三个角度,对通信行业的云应用进行了分析,将其划分为业务运营云、IT支撑云和应用开发云。而贯穿上述三类云的思特奇云计算战略核心思想,就是E3Cloud:Easy(便捷)、Elastic(弹性)、Efficient(有效)。等到2010年,思特奇在电信领域的解决方案已经成熟并且能够落地部署了。
而就在云计算解决方案的规划过程中,思特奇又进一步抓住了云时代的另一个关键词:云服务。基于云模式,在技术运算之外,把更多的可扩展相关服务带给运营商和用户,不仅降低部署和维护成本,也增加了客户的可用性。在此基础上,新业务中心应运而生。
就在刚刚过去的5月,思特奇从“第一届黑龙江省现代信息服务业创新发展高层论坛暨世界电信和信息社会日研讨大会”载誉归来。在黑龙江省打造的“中国云谷”数据城项目中,思特奇作为第一批主要参与成员,将助力黑龙江搭建云计算创新产业链平台。而黑龙江政务云建设中发挥重要作用的易成云平台,就是出自思特奇之手。“易成云”是基于云模式,完整涵盖云计算三层技术架构,以互联网和移动互联网为载体,面向政府和企业信息化建设提供软件产品和运营服务的平台。在易成云平台的基础上,思特奇新业务中心联合运营商面向政府和企业用户,推出了更多的新应用:易信,专门面向企业、政府机关提供基础信息服务产品;易位,是对公司人员、车辆进行定位管理的位置云服务;易联,为企业提供节约化、平台式的统一通信服务。
除此之外,思特奇还推出了别具特色的Myyule音乐云服务:在易成云平台的基础上通过在SaaS层实现互联网原创音乐的发布和分享运营平台,可为音乐群体提供官网与客户端的定制、分享社区、铃音下载等服务并在移动互联网上进行运营和推广,打造在线数字音乐服务业务模式。“这是我们特有的产品,也是云计算魔力的特有展现。”刘琨说。
打造开放“云生态圈”
谈起思特奇未来云计算战略的长期规划,刘琨表示,思特奇在努力成为云时代领先的服务提供商之外,也一直在致力于传播自己的云计算理念,与不同产业层的企业共同合作,加速“云落地”,打造和谐、开放的 “云生态圈”。
“云时代注定不是封闭的。”刘琨说,“云服务要具有竞争力,必须争取到更多的用户,提供更丰富的服务,而这不是一个公司能够做到的。比如我们的易位,思特奇提供云服务,但是还需要和车载终端企业合作,并联合运营商进行推广。这种和谐共生的局面,将是云时代的常态。”因此,思特奇期望通过自己的云平台,吸引更多的企业进行合作,促成更多的云应用落地。与黑龙江省在“中国云谷”项目上的合作,就是思特奇在此基础上的一次努力,以期在未来能够实现在基于思特奇搭建的云运营平台上,实现众多中小企业集约化、整合化、统一化的经营之路,同时打造开放性的云联盟,营造“多赢”的产业合作格局。
按照思特奇的云计算市场规划,其将发挥自身软件产品和云平台建设与运营的优势,实现对企业、家庭、社会三大用户群的服务。

中国云计算之怪现象

【1】标准怪。虽说云计算还并未形成统一的标准,但与国外性比,国内在定义云计算时,将明显不是云计算的企业也称为云计算。在这方面,您是怎样的看法?
【2】构成怪。国外云计算是重视软件创新而减少硬件投入,国内则恰恰相反。据不完全统计,国内服务器总量 > 全球其他国家总量、中国服务器产值 > 全球其他国家总产值。您如何看待中国云计算投入的构成情况?
【3】 取名怪。国外云计算是以企业为导向的,因此就有了Amazon云、Google云、Facebook云、苹果云。而国内云计算却往往被命名为城市云、行业云……国内为什么会采用这种做法呢?这样对云计算发展有何作用?
【4】进程怪。与国外正好相反,国内公有云发展缓慢,私有云却进展迅速,部分应用开发商已经深入到企业核心业务层做深入的开发。您认为造成这种状况的原因是什么?
【5】运维怪。在国外,一个管理员通常会管理 2000~3000 台服务器,而国内则只管约 50 台服务器。从数字上看来,“中国人力成本低于美国”不应该成为主要因素,您认为这中间之所以差别那么的大的原因何在?
【6】开放怪。国外是由政府牵头进行数据开放的,而国内的数据很多情况下还是处于“孤岛”状态。要实现数据开放,应该从哪些方面进行努力?
【7】安全怪。国外有专业的审计公司来审计云安全,而国内虽然很多人也在说这种模式,但没有实实在在去做的。我们更多的是将云计算安全等同于互联网安全,并未针对云计算自身特点开发出专门的方案。对此,您有何建议?
【8】意识怪。尽管国人早已接受了银行的保险箱业务,但对在云计算平台中放入核心数据,如财务、客户关系、设计图纸等,并不放心。要解决这个问题,需要做些什么?
【9】地产怪。作为“清洁”、“环保”、“绿色”产业,IT为各地所重视,而云计算作为当前最热门的IT经济增长点,获得了大力支持,设立了不少所谓的 “云地产”。对此,各位怎么看?
【10】转化怪。云计算可以做高性能计算,但高性能计算却难以向云化发展。很多超算中心的收入,甚至都抵不过所耗的电费。对此,各位是怎样的看法?
 

虚拟化的定义

5、虚拟化是什么?
答:欺骗。被调用者对调用者的欺骗。
虚拟化就是由位于下层的软件模块,通过向上一层软件模块提供一个与它原先所期待的运行环境完全一致的接口的方法,抽象出一个虚拟的软件或硬件接口,使得上层软件可以直接运行在虚拟环境上。
6、虚拟化是云计算必须的吗?
答:不是。云计算的两条底层技术路线:分布式和虚拟化。
–分布式计算
•Hadoop
•Hadoop的核心是MapReduce和HDFS
•是计算资源的整合
•阿里巴巴
–虚拟化
•Xen/VMWare
•Server Consolidation
•是计算资源的分割
•Amazon
7、虚拟化分为服务器虚拟化、桌面虚拟化和应用虚拟化,该如何理解各种虚拟化?

云计算的定义和特征

1、云计算是什么?(参见云计算是什么)
答:云计算是一种能够通过网络以便利的、按需的方式获取计算资源(网络、服务器、存储、应用和服务)的模式;这些资源来自一个共享的、可配置的资源池,并能够快速获取和释放,提供资源的网络被称为“云” ;云模式能够提高可用性;云计算的核心思想,是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向用户按需服务。
一个由愿景驱动的对IT商业模式的探索和实现的过程。这个愿景来源于对IT资源的价值的深入认识,通过把IT资源的使用价值从商品价值里提取出来,这些使用价值将比商品本身更容易被操作,使得高度定向化和制定化的价值交付成为可能。而这些制定化的成本也随着制定化所带来的规模效应而获得补偿,相信这种模式在总体上会获得巨大的经济效应。
云计算就是一种商业模式。
2、云计算的特征是什么?
答: 硬件、软件、服务资源池 可伸缩易扩展 提供标准、可靠的服务 通过网络访问 用户自服务 按量计费
3、如何理解云计算的这些特征?
答:自来水 高速公路 租公寓和自建别墅
硬件、软件、服务形成资源池
这些资源可以动态调配、使用
服务由“云”来建立,因而不可能满足强烈的“个性需求”
服务的可靠性由“云”来保证
用户可以通过因特网使用这些服务,“云”会对用户使用的资源进行度量,按使用量收费
4、什么是云计算?
答:一切都是云。未来的应用必然会是“海量数据”,必然要求高可靠,可伸缩,实现自服务,系统易维护。所以,未来一切皆是云,但又都不是云。

云计算招聘Python工程师

[高级系统开发工程师]
要求:
1、精通Python开发,有1年以上Python系统级/平台级项目开发经验
2、熟悉C/C++,有linux系统开发经验
3、熟悉操作系统原理、体系结构
4、了解linux网络协议栈,了解linux bridge/NAT及tcp/ip协议
4、有较强的源码阅读、分析能力,能独立开发较大规模的系统
5、计算机相关专业,本科或以上学历(专科需要4年以上工作经验)
加分项:
1、参与或主导过开源项目
2、了解linux内核,熟悉linux IO架构及文件系统原理
3、了解开源虚拟化技术,如kvm/qemu/xen
4、了解常见存储系统及技术
5、参与过云计算、云存储相关项目
[Web应用开发工程师]
要求:
1、精通Python web开发,熟悉Django框架及MVC模型,略懂前端,1年以上Python相关开发经验
1、熟悉http/tcp协议,熟练使用curl/tcpdump等工具进行troubleshooting
2、了解常用web后端技术,包括nginx, memcached, redis, Rabbit-MQ等
3、熟悉SQL语言,了解MySQL数据库设计调优
4、熟悉linux基本操作
5、计算机相关专业,本科或以上学历(专科需要4年以上工作经验)
加分项:
1、懂前端开发,熟悉前端技术,如HTML/CSS/Javascript/jQuery/Ajax
2、有高负载应用或分布式系统开发经验;
3、参与或主导过开源项目
[说明]
啰哩啰唆说了这么多要求,其实只要你非常符合某一项要求,同时觉得自己非常好学,学习能力又强,就投简历吧。
另一方面,也说明SAE项目对人能力要求非常综合,如果你觉得目前所在的岗位或公司学不到什么新东西,没有什么挑战,欢迎来SAE。
相信在SAE经过一两年的锻炼,一定能成为国内云计算领域的领先人物。
以上两个职位都欢迎优秀应届毕业生或在校学生投递简历,对于实习生,技术要求均可放宽,
我们最看中的是你对互联网,对技术的热情,以及是否对互联网技术有强烈求知欲望。
工作地址:北京中关村
薪资范围:8k~20K
 

云计算是什么?泡沫?革命?

据浪潮集团对全国数十个云计算中心的调查,很多地方投巨资建成了所谓的“云”系统,资源利用效率却不足20%,云计算中心成了形象工程。
  最新发布的《中国云计算产业发展白皮书》预计,到2012年,中国云计算市场规模将达606.78亿元。十二五期间,我国云计算产业链规模可达 7500亿至1万亿人民币。诱人的发展前景,不但吸引了诸多企业杀入这个市场,甚至连很多地方政府都对云计算青睐有加,各种“云计算中心”先后在各地开花。
  一方面,是国家扶植政策不断推出,发改委投入15亿元重金扶植,云计算十二五发展规划呼之欲出;一方面,是跨国巨头加大中国市场渗透力度,国内各地政府在云计算领域跑马圈地,多个城市打出建设“世界级的云计算产业基地”。一时间,云计算炙手可热,成为新兴产业中最热门的领域。
  然而,在热闹的背后,泡沫这个“阴影”也如影随形。据浪潮集团对全国数十个云计算中心的调查,很多地方投巨资建成了所谓的“云”系统,资源利用效率却不足20%,云计算中心成了形象工程;中国工程院院士李德毅更是大声疾呼,千万不要把云计算搞成第二个房地产。多位业内人士在接受南都记者采访时都强调,发展云计算,关键是要将应用落地,要在应用创新上多下功夫,而不是拼规模、比设备,杜绝重复建设和资源浪费。
  政策推动,云计算风起云涌
  “公司的云计算项目,获得了发改委下拨的千万级扶持资金,资金前不久已经打到公司账面上了。”昨日,金蝶软件相关负责人向记者透露。记者获悉,除了金蝶,华东电脑、华胜天成、阿里巴巴、腾讯、百度等10余家知名软件公司和互联网公司的云计算项目,也同时获得了发改委下拨的数千万乃至上亿的扶持资金。
  这是国家发改委在10月份联合工信部、财政部拨出15亿元人民币,成立国家战略新兴产业云计算示范工程专项资金后,向相关企业下拨的首批专项资金。据了解,这批下拨的资金总量达6.6亿元。
  相比三部委成立的专项扶持资金,正在内部讨论的“云计算十二五发展规划(初稿)”,对云计算的扶持力度将更大更全面。一位已经看过初稿的东软集团相关负责人告诉南都记者,该规划的亮点,是鼓励相关企业进行云计算的应用服务创新,并对云计算给予财政支持。此外,该规划还明确指出,鼓励在资源、气候条件适宜的地方设立云计算资料中心,积极推动云计算落地。
  政策扶持的背后,是滚滚的商机。正是看到中国云计算市场的高速发展势头,AMD、SAP、甲骨文等跨国巨头纷纷加大了在中国云计算市场的布局力度。
  AMD全球高级副总裁、大中华区总裁邓元鋆在接受南都记者专访时指出,“中国已经成为AMD云战略的主战场。AMD11月14日在北京全球首发的 16核皓龙处理器,就是为云而生的。”SAP联席首席执行官孟鼎铭也告诉记者,中国市场正在发生快速变化,越来越多的东西放到云上面,云计算的趋势不可阻挡,云计算对于推动中国信息化的发展将起到关键作用。
  跑马圈地,地方政府角逐“云中心”
  最新发布的《中国云计算产业发展白皮书》预计,到2012年,中国云计算市场规模将达606.78亿元。十二五期间,我国云计算产业链规模可达 7500亿至1万亿人民币。诱人的发展前景,不但吸引了诸多企业杀入这个市场,甚至连很多地方政府都对云计算青睐有加,各种“云计算中心”先后在各地开花。
  重庆市率先提出了打造亚洲最大云计算基地的口号。今年4月6日,重庆“两江国际云计算中心”正式开建,两江国际云计算中心总建筑面积207万平方米,计划总投资400亿元。重庆市的目标,是打造一个产值上千亿元规模的“云计算”基地,成为全球数据开发和处理中心。
  上海、北京、深圳、广州四大一线中心城市,也加入到“云中心”的圈地战当中来。上海的目标是致力打造“亚太云计算中心”,培育十家年经营收入超亿元人民币的云计算企业,带动信息服务业新增经营收入千亿元;北京的“祥云计划”力争到2015年,形成500亿元产业规模;深圳的“鲲云计划”是希望利用云计算平台服务深圳乃至全球的企业用户,力争将深圳打造成“亚洲信息枢纽中心”;广州也正在部署实施“天云计划”,努力打造世界级的云计算产业基地……
  就连一些二三线城市,也在大踏步“造云”。日前,兰州市政府与浪潮集团达成合作协议,浪潮集团将在5年内投资20亿元,将兰州着力打造成西部地区的信息枢纽中心;河北的涿州也宣布要投资50亿元建立云计算基地;河北廊坊润泽信息港被称为目前中国规划最大的云存储数据中心,仅前期规划就是现在全球最大数据中心(位于美国芝加哥)的两倍多……
  据不完全统计,在我国,除西藏和新疆外,目前已经提出或业已制定云计算发展计划的地方政府已覆盖了其余30多个省市自治区。
  泡沫闪现,云计算成房地产第二?
  “现在各地政府一谈到创新,就必谈云计算,很多地方连云计算是什么都没有搞清楚,就规划打造大规模的云计算中心。这一方面说明在政策和应用双重推动下,云计算正在深入人心,但同时也警示云计算确实存在泡沫。”北京天地超云公司一位负责人在接受本报记者采访时担忧地指出。
  其实,对于云计算泡沫的担忧,不仅仅来自产业界。深圳某券商的研究员杨先生告诉记者,前段时间,他先后对深圳、南京、武汉等地的多个云计算基地进行了调研。“情况并不乐观,不少所谓的云计算中心,其实就是商业地产项目,科研力量根本就见不着。”海外市场的现状,也对中国云计算产业的发展亮出了警示灯。据悉,云计算应用成熟的美国,在经历了需求暴增期之后,数据中心的数量从过去1100个削减到现在的300个左右。
  对于以云计算为名行圈地之实的现象,中国工程院院士李德毅公开指责,不少地方政府虽然将云计算定义为战略性新兴产业,但依然是采用原始的征地、盖房子和招商引资,将云计算搞成第二个房地产。“云计算本身是一种绿色计算,不是比规模、比设备、比厂房,发展云计算决不能变成简单的圈钱圈地。”据悉,一个课题组已经向国务院提交了一份针对云跃进的调研报告。该报告建议,对数据中心的建设进行集中管理以避免重复建设。
  SAP全球高级副总裁芮祥麟告诉南都记者,国内外迄今为止,云计算的标准尚无定论。而一个标准都还没有明确的产业,很难做出足够的规模;长城电脑总裁周庚申也指出,云计算产业要发展,关键是要应用落地,而不是比拼概念。据周庚申介绍,长城电脑推出的云智方平台已经构建了医疗养老云、车联网平台、智慧楼宇等项目。“有了具体的应用,我们的云计算才真正落到了实处。
  旁边报道
  应用成为“云计算”推广关键点
  联想推出“乐云”抢占制高点
  云计算产业的健康发展,离不开政策推动,也离不开企业的各种创新应用。业内人士指出,云计算要在中国市场取得成功,其关键是要将应用落地,让用户真正体验到云计算带来的便利。因此,云计算的应用创新,就成为企业竞争的制高点之一。
  昨日,全球第二大PC厂商联想集团在北京正式发布了“乐云”服务,正式涉足云服务领域。联想集团董事长杨元庆指出,移动互联和云计算的快速发展,为个人电脑带来了革新机会。联想推出“乐云”解决方案,标志着联想完成了硬件、软件、云端的全面布局,正在从“个人电脑”向“个人云”实现转变。
  联想集团高级副总裁、移动互联及数字家庭业务集团总裁刘军告诉记者,个人电脑、通讯、电视等行业正朝着智能化的方向快速变革,一个融合的时代已经来临。用户未来将拥有多个智能终端,并渴求硬件、软件、云端整合的使用体验。此次联想集团推出的“乐云”,可以实现个人信息管理、互联互通、社交等三类服务,大大提升用户的消费体验。
  据刘军介绍,在个人信息管理方面,“乐云”提供200G存储空间,支持多种文件格式的存取,并提供联系人数据时时备份服务。此外,该服务还支持“自动同步”功能,可实现各类终端的同步数据更新。
  在发布“乐云”的同时,联想集团还推出了多款全新“乐终端”,包括智能手机乐PhoneS2,以及5英寸、7英寸、10英寸屏幕的平板电脑乐PadS2.此外,联想智能电视乐TV也首次亮相,并将于明年第一季度正式上市。
  阿里巴巴和百度都收到国家发给的关于云计算资金扶持,联想是否收到此政策红包?对此问题,杨元庆没有正面回答,表示会积极争取。刘军表示目前没有把云计算商业化的计划。

云计算泡沫

“现在云计算的钱最好赚。”4月18日下午,万寿路附近的一家茶馆里,王远(化名)对《财经国家周刊》记者表示。王远对外的业务身份,是某部委下属的产业推广中心副秘书长,该推广中心的主要诉求,就是帮助企业向各地政府灌输云计算和物联网观念,进而推动各地政府设立云计算中心。
  “可以做的事情很多,厂商能拿到各地政府资金帮助、办公地帮助,这只是一个方面,另外还能帮助厂商完成销售,所以厂商很需要我们。”王远说。据王远称,该产业中心的实体,其实是几个自然人合伙投资的一家商业公司,“用部委的牌子,更便于我们跟各地政府合作,而且,也便于我们从地方政府那儿拿到专项资金。”
  他所说的专项资金,包括了地方政府的调研支持费用,地方政府的服务费用,甚至于地方政府“云计算落实举措和先进经验的公关和宣传费用”,“我们正在操作的项目包括,山东某个地级市、北京某个区,另外我们还正在和天津某个局在洽谈,总体上生意不太难做。”王远对《财经国家周刊》记者表示。
  借助云计算概念圈钱圈地,已经成为大公司、小公司近两年来的共同首选。 “各取所需。”姚戴龙对记者说。作为一名创业者,2011年,姚通过在北京注册的一家壳公司,在无锡成立了这家北京公司的子公司。尽管其北京公司连地址都是虚构的,但无锡物联网基地还是给了他超过300平米的办公场所,“基本上算是免费的,而且享受税收减免政策。”姚对此颇为得意。有了正式的公司之后,姚开始四处寻找投资人,准备做基于Android的平板电脑业务。在他看来,当地政府既不关心云计算、物联网是什么,也从未想要去关心,“他们要的是政绩,引入了多少家公司最重要,至于这些公司的实力,或许没有多少人在意。”
  偏离的推动力
  “当前最大的问题,不是中国云计算业务缺乏需求和推动力,而是需求很旺盛。总体上地方政府推动云计算的初衷是良好的,但在实际的运作过程中,或多或少因为其他一些因素,导致云计算的推动力指向有所偏离。”工业和信息化部信息化推进司司长徐愈接受《财经国家周刊》记者专访,含蓄地表达了对一些地方政府推动云计算方式方法的批评。
  市场调研机构赛迪顾问,更是在一份针对云计算的报告中称,中国云计算应用“缺少统筹规划、对应用领域研究梳理不够、示范项目仓促上马、投资风险增大”。
  “发改委以中央补助经费的方式,为云计算应用发放补助金,本身就带了一个不好的头。”工信部电信研究院某高级研究员对记者说。
  2011年10月,发改委、工信部、财政部等三部委拨款15亿元,成立国家战略新兴产业云计算示范工程专项资金,并迅速对12个企业项目进行了首批8亿元资金的发放。据了解,国家战略新兴产业云计算示范工程专项资金,主要面向目标是已经公布的试点五城市范围内企业,因此获得基金支持的公司范围相对较小,而单个企业由此获益良多。
  与此类似,科技部联合财政部,也有类似资金用于推进“云计算”的发展,该类资金分散于国家863计划和火炬计划之中。
  然而,在该研究员看来,正是这样的标志性和象征意义的补贴,使得“地方政府大搞对云计算的支持,从给钱给地,最后发展到圈钱圈地,既然云计算对于企业自身,或者对于地方产业生态链,能够构成节约成本、效率增加,又何必进行大规模的资金或土地补贴?”该研究员称,当前最为复杂的,不是如何推动云计算的概念被认同,也不是对云计算业务类型缺少的担忧,而是地方政府和部分企业利用云计算的噱头,做和云计算不相关的利益攫取和再分配问题。
  “以阿里巴巴为例,这个公司旗下的阿里云,单独从国家层面获得的项目补助金大概有1.5亿元,一个商业公司在做一项从长期看对自身而言是有益的事情,使用的却是国家政府和地方政府的补助金,这无论是从名义上还是商业规则上,都不符合逻辑。”他说。
  该高级研究员表示,由工信部主导推动云计算,是必要之举,与之对应,发改委和财政部进行支持,也是必要之举。“但是否直接以补助的方式发放给企业,我个人觉得值得商榷。” 他认为,阿里云作为一家商业性公司,当政府有政策可以拿到钱,它就会积极争取,从商业公司的角度而言,是完全正当的,“但三部委在支持方式上,是否当前的方式就是最佳的,或许还应该更为慎重一些。”
  “说到底,云计算应该是企业的事情,来自政府支持有必要,但不应该是现在这样的支持方式。”上述研究员对《财经国家周刊》记者表示。
  “蘑菇云”
  随着一些地方政府认为,借助“云计算”三个字,既能获得推动地方科技产业发展的口碑,又能获得征地圈地的实际,还能在此基础之上,完成招商引资的政绩,一举多得,云基地建设的热潮立即席卷中国。
  而在此之中,地方政府与企业在云计算的发展过程中,正扮演着相互借力的角色。
  以杭州为例,该城市能够入选发改委和工信部首批五个试点城市名单,主要正是得益于阿里巴巴。同样,阿里巴巴也从杭州市地方政府的云计算产业发展规划中,获益良多。
  尽管如此,杭州发展云计算的工作,在整个中国的云计算大版图中,仍然属于较为扎实的类型。直到2011年10月,杭州云计算产业园才正式落户于塘科技经济园区。同时,虽然制订了总规模30万平米、200家云计算企业的目标,杭州云基地的首期面积仅为2万平米整个规划发展并无大踏步的跃进。
  与之相对应的,则是另外一些地方政府和机构,将政绩目标盲目押宝云计算的扩张和诉求,而这一诉求导致的现实结果,让人瞠目结舌。
  “各地云基地建立的速度越来越快,甚至有些地方不是考虑应用和业务,而是在占地面积、招商引资上盲目攀比,如果对照一个地图的话,你会发现中国几乎所有的地区都在升腾‘云’,越是后来的云越大,现在简直是满眼都是‘蘑菇云’。”北京云基地某负责人说。
  “主角似乎都转变了,一些地方似乎根本不在乎什么是云计算,而只在乎云基地有多大。”身为云计算产业兴起和发展的亲身经历者,这位人士却表示无法理解各地方政府,对云计算如此多方向、多层次的利用程度,是出于何种思维和理由。各地纷纷成立云计算产业联盟,并以此为理由大肆建设云计算产业园的情况,在2011年几乎达到失控状态。出手云基地的地方政府,甚至从省级、地市级,扩展到一些县级政府。
  “甚至一些极内地的县级政府,动辄号称数千亿推动云计算、云基地的做法,简直是可笑之极。”电信专家付亮对《财经国家周刊》记者表示。此前,内蒙多伦县宣布将建设总投资额高达近2000亿元、总量超过500万台服务器的云计算数据中心,该县政府表示该项目为多伦县和北京合作项目,基地建成后将形成888亿元产值、65亿元税收的规模。更有甚者,多伦县县长霍锦炳表示,该云产业基地能够带动新增就业2.5万人,而整个多伦县人口仅有10.5万人。
  同样铺张的还有江苏宿迁。作为1996年由县级升格为地市的宿迁,该市经济开发区面积就高达105平方公里(相对比,北京市经济技术开发区总体规划面积不过46.8平方公里)。2011年第四季度,宿迁市政府开始力推“全国云计算研发、应用及展示的综合性示范基地”建设。《财经国家周刊》记者致电宿迁经济开发区工作人员时,一位不愿意透露姓名的人士表示,对建立云计算基地一事,不太了解,并表示“这个事情是市里领导才能说的,我们不能接受采访”。
  对此,原信息产业部部长吴基传一针见血地表示,“现在不少地方连云计算的概念、作用都没搞清楚,就匆忙圈云基地,搞大规模的服务器托管,那不叫云,那叫浪费,那叫烧钱。”
  上述研究员则认为,出现地方政府一窝蜂上马云基地的主要原因,还是两个方面:第一是围绕云基地云计算的招商引资噱头,成为政绩体现的重要途径;第二就是地方政府在利用云基地概念进行圈地,进行地产商业活动,在最近两年成为比较便利的通道。
  冲动的惩罚
  《财经国家周刊》记者获悉,金融大鳄乔治?索罗斯(George Soros)正在考虑是否对其投资的一家中国基金公司提起诉讼。该基金主要运作方向为“云计算”和“云基地”,而索罗斯向该基金投资3亿美元时长达6年之后,该基金旗下企业并没有实现任何一家公司上市或成长为大中型企业。
  “中国企业的‘云计算’泡沫正在快速走向破灭。”第五媒体研究中心副秘书长赵毅对《财经国家周刊》记者表示,“各地纷纷出台的三年计划、五年计划,更多是在笼统的层面进行描述,却无一探讨过‘云计算’应具备的商业模式类型、本地云计算企业的层次区分等问题。”
  而在云计算泡沫之上,圈钱圈地,成为企业联合地方政府进行商业投机的主要手段。“云计算、‘雾’联网,成为两大忽悠经费、土地(的)工具。” 创新工场董事长兼CEO李开复说。
  尽管大家都在讲云计算,但真正研究产品以及落地的却很少,可以说是‘雷声大,雨点小’。”针对当前国内云计算产业现状,微软全球资深副总裁张亚勤表示,很多地方花费巨资建数据中心,却没有任何具体应用,多个地方政府投巨资圈地买服务器建数据中心,是新版本的房地产商业。”
  即便是在新型经济发展最为发达的北京和上海两地,云计算发展仍然形式大于内容。根据上海市政府发布的“云海计划”(即《上海推进云计算产业发展行动方案(2010-2012年)》三年行动方案),以及北京市政府发布的“祥云计划”(即《北京“祥云工程”行动计划(2010-2014)》),对于培育的企业实力、产业规模和产业链规模,虽然给出了具体的金额目标,但具体如何界定、如何评估,到目前甚至没有一套完整的可衡量标准。
  “在设计阶段轮胎定位就不准的汽车,行进过程中不仅没有意识去纠正方向,甚至再度故意跑偏,这样的汽车怎么可能开到预定的地点?”第一云网CEO王继磊对《财经国家周刊》表示。
  《财经国家周刊》从相关部委获悉,政府已经在内部讨论云计算泡沫给ICT产业带来的风险,并正在加紧研究如何从政策层面加以控制。“但更重要的问题是,在现有的云计算泡沫之上,地方政府仍然在大力推升泡沫程度,这使得来自主管部委的垂直指导,显得力不从心。”该部委相关领导对记者表示。

大数据处理三大瓶颈:大容量、多格式和速度

导读:Yahoo CTO Raymie Stata是领导海量数据分析引擎的关键人物。IBM和Hadoop将更多的精力专注在海量数据上,海量数据正在潜移默化的改变企业和IT部门。
 
越来越多的大企业的数据集以及创建需要的一切技术,包括存储、网络、分析、归档和检索等,这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给IT部门带来了一系列必须解决的问题。
信息技术研究和分析的公司Gartner认为海量数据处理应该是将大量的不同种类以及结构化和非结构化的数据通过网络汇集到处理器和存储设备之中,并伴随着将这些数据转换为企业的商业报告。
海量数据处理的三个主要因素:大容量数据、多格式数据和速度
大容量数据(TB级、PB级甚至EB级):人们和机器制造的越来越多的业务数据对IT系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成为难点。
多格式数据:海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,再到仪器收集到的科学研究数据、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等)。
速度:速度是指数据从端点移动到处理器和存储的速度。
 
Kusnetzky集团的分析师Dan Kusnetzky在其博客表示“简单的说,大数据是指允许组织创建、操作和管理的庞大的数据集和存储设施工具”。这是否意味着将来将会出现比TB和PB更大的数据集吗?供应商给出的回应是“会出现”。
他们也许会说“你需要我们的产品来管理和组织利用大规模的数据,只是想想繁杂大量的维护动态数据集带来的麻烦就使人们头疼“。此外海量数据的另外一个价值是它可以帮助企业在适当的时机作出正确决策。
 
从历史上看,数据分析软件面对当今的海量数据已显得力不从心,这种局面正在悄然转变。新的海量数据分析引擎已经出现。如Apache的Hadoop、LexisNexis的HPCC系统和1010data(托管、海量数据分析的平台供应商)的以云计算为基础的分析服务。
101data的高级副总裁Tim Negris表示海量数据的收集以及存放和利用海量数据实际上完全是两回事。在做任何事前需要大量(准备数据)的工作是像Oracle和大多数数据库厂商所面临的难题之一。我们正是要消除这个难题,并把数据直接交到分析师的手中。Hadoop和HPCC系统做到了这一点。这三个平台都着眼于海量数据并提供支持。
开源的Hadoop已经在过去5年之中证明了自己是市场中最成功的数据处理平台。目前Cloudera的首席执行官和Apache基金会的Doug Cutting是Hadoop的创始人,他曾在Yahoo工作过。
Hadoop将海量数据分解成较小的更易访问的批量数据并分发到多台服务器来分析(敏捷是一个重要的属性,就像你更容易消化被切成小块的食物)Hadoop再处理查询。
“Gartner和IDC的分析师认为海量数据的处理速度和处理各种数据的能力都是Hadoop吸引人们的地方”。Cloudera的产品副总裁Charles Zedlewski说到。
在Cutting和他的Yahoo团队提出Hadoop项目之后,在Yahoo IT系统测试并广泛使用了很多年。随后他们将Hadoop发布到开源社区,这使得Hadoop逐渐产品化。
在Cutting和Yahoo在开发、测试并内部运行代码时,他们了解到使用起来还是很复杂的。这导致他们马上意识到如果在未来提供周边服务(例如提供直观的用户界面、定制部署和附加功能软件)可赚取更多的资金。
 
在2009年Cloudera作为一家独立公司开始运营,公司产品采用开源并产品化Hadoop分析引擎和Cloudera企业版(Cloudera Enterprise整合了更多的工具,包括Hive、HBase、Sqoop、Oozie、Flume、Avro、Zookeeper、Pig和Cloudera Desktop)。
Cloudera得到了大量投资者的青睐,这其中包括VMware的创始人和前首席执行官Diane Greene、Flickr的联合创始人Caterina Fake、MySQL前首席执行官Marten Mickos、Linkedln总裁Jeff Weiner和Facebook CFO Gideon Yu。
自从Cloudera成立以来,只有少数的顶级公司和初创公司免费提供他们基于Hadoop开放源代码架构制作的自己的版本。
这是一场真正的企业科技的竞争。就像在一场接力赛中,所有选手都必须使用同一种类型的接力棒(Hadoop的代码)。企业竞争主要集中在处理数据的速度、敏捷性和创造性上。这场竞争是迫使大多数企业在海量数据分析市场有所作为最有效的方法。
IBM提供了基于Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights 是用于分析和虚拟化海量数据的软件和服务,这款新产品由 Apache Hadoop 提供技术支持。)基本版和企业版。但公司有更大的计划。
IBM CEO Sam Palmisano表示IBM正在将新一代数据分析作为公司的研发重点,IBM在此项目上投资了1亿美元。IBM院士和计算机科学研究室主任Laura Haas表示IBM实验室的研究远远超出了海量数据的范围,并已经着手”Exadata“分析研究。Watson就是IBM在数据海量数据研究的成果,Watson将用于更多用途,包括卫生保健、科学研究等。
其他Hadoop版本
MapR发布了一个分布式文件系统和MapReduce引擎,MapR还与存储和安全的领导厂商EMC合作向客户提供了Greenplum HD企业版Hadoop存储组件 。EMC Hadoop的另一个独特之处在于它没有采用官方版本的Apache代码,而是采用Facebook的Hadoop代码,后者在可扩展性和多站点部署上进行了优化。
另一家厂商 Platform Computing,Platform提供了与Apache Hadoop MapReduce编程模型完全兼容的分布式分析平台,并支持多种分布式文件系统。
 
SGI(Silicon Graphics International )提供基于SGI Rackable和CloudRack服务器产品实施服务的Hadoop优化解决方案。
戴尔也开始出售预装该开源数据处理平台的服务器。 该产品成本随支持选项不同而异,基础配置价格在11.8万美元至12.4万美元之间,包含为期一年的Cloudera支持和更新,6个PowerEdge C2100服务器(2个管理节点,1个边缘节点和3个从站节点,以及6个戴尔PowerConnect 6248交换机)。
替代品浮出水面。包括1010data的云服务、LexusNexis公司的Risk,该系统在10年间帮助LexusNexis公司分析大量的客户数据,并在金融业和其他重要的行业中应用。LexusNexis最近还宣布要在开源社区分享其核心技术以替代Hadoop。LexisNexis公司发布一款开源的数据处理方案,该技术被称为HPCC系统。
HPCC可以管理、排序并可在几秒钟内分上亿条记录。HPCC提供两种数据处理和服务的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。Escalante表示如此命名是因为其能像Thor(北欧神话中司雷、战争及农业的神)一样解决困难的问题,Thor主要用来分析和索引大量的Hadoop数据。而Roxy则更像一个传统的关系型数据库或数据仓库,甚至还可以处理Web前端的服务。
LexisNexis CEO James Peck表示我们认为在当下这样的举动是对的,同时我们相信HPCC系统会将海量数据处理提升到更高高度。
 
在2011年6月Yahoo和硅谷风险投资公司Benchmark Capital周二联合宣布,他们将联合成立一家名为Hortonworks的新公司,接管被广泛应用的数据分析软件Hadoop的开发工作。
据一些前Yahoo员工透露,从商业角度来看Hortonworks将保持独立运营,并发展其自身的商业版。
在转型时期,Yahoo CTO Raymie Stata成为关键人物,他将负责公司所有IT项目的发展。Stata表示相对于Yahoo,在Hortonworks我们会投入更多的精力在Hadoop的工作和相关技术上,我们认为应加大对Hadoop的投资。我们会将一些关键人员指派到Hortonworks公司,但这既不是裁员也不是分拆。这是在加大对Hadoop的投入。Yahoo将继续为Hadoop的发展做出更大的贡献。
Stata解释说,Yahoo一直有一个梦想,就是将Hadoop变为大数据分析软件的行业标准。但是这必须将Hadoop商业化。Stata表示创建Hortonworks的主要原因是因为Yahoo已经看到了未来企业分析(感谢Hadoop 6年以来的发展)的未来,并知道该怎样去做。我们看到海量数据分析将很快成为企业非常普遍的需求。
我们将Hadoop部署在企业之中,我不认为所有人都否定这样的解决方案。我们要通过Hadoop为我们的股东创造价值。如果某一天Hadoop成为海量数据处理的行业标准,这将是对我们最好的奖赏。

Hadoop是分布式计算的未来

Hadoop为何物?
虽说Hadoop的名声很大,但是总还是有同学不太了解的,这里一笔带过一下。
Google分布式计算三驾马车:
Hadoop的创始源头在于当年Google发布的3篇文章,被称为Google的分布式计算三驾马车(Google还有很多很牛的文章,但是在分布式计算方面,应该这三篇的影响力最大了):,链接的文章比我介绍得更清晰,当然最好还是看看原文了,这是做分布式系统、分布式计算的工程师必修课。
Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。但是在其中解决了容错性的问题。
BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。
Google就靠着这几样技术,在搜索引擎和广告方面取得了举世瞩目的成就。不过Google不是傻的,这三篇文章虽然都是干货,但是不是直接就可以用的。话说Google发表了这三篇文章后,在学术界引起了轩然大波,大家对这三样东西提起了浓厚的兴趣,都想着是不是可以实现一下,以为己用。
Doug Cutting:
Doug Cutting之前是一个非常有名的开源社区的人,创造了nutch与lucene(现在都是在Apache基金会下面的),nutch之前就实现了一个分布式的爬虫抓取系统。等Google的三驾马车发布后,Doug Cutting一看,挖靠这么厉害的技术,于是就实现了一个DFS(distributed file system)与Map-Reduce(大牛风范啊),集成进了Nutch,作为Nutch的一个子项目存在。那时,是2004年左右。
在互联网这个领域一直有这样的说法:
“如果老二无法战胜老大,那么就把老大赖以生存的东西开源吧”
当年与Google还是处在强烈竞争关系的Yahoo!于是招了Doug兄进来,把老大赖以生存的DFS与Map-Reduce开源了。开始了Hadoop的童年时期。差不多在2008年的时候,Hadoop才算逐渐成熟。
现在的Hadoop:
现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长长的用户名单中,可以看到Facebook,可以看到Linkedin,可以看到Amazon,可以看到EMC, eBay,Tweeter,IBM, Microsoft, Apple, HP…(后面的一些未必是完全使用)。国内的公司有淘宝、百度等等。
我来定义一下Hadoop:
Hadoop是一套开源的、基础是Java的、目前能够让数千台普通、廉价的服务器组成一个稳定的、强大的集群,使其能够对pb级别的大数据进行存储、计算。已经具有了强大稳定的生态系统,也具有很多使用的延伸产品。比如做查询的Pig, 做分布式命名服务的ZooKeeper, 做数据库的Hive等等。
为什么世界上只有一个Hadoop?
我的前公司是国内某一个著名互联网公司的子公司,专注做云计算,我也在这个公司最兴盛的时候进入,当时宣传的口号是“做最好的云计算”,就是希望自己开发一套存储计算系统(就是类似于前面提到过的dfs与map-reduce),并且克服一些Hadoop的缺点(比如说用c++去实现,克服Java的一些性能问题)。后来结局可能大家也猜到了,投入了很多钱,招了不少牛人,确实也做出了还算不错的云计算(至少在国内是数一数二的)。但是最终不管从稳定性还是效率上还是scalable来说,都远远被Hadoop甩在了后面。虽然我前公司这个云计算项目是否会成功,这里没办法预测,但是前途终究还是比较黯淡的。
最近一年还听说国内不少的互联网巨头都成立了云计算部门,做“自己的”云计算,有些小得像创业时期一样的公司,都宁愿自己写一套map-reduce框架,不愿意直接使用Hadoop。可能这个跟国人的想法,武功秘笈一定要自己藏着,不让别人学,传男不传女。对别人白给你的东西,非常不放心,觉得大家都能学到的东西,肯定竞争力是不够的。
除开心态问题不谈,但从技术实力上来说,一般国内公司的核心开发团队的能力和当年的Yahoo!比,还是有非常大的差距的,至少像是Doug兄这样的大牛是很罕见的,从开发者的实力来说,就差了不止一个档次。
其次从积累来说,Hadoop从初创到现在也经过了至少7年的积累的,碰到过很多刁钻客户的问题都慢慢克服了(比如Facebook的超大数据存储),带给用户的经验教训是很充足的,比如说性能调优这一块,就有非常多的文章去介绍。而自己开发一个,什么都需要从头再来。
最后也是最重要的是,Hadoop形成了一个强大稳定的生态系统,里面有生产者(共享改进的代码、fix bug),也有消费者(使用项目并且反馈经验),Hadoop的用户也可以获得较大的经济利益(不花钱买软件,还可以增加效率)。对于一个开源社区来说,构建出一个完整的生态系统是非常非常的困难,一旦构造出来了,项目就会很稳定的往前去进步。
Hadoop的优势
之前分析了一些“虚”的东西,比如生态系统什么的,这里说说一些实际的东西。
Benchmark:
Hadoop现在保持了很多漂亮的记录:
存储:现在世界上最大的Hadoop集群目前在Facebook,可以存储30PB的数据
计算:Hadoop是目前Terasort记录的保持者(参见:http://sortbenchmark.org/),Terasort是给出1TB的随机数据,看谁能够在最短的时间内完成排序,Hadoop使用了1400多个节点,在2分钟内完成1T的数据排序。
这里顺便说一下,之前给出网站里面有很多的benchmark,可以看到Hadoop的集群是最大的,使用的机器最多的,像是TritonSort这样的集群,使用了区区50多个节点,最终的结果并不比Hadoop差太多,但是这里得注意一下。TritonSort是专门用来做排序的,里面加入了相当多的优化,但是Hadoop是一个通用的集群,并没有为了一种任务进行如此多的优化。从用户的角度上来说,愿意花钱去买一个只会排序的电脑是意义不那么大的。
注:左右两边属于两种不同的terasort,hadoop是其中一种的记录保持者
能做什么?
前面说的基本的存储和计算Hadoop是一定能胜任的,下面谈谈一些“高级”的功能。
常见的数据库操作,比如orderby、select这样的操作都可以的,Hive就是支持这样的Sql模型,能够将Sql语句最终转化到Map-Reduce程序中去。其性能和可用性已经得到了证明,Facebook就用它做了不少的数据分析的工作
常见的机器学习、矩阵分析算法,目前Mahout作为一个发展迅速的项目,在逐渐填补Hadoop在机器学习领域的空白,现在常见的分类、聚类、推荐、主成分分析算法(比如SVD)都已经有相应的Map-Reduce实现了。虽然目前从用户群和效率上来说是不够的,但是从它的发展来说应该会很快的达到工业界的标准
Hadoop的劣势
现在Hadoop依然有很多的问题没有解决,这让有些人非常的怀疑Hadoop的未来,这里谈谈Hadoop的一些重要的劣势
HA(High Availability)高可用性:
这一点是Hadoop非常弱的一个缺点,不管是Hdfs还是Map-reduce,都是采用单master的方式,集群中的其他机器都是与一台中心机器进行通信,如果这个中心机器挂了,集群就只有不工作了(不一定数据会丢失,但是至少需要重启等等工作),让可用性变得更低。这个一般叫做单点失败(single point of failure,SPOF)。
虽然现在有些公司已经给出了解决方案,比如EMC就有用Vmware搭建虚拟集群,对master节点进行镜像备份,如果master挂掉,那么立刻换上镜像备份的机器,使其可用性变高,不过这个终究不是一个内置的解决方案,而且Vmware这一套东西也并不便宜。
不过之后这个问题将会得到非常好的解决,我在Hadoop的未来这一章将说以说。
Hadoop目前解决得不那么好的一些算法:
Join等:
Map-Reduce还有一个问题是,对于Join这个最常见的数据库操作,支持力度还是不够,特别是针对那种上TB的数据,Join将会很不给力,现在已经有了一些解决方案,比如说SIGMOD’2010的这篇文章:
A Comparison of Join Algorithms for Log Processing in MapReduce
不过在现在的情况下,只有尽量的避免大数据库的Join操作
需要进行很多轮迭代、循环的算法:
对于循环,Map-Reduce稍好,比如矩阵计算,高斯消元法这样的,循环的次数的确定的算法,实现起来还是不难,只是有点慢。但是迭代就更麻烦了,因为现在的Map-Reduce的mapper和reducer是不太方便去弄这样的终止条件。
还有就是迭代次数超多的算法(比如说矩阵的SVD分解),在超大矩阵的情况下,迭代次数可能会上亿次。而Map-Reduce在每次迭代的时候都会把数据往文件里面读写一遍,这样的浪费的时间是巨大的。
其实Map-Reduce不是绝对没有办法去解决这些问题,而只是现在这个还不是最重要的日程,Hadoop还有很多很多的东西可以优化,比如说前面提到的HA,这些东西只有往后放放,我将在之后的Hadoop的未来部分,谈谈未来版的Hadoop怎么去解决这些问题。
编程复杂,学习曲线陡峭:
对于一般的map-reduce框架,hello world程序就变成了word count,就是给出一堆的文本文件,最终统计出里面每一个不同的单词出现的次数,这样一个简单的任务(可能在linux shell下一行就写出来了),在Map-reduce中需要几十行,一般新人从理解word count到写出自己的word count,到跑通,一个星期是肯定需要的。这样陡峭的学习曲线让许多人难以深入。
另外还有一点Hadoop被人所诟病的是,代码丑陋,虽然Hadoop是用高级语言Java写成的,但是里面对每一个步骤都要分成mapper和reducer,这个被戏称为新时代的汇编语言。
一般来说,做数据分析的人程序都写得不咋地(强哥这样的达人除外),能写写matlab,R,或者spss就差不多了,如果要让他们去写map-reduce,那就等于叫他们别干活了。而大数据的重要的作用就是用来做数据分析,Hadoop的未来发展必须得抓住这群数据分析师的心。
其实现在已经有一些实验中的产品,让用户可以用高级语言编程,不会再看到丑丑的map-reduce了。我在前公司的时候就与团队一起做了还不错的尝试,至少,数据分析师可以用Python来编程了。map-reduce变成了一个底层的东西,现在不是某些人在分析性能的时候就贴上汇编代码吗,之后可能会变成在前段的程序效率不行的时候,就贴上后端Java的map-reduce程序。
所以对这个难题之后肯定会解决掉,底层分布式程序开发与用户将被清楚的分开,之后想要写word-count一定会像hello world一样简单。
Hadoop的未来怎么样?
http://www.slideshare.net/hortonworks/apache-hadoop-023 (hadoop 0.23)
给出这样的一个官方文档,谈谈之后的hadoop的发展。目前的hadoop的稳定版是0.20.x,这个0.23是个未来版,估计将在今年的Q4进行beta的发布(目前看起来,至少代码是写了很多了) 。
HDFS Federation
首先是一个叫做HDFS Federation的东西,它将hdfs的命名空间进行了扩展,目前的HDFS的所有文件的meta信息都保存在一台机器的内存中,使得HDFS支持的文件数目是有限的,现在进行了这样改动后,将hdfs的命名空间做成了分布式的,对之后方便对不同的用户文件夹进行管理,还有从HDFS的实现上来说,都会更为简单。
下一代的Map-Reduce:
节点数:从目前的4000增加到6000-10000台
并发的任务数:从目前的40000增加到100000
更高级的硬件支持,目前支持的硬件主要是8core, 16G ram, 4T disk, 之后将会支持16+core, 48/96G ram, 24/48T disk
架构的改变,对现在的JobTracker-TaskTracker的结构做了很大的改进,现在会用ZooKeeper去保存master的状态,避免了之前提到的SPOF
更多的编程模式的支持(这个很重要)
比如MPI,迭代程序的处理,并且在Hadoop中运行这些类型的编程模式,并且这些程序将会被Hadoop统一管理
总结
之前谈了Hadoop的优势、劣势等等,综合来说就是,优势是很明显的(比如这么多牛公司在用,并且也贡献了很多的代码),远远超出了其他的分布式系统,劣势虽然不小,但是改进这些不足的地方是在计划中,已经在实施了。而且Hadoop不仅在学术界或者是工业界,都有很高的地位,综合了这些天时地利人和,那前途还是非常光明的
http://www.uplook.cn/kbase-Index-show-view13434.html?uid=173