标签 云计算 下的文章

Java和云计算的关系

Java是一种程序设计语言,云计算是一种新的商业计算模型和服务模式。他们实际上是没有直接关系的,但是由于Java 技术具有卓越的通用性、高效性、平台移植性和安全性,并且广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、智能手机、物联网和互联网,同时拥有全球最大的开发者专业社群。在全球云计算和移动互联网的产业环境下,Java更具备了显著优势和广阔前景,Java已经成为一个庞大而复杂的技术平台。
hadoop hadoop
Java与云计算的关系主要体现在以下几个方面:
Java在云计算中的优势:
Java使云计算更简单,Java具有简单性、兼容性、简易性、安全性、动态性、高性能、解释性、健壮性
Java与分布式计算:
基于JAVA的分布式程序设计:
基于Socket的编程
基于RMI的分布式编程
基于CORBA的分布式编程
Java与并行计算:
JDK 1.5引入java.util.cocurrent包
Java中的多线程技术实现并行计算( JET 平台)
Java SE 5 中的锁,原子量 并行容器,线程调度 以及线程执行
基于Java的分布并行计算环境Java PVM
云计算开源框架支持:
Hadoop是Java开发,很多其他的云计算相关开源软件也是由Java开发或者提供Java API
Java使得云计算的实现更为简单,而云计算让Java更有活力,找到一个新的结合点。Java在互联网应用有
着独特的优势,而云计算是基于互联网的新的商业计算模型和服务模式,两者相结合,势必创造更大价
值。

没有云的话 大数据就是个作坊by王坚

王坚,阿里巴巴最富争议性的人物之一,爱者极爱,恨者极恨。
5月12日,我和MTC的朋友,在杭州发起并主持了一场关于云计算的沙龙,虾米的思践聊了云音乐,快的打车陈伟星聊了云时代的产品设计,短趣网王强宇聊了云时代的创业,当然少不了王坚聊一聊他对云计算的看法。
当天,青龙老贼发了一段王坚的部分观点,遭遇了他开通微信公众号以来最强烈的退粉,也激起了圈内人的各种讨论,这就是王坚的“影响力”。
我把王坚的分享做了个详细版的梳理,里面涉及了阿里云的定位、对大数据的反思、对APP创新的不看好,信息量很大,你可以感受一下。
一、无人机是大数据的典型
我热爱和平,但一讲到云计算和大数据,我想到的两个例子,都跟战争有关。
一个例子是,《世界是平的》作者去前线,看了现场的指挥官,发现西点军校应该重新办了。因为一个连排级的军官,只要一个电话,航母上的飞机就过来了。这放在以前的战争里是不会发生的,一个连排级军官能够动用的战争资源非常有限。今天,其实一个连排级的军官需要的训练和过去的军长师长是一样的。
经常有人问,如果有一定的基础设施,我能不能改变世界。在以前,只有国家主席可以做,今天一个人可以做的比主席还能多。因为有了云计算。
另外一个例子是,有人和我吹牛,说世界上大数据用得最好的就是无人机。前几天美国还在开会讨论为什么要租用中国的卫星,就是因为它自己的数据不够。无人机就是非常典型的一个创新,以前仗不是这么打的,今天有了大数据后就变了。
所以,云计算可以让你做以前不能做的事情,做以前不能做的规模。
二、我们的客户才是最会用数据的人
阿里云最早成立的时候,我们说自己是数据分享第一平台,对于这个定位,我自己觉得还蛮超前的。
阿里巴巴最早在讨论的时候,我们说为什么提数据,不提信息,这是一个很关键的事情。IBM会说数据没有用,知识才有用,所以这个定位很关键。
只要一谈到数据,我们其实就把自己定位在平台上了。我们想象我们的客户是把数据用到最好的人,而不是我们自己。
今天,最成功的数据公司就是谷歌。谷歌拿了全世界每个人都有的数据,就是web,它就靠自己的处理能力,做成了世界上最大的生意。谷歌初期的时候,它有的数据别人也有,只是别人没有他的处理能力和思想。
数据就是数据,只是要有人把他做成生意。
所以我们定位自己的时候,数据就是数据,这个是最基本的东西,有人比你更聪明,会把这个事情做成重要的生意。
今天的数据远远超过以前WEB的数据,所以可以想象的生意也会多很多很多,所以肯定可以比以前做得更大。
以前也没人知道数据在哪里,直到谷歌把他变成一个搜索,有办法把广告引导搜索里面。今天看来这个很简单,放当初很难,因为要把大家都有的东西,做成一个挣钱的东西,当时没几个人想清楚的,否则微软、雅虎也都不会把雅虎外包给别人。
三、“大数据”叫错了
之前田溯宁在北京组织了一个活动,请了《大数据》的作者,大家开了一个很小的研讨会。
我分享时说,其实大数据是叫错掉的,“大数据”没有反应这个问题最本质的东西。
其实大数据很早以前就有,只是光只有数据大是没有用处的。世界上最大的数据估计和互联网一点关系都没有,欧洲对撞实验室做一次碰撞的数据,可能一辈子都做不完,最大的数据估计在那里。
今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。所有东西在线这个事情,远远比“大”更反映本质。
像快的打车要用一个交通的数据,如果这些东西不在线,是没有用的。
为什么今天的淘宝数据值钱,因为他在线了。写在磁带、写在纸上的数据,根本没有用。
反过来讲,在线让数据搜集变得非常容易。过去美国谁要做总统,需要做盖勒普调查,去街上拦2000个人,在纸上打个勾,预测就很准了。现在不用做这个事情,只要在twitter上分析每个人发的东西,就可以知道总统会是谁了。
而且盖勒普调查做完之后很难快速影响社会,现在数据可以反过来快速影响社会。就像打车软件,如果要影响出租车司机,可能比出租车公司更大,原因就是数据在线了。
有时候,一些石油、地质之类的公司来跟我讲大数据,我就想不通这算不算大数据。他们的数据多是肯定的,但是他们的数据不在线,没有意义。
四、数据比功能更重要
产品我是不太懂的,阿里云的产品做得那么不好,都是我的责任,这个得求大家原谅。
但吃了很多苦头后,对于产品心得还是有的。
目前我没有看到一个产品和数据结合得很好。非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。
做航旅信息的产品,出了很多款。最近我看到出了一个“航旅纵横”,我用的比较多,我也不知道产品好不好,反正数据很好,他可以告诉你前一个航班发生了什么事情。
过去的软件,很多功能超出数据的重要性,但我相信,接下来,数据比功能会更重要。互联网人应该会能理解这个说法。
我和马云开玩笑说,阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。我的意思其实是,机会在哪里,大家都没搞清楚。
前几天我在北京碰到叶凯(京玩蟹科技有限公司CEO),他说游戏做来做去,发现数据是最重要的东西,在几个机房里数据拷来拷去很痛苦。
我猜测,他理解游戏的话,完全靠直觉已经不够了,数据可以帮他做这个事情。就好像一个人做在室内用数据来开飞机,光是训练飞行员的成本都不知道降低多少,这和用数据去改进游戏是异曲同工的。
五、云计算是个信任生意
我看云计算的时候,突然发现,云计算是个信任生意。包括虾米,短趣,能搬到阿里云,都是一个信任。
中国是全世界最早用纸币的国家。一张纸上盖个章,就让人相信是财富,这需要极大勇气的。今天,我们反而大大落后了,我们不相信信用卡,把信用卡当借记卡在用了,这是很要命的地方。
有人说他要做三年赚200亿美金(的互联网项目),他还要依靠别人(的云计算服务),他要相信这一点,是很了不起的。
我觉得,没有这个勇气,是不可能创新的。中国今天是有这样的机会。
我这里有个很自豪的案例。今天全国中国的药品,都有一个条形码,它需要去追踪每个药到了哪个批发商,到了哪个零售商,到了哪个医院,到了哪个患者,这个东西是个很重要的东西。现在这个东西就在阿里云上面,350万亿盒的数据都在上面。将来你跑到医院,自然能知道哪个是真药假药,也就是说,原来乱七八糟的事情就没了。这个是很大的创新。以前这些数据不在线的时候,你根本不敢去想,现在,你可以做很多的事情了。
另外一个案例,保险是一个很传统的行业。开一个保险公司,必须要开办事处。每人敢说,现在办一个保险,可以不签一个书面的东西。但是,可能今年下半年,中国会出一家保险公司,这是全世界第一家没有办事处的保险公司。不需要在纸上签任何东西,在线就能做完所有事情。
按我的理解,云计算能做好的话,创新机会非常大。
六、做APP,是在别人花园弄点盆栽
我觉得,移动互联网的创新,可以超越APP创新的范畴。
今天APP上的创新,有点像在人家花园里种点小花。因为苹果和安卓已经圈了一个花园,你种点花种点草是没有问题的,就像是去花鸟市场买点盆栽,反正是死也死不了活也活不好。
但是你要做点有生命力的东西,还是有挑战的。你要跑到大森林里,才能做有生命力的东西。否则叫你下架就下架,你会觉得还是有问题的。
当然,那个花园是一个很好的环境,也有人来看。但是在中国做生态的话,我们还是可以做有革命性的东西。
具体是什么,我们也真不知道。
七、有了施乐,才有苹果
我们做云计算最大的挑战是什么,就是我们真不懂。
这是一个无中生有的行业,我们过去只是在书上读到过的。是靠大家的互相配合、交互才能做起来。
我觉得应该办一个互联网博物馆。今天大家都看到了结果,没看到过程,这样的国家是很难创新。
大家可能不知道,大概百分之一百的鼠标都在中国生产,大部分也在中国消费,很多技术也在中国。很少有人去问,为什么有个东西要叫鼠标,第一个鼠标出来的时候是很丑陋的木头做的。
今天大家看到有个很漂亮的手机,叫做iphone,有个很好的操作系统,有个很好的appstore,大家可能没想过,这东西怎么来的。我早上在看一个关于美国八十年代经济的片子,其中采访了乔布斯,他说,如果不被苹果赶走,可能不会发生后面的事情。如果当时乔布斯没被赶走,没有一赌气去做NeXT,没有被买回来作为ios的基础的话,是不会有今天的苹果的。
所以,这里面的机缘巧合是很难计划的。
我要抱歉的是,阿里云是肯定要做好的,这个吃苦过程肯定逃不掉。
有一个八卦,苹果先做麦金塔,微软随后出了视窗,苹果就告微软抄袭。盖茨就和乔布斯说,我们就别互相搞了,其实我们都偷了施乐的东西。施乐没做大,但做出了很大的贡献。
中国的环境里没有施乐这样的公司,自然而然就不要想出苹果这样的公司。
我想说,就算各位创业者和施乐一样做点死不死活不活的东西,也很有意义。
八、不是搜集什么数据,而是做什么服务
今天的手机的传感器,和巡航导弹的传感器差不多。它能搜集到的东西很多,但是没有产生多大价值。
我觉得,数据搜集这件事,已经没有多大创新了,只要你想得到,我们一定能做得到。我觉得真正的创新,是你在这上面能够做什么,这还没有人弄懂。
这是一个鸡和蛋的问题,如果没有人能够用得好,那后面的东西不会发生。
最早的时候,有人会说,基于位置的服务什么的。但是到了今天,依然没有人知道了位置后,把服务做好。我觉得,这是最大的挑战。
九、云计算这名字有歧义
云计算是工业时代的电,大数据就是福特生产线,云存储就是钢铁工业。
也就是说,没有钢铁,就没有电,就不会有大规模工业化生产。没有云计算,大数据不会出来,如果美云计算没有解决云存储的问题,也不会出来。
我觉得云计算这名字的歧义在于,我们说这个的时候,其实包括了云计算、大数据、云存储等等所有的东西。
大数据,是我今天能想到的,那条能起来的福特生产线。到了最后,大家应该会忘记了云计算,只记得福特了。所以我说,看得见的前端,看不见的后台。
我不相信有人说,我做大数据,但是没有云的,那就是小作坊。
十、千万不要想着拿数据去改进业务
今天的银行,都不会是靠大数据起来的公司。银行靠什么处理数据,靠IBM。你可以算出来他做数据的成本,他处理数据产生的价值,可能都无法抹平处理数据的成本。
数据真正了不起的地方,是靠小的成本,去产生有价值的东西。
并不是说,有数据的地方,就会有大数据业务的存在。
阿里巴巴在数据上做的最好的是金融,但金融不等于银行。阿里金融做小贷的事情,恰恰是银行做不了的。银行没有这个数据,银行做信用评级的成本极高,银行不做小的贷款。
阿里金融每天贷10块钱,100块钱的人多得很。有个贷1块钱的客户,写了个感谢信,说这辈子从来没有人借给他一块钱,突然有人借他1块钱,他就觉得人生从此被尊敬了。
你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。
亚马逊是全球做推荐最好的业务,这可以算是大数据的早期,但现在它每天想着怎么把推荐做得更好,我觉得这件事情一定没有希望。
http://www.techweb.com.cn/people/2013-05-14/1296347.shtml

IaaS层实现思路

云计算,什么是云计算,它到底离我们有多远?
这些内容我已经在《云计算的定义和特征》中阐述过了,需要看的朋友可以再去翻出来看看。
这篇文章我们重点讨论IaaS
IaaS的使用者是谁?IaaS能提供怎样的服务?他们怎么利用提供的服务?
是研发人员,有了IaaS层以后,他们就不需要等待公司的流程,盼星星盼月亮似地等着审批机器。IaaS层提供资助服务,完全可以由使用者自助申请,通过云管理平台审批,而后得到想要的机器。这种是直接提供虚拟机。
还有一种场景,我的IaaS层在外面是看不到东西的,这里的IaaS层只是为内部的中间件提供一个可部署、易维护的一个环境,而用户使用的服务是中间件提供的。这种我们得到的服务是间接的,看不到摸不着的。
我们可以像想,在我的I层有一堆的PC Server ,每台PC Server上都有内存、CPU、硬盘这些重要组件。虚拟化带来的切割资源,将一个性能较好的机器,切分成相对性能较差的机器。
未完待续……

Hadoop云计算资料收集

Hadoop云计算资料收集,会陆续更新……
先说下我本人对各种资料、信息来源的看法:
1、书:有些书不错,必须得买,必须得深入的看,这种书比较少;但有些书,乍一看书目很不错,但内容多为浅尝辄止,没啥新意,看看书目就行了,作为查找资料的依据,自学的大纲,不买;垃圾书就不说了。
2、培训:任何事情都有好坏两方面,我对此的态度是不排斥,也不喜欢;好多培训课程在课程安排上还是不错的,因此在自学的时候可以参考培训学校安排的学习路线,参加不参加培训看个人基础,关键是自己知道自己应该学什么,而不是别人告诉你,你要学什么充分利用培训网站上的课程表,安排自学路线,还是不错的方法。充分利用培训学校的培训视频,找到自己需要的知识点,切记,前提一定是知道自己想要学什么;
任何东东都有两面性,取其精华去其糟粕,学好技术才是我们最终目标,看事物的时候不能一刀切!
希望资源失效的时候,大家提醒下,也好及时删除,如果有什么资源,也欢迎大家及时分享。


云计算相关:
北航云计算视频教程  http://soft.buaa.edu.cn/MC/show.asp?id=534
重点推荐张荣典老师的《云计算之前生今世与未来》http://www.huijiangtan.com/pubcontent1.php


Hadoop相关:
史密斯学院关于Hadoop一些资料(英文的)   http://cs.smith.edu/classwiki/index.php/Category:Hadoop
高负载低延迟:动态算法+Hadoop+AWS+NoSQL解析 http://www.csdn.net/article/2013-01-18/2813788-analyzing-billions-of-credit-card-transa
csdn Hadoop专题:http://subject.csdn.net/hadoop/
Mapreduce相关,介绍的内容很基础和比较底层:http://www.importnew.com/?s=hadoop%E6%95%99%E7%A8%8B
如何给Hadoop集群选择硬件:http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/


Java:
java异常处理:http://www.importnew.com/5616.html
tomcat的配置: http://blog.lihai.me/deploy-webapp-on-tomcat.html
调度系统Quartz快速入门:http://www.importnew.com/4107.html


开源相关:
图灵社区,正在翻译的《开源软件架构》http://www.ituring.com.cn/book/1143#jtss-tsina

OpenStack-CloudStack与Hadoop的关系

OpenStack,CloudStack与Hadoop的关系:
OpenStack,CloudStack处于云计算中的同一层——IaaS层,他们只是使用不同的语言,不同的设计架构分别实现了IaaS层的功能。CloudStack、OpenStack主要用于构建IaaS层,类似于Amazon EC2 和 S3 的云基础架构服务的架构。Hadoop实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台。Hadoop实现的功能实际上是PaaS层提供的服务。
OpenStack、CloudStack和Hadoop分别属于云计算中的一部分,而不是全部。

CloudStack是什么

CloudStack同OpenStack一样,也是主要用于构建IaaS层,OpenStack和CloudStack处于云计算中同一地位,只是他俩的实现方式不同,如实现语言,OpenStack是python实现的,而CloudStack则是由Java实现的;他们的技术架构设计也不相同。
CloudStack是一个开源的具有高可用性及扩展性的云计算平台。目前Cloudstack支持管理大部分主流的hypervisors,如KVM,XenServer,VMware,Oracle VM,Xen等。
同时CloudStack是一个开源云计算解决方案。可以加速高伸缩性的公共和私有云(IaaS)的部署、管理、配置。使用CloudStack作为基础,数据中心操作者可以快速方便的通过现存基础架构创建云服务。
CloudStack形成的基础设施云和数据中心运营商可以快速,轻松地建立在其现有的基础设施提供云服务的需求,弹性云计算服务。 CloudStack用户可以充分利用云计算提供更高的效率,无限的规模和更快地部署新服务和系统的最终用户。
CloudStack 是一个开源的云操作系统,它可以帮助用户利用自己的硬件提供类似于Amazon EC2那样的公共云服务。CloudStack可以通过组织和协调用户的虚拟化资源,构建一个和谐的环境。CloudStack具有许多强大的功能,可以让用户构建一个安全的多租户云计算环境。CloudStack 兼容Amazon API 接口。CloudStack可以让用户快速和方便地在现有的架构上建立自己的云服务。CloudStack可以帮助用户更好地协调服务器、存储、网络资源,从而构建一个IaaS平台。
CloudStack的前身是Cloud.com,后被思杰收购。英特尔、阿尔卡特-朗迅、瞻博网络、博科等都已宣布支持CloudStack。2011年7月,Citrix收购Cloud.com,并将CloudStack 100%开源。2012年4月5日,Citrix又宣布将其拥有的CloudStack开源软件交给Apache软件基金会管理。CloudStack已经有了许多商用客户,包括GoDaddy、英国电信、日本电报电话公司、塔塔集团、韩国电信等。

OpenStack是什么

OpenStack主要用于构建IaaS层,类似于Amazon EC2 和 S3 的云基础架构服务的架构。OpenStack和Hadoop分别属于云计算中的一部分,而不是全部。
OpenStack是一个美国国家航空航天局和Rackspace合作研发的,以Apache许可证授权,并且是一个自由软件和开放源代码项目。
OpenStack是一个云平台管理的项目,它不是一个软件。这个项目由几个主要的组件组合起来完成一些具体的工作。
OpenStack是一个旨在为公共及私有云的建设与管理提供软件的开源项目。它的社区拥有超过130家企业及1350位开发者,这些机构与个人都将OpenStack作为基础设施即服务(简称IaaS)资源的通用前端。OpenStack项目的首要任务是简化云的部署过程并为其带来良好的可扩展性。本文希望通过提供必要的指导信息,帮助大家利用OpenStack前端来设置及管理自己的公共云或私有云。
OpenStack 是由 Rackspace 和 NASA 共同开发的云计算平台,帮助服务商和企业内部实现类似于 Amazon EC2 和 S3 的云基础架构服务(Infrastructure as a Service, IaaS)。OpenStack 包含两个主要模块:Nova 和 Swift,前者是 NASA 开发的虚拟服务器部署和业务计算模块;后者是 Rackspack 开发的分布式云存储模块,两者可以一起用,也可以分开单独用。OpenStack 是开源项目,除了有 Rackspace 和 NASA 的大力支持外,后面还有包括 Dell、Citrix、 Cisco、 Canonical 这些重量级公司的贡献和支持,发展速度非常快,有取代另一个业界领先开源云平台 Eucalyptus 的态势。

OpenStack主要包括:Nova、Swift和Glance
OpenStack Compute (Nova)是一套控制器,用于为单个用户或使用群组启动虚拟机实例。它同样能够用于为包含着多个实例的特定项目设置网络。OpenStack Compute在公共云处理方面堪与Amazon EC2相提并论;而在私有云方面也毫不逊色于VMware的产品。在公共云中,这套管理机制将提供预制的镜像或是为用户创建的镜像提供存储机制,这样用户就能够将镜像以虚拟机的形式启动。
OpenStack 对象存储(Swift)是一套用于在大规模可扩展系统中通过内置冗余及容错机制实现对象存储的系统。这些对象能够通过一个REST API或是像Cyberduck这样可以对接对象存储API的客户端加以恢复。
OpenStack镜像服务 (Glance)是一套虚拟机镜像查找及检索系统。它能够以三种形式加以配置:利用OpenStack对象存储机制来存储镜像;利用Amazon的简单存储解决方案(简称S3)直接存储信息;或者将S3存储与对象存储结合起来,作为S3访问的连接器。OpenStack镜像服务支持多种虚拟机镜像格式,包括VMware(VMDK)、Amazon镜像(AKI、ARI、AMI)以及VirtualBox所支持的各种磁盘格式。镜像元数据的容器格式包括Amazon的AKI、ARI以及AMI信息,标准OVF格式以及二进制大型数据。

Java和云计算的关系

Java是一种程序设计语言,云计算是一种新的商业计算模型和服务模式。他们实际上是没有直接关系的,但是由于Java 技术具有卓越的通用性、高效性、平台移植性和安全性,并且广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、智能手机、物联网和互联网,同时拥有全球最大的开发者专业社群。在全球云计算和移动互联网的产业环境下,Java更具备了显著优势和广阔前景,Java已经成为一个庞大而复杂的技术平台。
Java与云计算的关系主要体现在以下几个方面:
Java在云计算中的优势:
Java使云计算更简单,Java具有简单性、兼容性、简易性、安全性、动态性、高性能、解释性、健壮性
Java与分布式计算:
基于JAVA的分布式程序设计:
基于Socket的编程
基于RMI的分布式编程
基于CORBA的分布式编程
Java与并行计算:
JDK 1.5引入java.util.cocurrent包
Java中的多线程技术实现并行计算( JET 平台)
Java SE 5 中的锁,原子量 并行容器,线程调度 以及线程执行
基于Java的分布并行计算环境Java PVM
云计算开源框架支持:
Hadoop是Java开发,很多其他的云计算相关开源软件也是由Java开发或者提供Java API
Java使得云计算的实现更为简单,而云计算让Java更有活力,找到一个新的结合点。Java在互联网应用有着独特的优势,而云计算是基于互联网的新的商业计算模型和服务模式,两者相结合,势必创造更大价值。

Hadoop和云计算的关系

Hadoop主要是由HDFSMapReduce组成,HDFS是一个分布式文件系统(Hadoop Distributed File System),MapReduce则是用于并行处理大数据集的软件框架。因此,Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现
Hadoop是Apache基金会下的一款开源软件,它实现了包括分布式文件系统HDFSMapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。Hadoop现在已经广泛应用于包括国外的FaceBook,Twitter,Yahoo!等公司,国内的百度,阿里等,Hadoop运行在数以千计的服务器和数以万计的CPU的集群上。
基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop已被全球几大IT公司用作其”云计算”环境中的重要基础软件,如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。亚马逊公司则基于Hadoop推出了Amazon S3(Amazon Simple Storage Service ),提供可靠,快速,可扩展的网络存储服务。因此,Hadoop是云计算中一部分技术的实现,而不是全部
云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变,但云计算的概念其实早已提出很久,早在上世纪60年代,麦卡锡就提出了把计算能力作为一种像水和电一样的公用事业提供给用户的理念,这成为云计算思想的起源。在20世纪80年代网格计算、90年代公用计算,21世纪初虚拟化技术、SOASaaS应用的支撑下,云计算作为一种新兴的资源使用和交付模式逐渐为学界和产业界所认知。因此,云计算的存在只是一种新的商业计算模型和服务模式

Hadoop云计算的关系

Hadoop云计算的关系


因此可以得出一个结论:Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现,是云计算技术中重要的组成部分,云计算的概念更广泛且偏向业务而不是必须拘泥于某项具体技术,云计算的存在只是一种新的商业计算模型和服务模式。因此,云计算才会出现“横看成岭侧成峰,远近高低各不同”,各种各样层出不穷的理解

Hadoop到底能做什么?怎么用Hadoop?

hadoop是什么?hadoop能做什么?怎么用hadoop?
hadoop是什么?
Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。
hadoop能做什么?
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)
hadoop能为我司做什么?
零数据基础,零数据平台,一切起点都是0。
日志处理
用户细分特征建模
个性化广告推荐
智能仪器推荐
一切以增加企业的商业价值为核心目的、最终目的
4.怎么用hadoop?
hadoop的应用的在我司还属于研发型项目,拟用日志的分析来走通一次流程,因为此阶段目前来说还不需要数据挖掘的专业人员,在数据分析阶段即可,而系统有数据库工程师,Mapreduce有java开发工程师,而分析由我本人介入,而可视化暂时可由前端JS实现,本来我的调研方案,针对大数据的解决方案是hadoop+R的,但是对于R我们是完全不懂,在公司还没有大量投入人员的情况下,只有日志分析目前看来是最容易出成果的,也是可以通过较少人员能出一定成果的,所以选取了这个方向作为试点。
首先要进行数据的存储,一是要协调上游的服务厂商,关于日志的抓取,二是hadoop系统的搭建,目前已经在紧张的筹备中了。
http://blog.sina.com.cn/s/blog_687194cd01017lgu.html