- 精灵云海

Hadoop和Java的关系

7 2 月, 2013
Hadoop和Java的关系已关闭评论

Hadoop的创始人是Doug Cutting，同时也是著名的基于Java的检索引擎库Apache Lucene的创始人。Hadoop本来是用于著名的开源搜索引擎Apache Nutch，而Nutch本身是基于Lucene的，而且也是Lucene的一个子项目。因此Hadoop基于Java就很理所当然了，所以，Hadoop是由Java编写的。
Hadoop采用Java编写，因而Hadoop天生支持Java语言编写作业，但在实际应用中，有时候，因要用到非Java的第三方库或者其他原因，要采用C/C++或者其他语言编写MapReduce作业，这时候可能要用到Hadoop提供的一些工具。
如果你要用C/C++编写MpaReduce作业，可使用的工具有Hadoop Streaming或者Hadoop Pipes。
如果你要用Python编写MapReduce作业，可以使用Hadoop Streaming或者Pydoop。
如果你要使用其他语言，如shell，php，ruby等，可使用Hadoop Streaming。

Java和云计算的关系

7 2 月, 2013
Java和云计算的关系已关闭评论

Java是一种程序设计语言，云计算是一种新的商业计算模型和服务模式。他们实际上是没有直接关系的，但是由于Java 技术具有卓越的通用性、高效性、平台移植性和安全性，并且广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、智能手机、物联网和互联网，同时拥有全球最大的开发者专业社群。在全球云计算和移动互联网的产业环境下，Java更具备了显著优势和广阔前景，Java已经成为一个庞大而复杂的技术平台。
Java与云计算的关系主要体现在以下几个方面：
Java在云计算中的优势：
Java使云计算更简单，Java具有简单性、兼容性、简易性、安全性、动态性、高性能、解释性、健壮性
Java与分布式计算：
基于JAVA的分布式程序设计：
基于Socket的编程
基于RMI的分布式编程
基于CORBA的分布式编程
Java与并行计算：
JDK 1.5引入java.util.cocurrent包
Java中的多线程技术实现并行计算（ JET 平台）
Java SE 5 中的锁，原子量并行容器，线程调度以及线程执行
基于Java的分布并行计算环境Java PVM
云计算开源框架支持：
Hadoop是Java开发，很多其他的云计算相关开源软件也是由Java开发或者提供Java API
Java使得云计算的实现更为简单，而云计算让Java更有活力，找到一个新的结合点。Java在互联网应用有着独特的优势，而云计算是基于互联网的新的商业计算模型和服务模式，两者相结合，势必创造更大价值。

Hadoop和云计算的关系

7 2 月, 2013
Hadoop和云计算的关系已关闭评论

Hadoop主要是由HDFS和MapReduce组成，HDFS是一个分布式文件系统（Hadoop Distributed File System），MapReduce则是用于并行处理大数据集的软件框架。因此，Hadoop是一个能够对大量数据进行分布式处理的软件框架，它是一种技术的实现。
Hadoop是Apache基金会下的一款开源软件，它实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台的基础架构，并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台，其已成为工业界和学术界进行云计算应用和研究的标准平台。Hadoop现在已经广泛应用于包括国外的FaceBook,Twitter,Yahoo!等公司，国内的百度，阿里等，Hadoop运行在数以千计的服务器和数以万计的CPU的集群上。
基于Hadoop,用户可编写处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop已被全球几大IT公司用作其”云计算”环境中的重要基础软件，如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。亚马逊公司则基于Hadoop推出了Amazon S3(Amazon Simple Storage Service )，提供可靠，快速，可扩展的网络存储服务。因此，Hadoop是云计算中一部分技术的实现，而不是全部。
云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变，但云计算的概念其实早已提出很久，早在上世纪60年代，麦卡锡就提出了把计算能力作为一种像水和电一样的公用事业提供给用户的理念，这成为云计算思想的起源。在20世纪80年代网格计算、90年代公用计算，21世纪初虚拟化技术、SOA、SaaS应用的支撑下，云计算作为一种新兴的资源使用和交付模式逐渐为学界和产业界所认知。因此，云计算的存在只是一种新的商业计算模型和服务模式。

Hadoop云计算的关系

因此可以得出一个结论：Hadoop是一个能够对大量数据进行分布式处理的软件框架，它是一种技术的实现，是云计算技术中重要的组成部分，云计算的概念更广泛且偏向业务而不是必须拘泥于某项具体技术，云计算的存在只是一种新的商业计算模型和服务模式。因此，云计算才会出现“横看成岭侧成峰，远近高低各不同”，各种各样层出不穷的理解。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28