标签 hadoop 下的文章

招聘hadoop方向的开发人员主要看重的是什么能力?

想请教一下,在招聘hadoop方向的开发人员时,和招聘web应用开发人员的要求有什么不同,是否会更看重算法设计能力。对于目前从事web开发,想要转至hadoop方向的程序员有没有什么好的建议呢?谢谢!
我的规划中,是没有“专业Hadoop程序员”这个概念的。毕竟这只是一个框架,就好像不能叫“专业Mysql管理员”一样,我们应该是从事分布式计算的工程师,或者云计算工程师。
做这个领域,我认为有两个方面的能力是重要的,技术架构能力和业务数据敏感。
针对目前从事Web开发的工程师,我第一个建议是提高视野。很多Web工程师只认识Web框架内的东西,这阻碍他理解批处理系统的结构。
第二个建议是要对业务数据敏感,大部分Web工程师长期接触一线的需求,这方面是没有问题的。
你说的算法设计能力,我认为是技术能力的一部分。在入门阶段不是很紧迫,做1-2年以后会遇到需要优化的算法问题。
关于第一个问题,招聘时的区别。在我这里是没有的,任何领域的开发人员我们都要求 1 基础扎实 2 逻辑清晰 3 沟通流畅,知识可以慢慢学,但是素质不容易改。
知乎: http://www.zhihu.com/question/19956296

Windows Azure要拥抱开源Hadoop

为什么Windows Azure要拥抱Hadoop?
Hadoop已经有一个非常完整的生态系统。最底层的是一个HDFS,是一个分布式的文件系统。但仅有HDFS和Mapreduce还远远不够,很多用户都在上层用一些脚本语言比如PiG、HIVE。现在有些开源系统,比如社交关系网的图形软件,在这些应用的基础上微软加入了JavaScript等。现在微软又加了ODBC,excel、powerview这些现有的微软应用可以访问这些数据。
Windows Azure如何存储数据?
HDFS在Windows Azure上运行,微软已将HDFS的API进行了扩展,使得它可以访问Azure  storage和Azure  Blob  Storage。企业选择大数据平台要尽可能选择廉价的平台。便宜的同时也得保证安全。Azure  storage不仅便宜,而且具有三个备份,加上三个异地备份,总共六个备份。
云服务公司不能总说自己产品的可靠性是“99.9999%”。云服务需要绝对的高保证,云服务不仅包括存储硬盘的可靠性,还包括机架、电、网络、bulding等等。“99.9999%”没有任何说服力,徐明强表示,微软Windows  Azure从上线至今从未丢过一个字节的数据,Windows  Azure不光廉价,而且数据绝对安全。

Hadoop知识整理

按照what、how、why整理了下文章,帮助大家快速梳理下hadoop知识:
what:
Hadoop的作用: http://tianhailong.com/hadoop%E7%9A%84%E4%BD%9C%E7%94%A8.html
hadoop到底能做什么?怎么用hadoop?: http://tianhailong.com/hadoop%E5%88%B0%E5%BA%95%E8%83%BD%E5%81%9A%E4%BB%80%E4%B9%88%EF%BC%9F%E6%80%8E%E4%B9%88%E7%94%A8hadoop%EF%BC%9F.html
Hadoop和云计算的关系: http://tianhailong.com/hadoop%E5%92%8C%E4%BA%91%E8%AE%A1%E7%AE%97%E7%9A%84%E5%85%B3%E7%B3%BB.html
hadoop和java的关系: http://tianhailong.com/hadoop%E5%92%8Cjava%E7%9A%84%E5%85%B3%E7%B3%BB.html
Hadoop10大应用: http://tianhailong.com/hadoop10%E5%A4%A7%E5%BA%94%E7%94%A8.html
Hadoop是分布式计算的未来: http://tianhailong.com/187.html
Hadoop发展历史: http://tianhailong.com/hadoop%E5%8F%91%E5%B1%95%E5%8E%86%E5%8F%B2.html
Hadoop大事记: http://tianhailong.com/hadoop%E5%A4%A7%E4%BA%8B%E8%AE%B0.html
Hadoop主要子项目: http://tianhailong.com/hadoop%E4%B8%BB%E8%A6%81%E5%AD%90%E9%A1%B9%E7%9B%AE.html
Hadoop, Hive和Scribe在运维方面的应用: http://tianhailong.com/hadoop-hive%E5%92%8Cscribe%E5%9C%A8%E8%BF%90%E7%BB%B4%E6%96%B9%E9%9D%A2%E7%9A%84%E5%BA%94%E7%94%A8.html
hadoop招聘: http://tianhailong.com/hadoop%E6%8B%9B%E8%81%98.html
how:
渐进学习hadoop: http://tianhailong.com/%E6%B8%90%E8%BF%9B%E5%AD%A6%E4%B9%A0hadoop.html
hadoop基础-Hadoop入门一: http://tianhailong.com/hadoop%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86%E7%82%B9.html
认识hdfs和MapReduce-Hadoop入门二: http://tianhailong.com/hadoop%E5%85%A5%E9%97%A8%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86%E7%82%B9%E4%BA%8C.html
HDFS开发MapReduce开发-Hadoop入门三: http://tianhailong.com/hadoop%E5%85%A5%E9%97%A8%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86%E7%82%B9%E4%B8%89.html
hadoop在百度的应用: http://tianhailong.com/hadoop%E5%9C%A8%E7%99%BE%E5%BA%A6%E7%9A%84%E5%BA%94%E7%94%A8.html
Hadoop集群搭建–Hadoop安装: http://tianhailong.com/hadoop%E9%9B%86%E7%BE%A4%E6%90%AD%E5%BB%BAhadoop%E5%AE%89%E8%A3%85.html
why:
hdfs:hadoop分布式文件系统的架构和设计: http://tianhailong.com/hdfs%EF%BC%9Ahadoop%E5%88%86%E5%B8%83%E5%BC%8F%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F%E7%9A%84%E6%9E%B6%E6%9E%84%E5%92%8C%E8%AE%BE%E8%AE%A1.html

Hadoop学习新人必看

Hadoop新人必看:
新人困惑:
大家对整个云计算没什么感觉,根本就不理解为啥hadoop这么设计,hadoop和云计算是什么关系 只是听人说 好
但是好在哪里 根本不知道
下面给出一个简易入门步骤:
1、推荐看下 张荣典的视频
《云计算之前生今世与未来》,视频地址:http://tianhailong.com/hadoop-forums/topic/hadoop%E8%B5%84%E6%96%99%E6%B1%87%E6%80%BB
先补习下云计算知识 弄清楚啥叫云计算 都分为那些层?
2、明确了云计算是个什么东东后 然后再弄清楚hadoop是干什么用的 hadoop位于云计算的哪个层里 起到什么作用
hadoop包含哪些组件,每个组件提供什么功能,组件与组件之间的关系是什么?
3、然后再开始搭建Hadoop集群
写mapreduce的helloworld
然后再开始装hbase、zookeeper等 挨个实现helloworld
Hadoop集群搭建教程:http://tianhailong.com/hadoop%E9%9B%86%E7%BE%A4%E6%90%AD%E5%BB%BA%E8%AF%A6%E7%BB%86%E7%AE%80%E6%98%8E%E6%95%99%E7%A8%8B.html
4、需要准备的知识:任何语言的编程经验+java(最好会)+云计算知识背景(大数据知识背景)+linux安装操作+虚拟机知识
必须先记在心里的东西:
1、cygwin只是模拟了linux环境
2、hadoop必须安装在linux环境上
3、mapreduce程序开发直接就在window上开发即可
4、mapreduce程序的运行:可以把写好的程序打成jar包 放到hadoop集群上 执行hadoop命令(就像大家安装完 验证集群是否正常运行那样 ”计算圆周率“一样)
5、 我们学的是hadoop 而不是整环境 ,可以先把环境的问题绕过
6、刚开始千万别用eclipse连接hadoop集群
7、如果你说6的理由是测试方便,那我告诉你,写junit更方便

台湾国网中心Hadoop实验集群

从网上找到了好东西,还是台湾人民好啊,搭建好的Hadoop集群,开放了公共服务 http://hadoop.nchc.org.tw/ 对于想学习hadoop编程,又苦于没有机器,你们有福啦 O(∩_∩)O哈哈~
这是他们的公告

  1. 歡迎至 forum.hadoop.tw 或 臉書粉絲團 進行討論
  2. 歡迎加入 公告群組,以利接收即時公告事宜
  3. 初學者請參閱線上教學: Hadoop 觀念篇 ,
    實作步驟請參閱以下三個連結:
    帳號申請 | HDFS 練習 | MapReduce 練習 ]
  4. 本叢集所採用的 Hadoop 版本是 0.20.1,寫程式時請參考 javadoc
  5. 倘若貴單位不允許 SSH 連線,或有 PROXY 限制,請改連https://hadoop.nchc.org.tw 並採用系統帳號密碼(hXXXX)登入。至於HDFS 與 MapReduce 也請請點選對應連結存取。

本叢集純為實驗用途,無法保證7×24服務品質
重要數據資料請務必另行備份,謝謝!
重要運算工作亦請考慮使用其他付費平台

家目錄空間吃緊中,請盡量上傳至HDFS後,
清除家目錄檔案,謝謝!

若有公用資料集運算需求,請置於
hdfs://hadoop.nchc.org.tw/pub,謝謝!

hadoop集群服务

hadoop集群服务


1、先注册账号:
http://hadoop.nchc.org.tw/new_register.php
注册

注册


2、邮箱激活
激活邮件

激活邮件


3、一会你会收到SSH地址、用户名和密码
SSH账号密码

SSH账号密码


4、登录后进入界面,就可以运行计算π的那个示例啦(注意:浏览器得支持java运行才能看到这个界面),或者使用SSH客户端输入地址、用户名密码链接到Hadoop集群, O(∩_∩)O哈哈~
计算π1

计算π1


计算π2

计算π2

Hadoop集群搭建详细简明教程

这份教程是最简版、也是最详细版,按照步骤一步步做,应该能达到效果,这里面一点理论都没有提到,请大家在熟悉相关内容后,自行学习必要的理论。欢迎访问博客,交流沟通。
内容主要包括:
Linux操作系统安装
Hadoop集群环境安装、配置
Hadoop集群搭建验证
Hadoop开发环境搭建
MapReduce程序如何测试
Hadoop源码阅读
说明
文档下载地址:http://pan.baidu.com/share/link?shareid=495136&uk=772112791
在Hadoop云计算群300165122已经发布了,有同学按照文档已经搭建过了。
下边为文档,建议使用火狐浏览器!
[crocodoc width=”700″ height=”900″]

window下Hadoop开发环境的搭建

好多人问我Windows下怎么搭建Hadoop开发环境,说句老实话,这个问题其实很简单,你是怎么开发java项目的,就怎么写mapreduce程序就OK。但是好多培训视频都给搞复杂了,一阵安装cygwin,一阵又搞什么eclipse连接hadoop集群,我对此的评论用一句话概括:脱裤子放屁……
如果培训公司是想把hadoop这个如此简单的故意搞复杂的话,那么我鄙视你……什么为了方便测试之类的云云,都是扯淡
按照我的理解:你的机器上能运行hello world,就能编写hadoop程序!
Hadoop新人必须先记在心里的东西:
1、cygwin只是模拟了linux环境
2、hadoop必须安装在linux环境上
3、mapreduce程序开发直接就在window上开发即可,你是怎么开发java项目的,就怎么写mapreduce程序
4、mapreduce程序的运行:你是怎么运行java main方法的,那就怎么运行mapreduce程序,可以把写好的程序打成jar包 放到hadoop集群上 执行hadoop命令(就像大家安装完 验证集群是否正常运行那样 ”计算圆周率“一样)
5、我们学的是hadoop 而不是整环境 ,可以先把环境的问题绕过
6、刚开始千万别用eclipse连接hadoop集群,如果你实在是闲着无聊,那请你自己钻研
7、如果你说6的理由是测试方便,那我告诉你,写junit更方便
下面的视频是给想挑战自己能力人看的,如果只是想学好Hadoop的话就别看了!

MapR与Ubuntu携手推免费版Hadoop工具

MapR与Ubuntu Linux开发商Canonical合作,实现Ubuntu与Hadoop大数据平台无缝兼容。
据介绍,Ubuntu/MapR包括MapR M3版本的Hadoop,以支持Ubuntu 12.04 LTS和12.10版本。该软件目前可以通过Canonical的Ubuntu合作伙伴获得,时间从4月25日开始。
Canonical公司副总裁Kyle MacDonald表示,MapR M3是一款易于部署的企业级Hadoop解决方案,“我们为Ubuntu客户提供了高效执行大数据的新途径”。
MapR M3是一款捆绑有HBase数据库、Pig开发分析工具、Hive数据仓库系统、Sqoop数据传输软件和其他Hadoop相关组件的免费版软件。
MapR是什么:
MapR是MapR Technologies, Inc的一个产品,号称下一代Hadoop,使Hadoop变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台,同时性能也不断提高。它将极大的扩大了Hadoop的使用范围和方式。它包含了开源社区的许多流行的工具和功能,例如Hbase、Hive。它还100%和Apache Hadoop的API兼容。它能够为客户节约一半的硬件资源消耗,使更多的组织能够利用海量数据分析的力量提高竞争优势。目前有两个版本,M3和M5,其中M3是免费的,M5为收费版,有试用期。
更多资料:
http://www.mapr.com/
http://blog.chinaunix.net/uid-20787846-id-3015631.html

渐进学习hadoop

渐进式的学习Hadoop:
(1)先搭建一个单节点的 Hadoop平台,先将那些疑问放一边,先去学习如何搭建这个平台;
(2)尝试用Hadoop管理各类文件,尝试将数据存放于其非关系型数据库中,尝试编写一个MapReduce程序,通过些步骤,能够大概的认识到Hadoop是一个海量的数据、文件的存放平台,上面提供了各种通用的工具以帮助用户更好的去分析、应用与处理这些数据与文件;
(3)考虑一个问题:如果当前有一个任务交给你,去实现一个TB、乃至PB级数据的海量存取与快速查询,你最后如果实现了这一任务,其实就是实现了一个专用任务的Hadoop平台,考虑到未来有很多类似的任务,将你的专用Hadoop平台改造成通用性平台,以方便其他用户使用,那你可能就真正实现了一个类似于Hadoop的应用系统。用这样的思维去看待Hadoop可能会让用户理解的为更透彻,另外当用户对这个认识模糊时,大可以不用太担心,这多半是由于当前的实际工作可能还用不上,如果真碰到这样的大数据处理,通过思考就能很快理解Hadoop的好处。
(4)实现多节点的安装与部署,并尝试设置节点失效,看一下如何去管理与调度、监测任务的执行。
(5)实现大批量专用工具部署,并尝试实现1万个文件的存取、数千万数据的写入与查询,再去重新认识一下Hadoop。
(6)尝试在工作中开始实现Hadoop。

Hadoop云计算资料收集

Hadoop云计算资料收集,会陆续更新……
先说下我本人对各种资料、信息来源的看法:
1、书:有些书不错,必须得买,必须得深入的看,这种书比较少;但有些书,乍一看书目很不错,但内容多为浅尝辄止,没啥新意,看看书目就行了,作为查找资料的依据,自学的大纲,不买;垃圾书就不说了。
2、培训:任何事情都有好坏两方面,我对此的态度是不排斥,也不喜欢;好多培训课程在课程安排上还是不错的,因此在自学的时候可以参考培训学校安排的学习路线,参加不参加培训看个人基础,关键是自己知道自己应该学什么,而不是别人告诉你,你要学什么充分利用培训网站上的课程表,安排自学路线,还是不错的方法。充分利用培训学校的培训视频,找到自己需要的知识点,切记,前提一定是知道自己想要学什么;
任何东东都有两面性,取其精华去其糟粕,学好技术才是我们最终目标,看事物的时候不能一刀切!
希望资源失效的时候,大家提醒下,也好及时删除,如果有什么资源,也欢迎大家及时分享。


云计算相关:
北航云计算视频教程  http://soft.buaa.edu.cn/MC/show.asp?id=534
重点推荐张荣典老师的《云计算之前生今世与未来》http://www.huijiangtan.com/pubcontent1.php


Hadoop相关:
史密斯学院关于Hadoop一些资料(英文的)   http://cs.smith.edu/classwiki/index.php/Category:Hadoop
高负载低延迟:动态算法+Hadoop+AWS+NoSQL解析 http://www.csdn.net/article/2013-01-18/2813788-analyzing-billions-of-credit-card-transa
csdn Hadoop专题:http://subject.csdn.net/hadoop/
Mapreduce相关,介绍的内容很基础和比较底层:http://www.importnew.com/?s=hadoop%E6%95%99%E7%A8%8B
如何给Hadoop集群选择硬件:http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/


Java:
java异常处理:http://www.importnew.com/5616.html
tomcat的配置: http://blog.lihai.me/deploy-webapp-on-tomcat.html
调度系统Quartz快速入门:http://www.importnew.com/4107.html


开源相关:
图灵社区,正在翻译的《开源软件架构》http://www.ituring.com.cn/book/1143#jtss-tsina