hadoop客户端该如何配置
Hadoop集群主要是由三部分组成的:主节点、从节点和客户端,即master、slave和client。我们在搭建hadoop集群的时候通常只考虑了主节点和从节点的搭建,却忽略了客户端。当我们搭建完成后,我们在其中的一台机器上运行wordcount或者计算π时,实际上我们已经默认将一台主节点或者一台从节点当做客户端来使用了,但是,如果我想把客户端独立,该如何单独配置客户端呢?
答案其实很简单,只要在配置slave的时候,不要把客户端添加到slave里,即客户端和hadoop集群其他的节点配置是一摸一样的,但不参与运算。
完整的hadoop集群搭建过程,请参考:《Hadoop集群搭建详细简明教程》
一直没抽出时间来好好学习hadoop,前阵子想做一个hadoop的商城的分析当作毕业设计;感觉难度有点大了,楼主可以介绍鞋入门的书籍么? 感谢楼主
推荐这两本书:
《hadoop权威指南》 这本书偏理论,需要仔细阅读
《实战Hadoop》 刘鹏教授主编 偏重点实践
mapreduce做数据分析
你好,我想问一下
1.HDFS是基于本地操作系统的?这个具体是怎么回事呢?
2.Hadoop的文件读写实现是否必须要通过一个程序或软件?可以实现数据的直接存取么?像ext4那样?
3.Hadoop需要一个单独的日志系统是因为HDFS不带日志么,若带的化存储在哪里,结构是怎样的?日志系统实现的内容是Hadoop本身所不能实现的,还是可以实现而日志系统只是将Hadoop的日志集中处理?
若能百忙之中为我解惑,不胜感激
1、hdfs的数据实际上是存储在本地文件系统中的。在配置hadoop时你需要配置hdfs的存储文件夹,如果你的用户名为root,文件夹位置是/root/tmp。那么你的hdfs的数据存储在/root/tmp/dfs/data/current中。其中block是块文件,也就是数据文件,.meta是元数据。hadoop是java写的,因此hadoop存储的数据的方式使用的也是java的方式。 这是从百度上查到的,查一下hadoop集群创建时的配置文件参数都是干什么用的,基本就明白了。
2、ext4是linux文件系统的一种格式吧?直接存取是什么概念?java怎么读取文件,hadoop肯定就怎么读取文件,应该是通过hadoop api 读取hadoop上放置的文件
3、hadoop只是一个计算和存储框架,它和日志系统完成的不是一个功能。你可以让日志系统接收日志,然后转发存储到hdfs上。
hdfs或者mapreduce的日志,是其系统本身运行的日志;hdfs很好的存储了日志,而 mapreduce则可以很好的对日志进行计算;另外 日志的字段是业务来定义的,结构嘛 基本上是以行为单位,分隔符分割开记录即可