本文共 1885 字,大约阅读时间需要 6 分钟。
1)HDFS是Hadoop中用来存储文件的。
2)HDFS只能上传和下载文件,创建文件(这一步不会报错,但是内容需要是空的)写数据会报错(HDFS本身的特性) 1、HDFS 是做什么的 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。 2、HDFS 从何而来 HDFS 源于 Google 在2003年10月份发表的GFS(Google File System) 论文。 它其实就是 GFS 的一个克隆版本 3、为什么选择 HDFS 存储数据 之所以选择 HDFS 存储数据,因为 HDFS 具有以下优点: 1、高容错性 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。 2、适合批处理 它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。 3、适合大数据处理 处理数据达到 GB、TB、甚至PB级别的数据。能够处理百万规模以上的文件数量,数量相当之大。 能够处理10K节点的规模。 4、流式文件访问 一次写入,多次读取。文件一旦写入不能修改,只能追加。它能保证数据的一致性。 5、可构建在廉价机器上 它通过多副本机制,提高可靠性。它提供了容错和恢复机制。比如某一个副本丢失,可以通过其它副本来恢复。 一、linux配置HDFS 1.进入 2.vi hadoop-env.sh (将第25行修改为如下所示) 【 Esc+:+set nu 】显示行号【Esc+:+set nonu】取消行号 export JAVA_HOME=/opt/jdk1.8.0_11 4…修改core-site.xml 5.修改 vi hdfs-site.xml 6.对NameNode进行格式化:只在安装完Hadoop之后,第一次启动HDFS的时候进行格式化操作; (这一次的操作非常危险,因为他会把原本的内容格式化,所以谨慎的再次使用。)hdfs namenode -format
(1)格式化过程中没有报错(2)name has been successfully formatted(3)Exiting with status 0(4)NameNode at hadoop/192.168.56.100(这些都是在文本中后半截部分语句,比较难找)
7.启动HDFS
start-dfs.sh 第一次运行可能有些不同,如果要验证是否正确打开 输入命令:jps (同志,仔细看不是jsp) 如果4个都有说明HDFS开启成功 //如果要停止HDFS: stop-dfs.sh //启动失败:NameNode、SecondaryNameNode、DataNode缺少、完全没有进程: 最简单: 拷贝一份能够启动成功的hadoop/etc目录 把Hadoop-2.7.3目录删除掉 重新解压, 将etc 目录拷贝到解压目录中 格式化namenode 重新启动 8.通过浏览器的方式访问(如果浏览器不行,请换谷歌,火狐浏览器,如果还不行的话看看前面linux防火墙有没有关闭) 192.168.56.100:50070 9. HDFS指令操作:HDFS文件系统的目录结构延续了Linux的目录结构,也是以 / 作为根目录 创建目录:hdfs dfs -mkdir /park01 查看: hdfs dfs -ls / 递归显示指定目录下的内容: hdfs dfs -ls -R / 将/park01/park02重命名: hdfs dfs -mv /park01/park02 /park01/park03 将/park01/park03 移动到 / : hdfs dfs -mv /park01/park03 / 删除/park100目录: hdfs dfs -rm -r /park01/park100上传: hdfs dfs -put 上传文件路径(本地) 目标路径(HDFS)下载:hdfs dfs -get 下载文件路径(HDFS) 目标路径(本地)
二、Hadoop Windows插件配置(下一篇吧,我实在肝不动了)
转载地址:http://iipgf.baihongyu.com/