博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HDFS配置及常见命令
阅读量:2139 次
发布时间:2019-04-30

本文共 1885 字,大约阅读时间需要 6 分钟。

1)HDFS是Hadoop中用来存储文件的。

2)HDFS只能上传和下载文件,创建文件(这一步不会报错,但是内容需要是空的)写数据会报错(HDFS本身的特性)
1、HDFS 是做什么的
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。
2、HDFS 从何而来
HDFS 源于 Google 在2003年10月份发表的GFS(Google File System) 论文。 它其实就是 GFS 的一个克隆版本
3、为什么选择 HDFS 存储数据
之所以选择 HDFS 存储数据,因为 HDFS 具有以下优点:
1、高容错性
数据自动保存多个副本。它通过增加副本的形式,提高容错性。
某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。
  2、适合批处理
它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。
  3、适合大数据处理
处理数据达到 GB、TB、甚至PB级别的数据。能够处理百万规模以上的文件数量,数量相当之大。
能够处理10K节点的规模。
  4、流式文件访问
一次写入,多次读取。文件一旦写入不能修改,只能追加。它能保证数据的一致性。
  5、可构建在廉价机器上
它通过多副本机制,提高可靠性。它提供了容错和恢复机制。比如某一个副本丢失,可以通过其它副本来恢复。
一、linux配置HDFS
1.进入
c
2.vi hadoop-env.sh
(将第25行修改为如下所示)
【 Esc+:+set nu 】显示行号【Esc+:+set nonu】取消行号
export JAVA_HOME=/opt/jdk1.8.0_11
在这里插入图片描述
4…修改core-site.xml
在这里插入图片描述
在这里插入图片描述
5.修改 vi hdfs-site.xml
在这里插入图片描述
在这里插入图片描述
6.对NameNode进行格式化:只在安装完Hadoop之后,第一次启动HDFS的时候进行格式化操作;
(这一次的操作非常危险,因为他会把原本的内容格式化,所以谨慎的再次使用。)

hdfs namenode -format
(1)格式化过程中没有报错(2)name has been successfully formatted(3)Exiting with status 0(4)NameNode at hadoop/192.168.56.100(这些都是在文本中后半截部分语句,比较难找)

7.启动HDFS

start-dfs.sh
在这里插入图片描述第一次运行可能有些不同,如果要验证是否正确打开
输入命令:jps (同志,仔细看不是jsp)
在这里插入图片描述
如果4个都有说明HDFS开启成功
//如果要停止HDFS:
stop-dfs.sh
//启动失败:NameNode、SecondaryNameNode、DataNode缺少、完全没有进程:
最简单:
拷贝一份能够启动成功的hadoop/etc目录
把Hadoop-2.7.3目录删除掉
重新解压, 将etc 目录拷贝到解压目录中
格式化namenode
重新启动
8.通过浏览器的方式访问(如果浏览器不行,请换谷歌,火狐浏览器,如果还不行的话看看前面linux防火墙有没有关闭)
192.168.56.100:50070
在这里插入图片描述
9.
HDFS指令操作:HDFS文件系统的目录结构延续了Linux的目录结构,也是以 / 作为根目录
创建目录:hdfs dfs -mkdir /park01
查看: hdfs dfs -ls /
递归显示指定目录下的内容: hdfs dfs -ls -R /
将/park01/park02重命名: hdfs dfs -mv /park01/park02 /park01/park03
将/park01/park03 移动到 / : hdfs dfs -mv /park01/park03 /
删除/park100目录: hdfs dfs -rm -r /park01/park100

上传: hdfs  dfs -put 上传文件路径(本地)  目标路径(HDFS)下载:hdfs  dfs  -get  下载文件路径(HDFS) 目标路径(本地)

二、Hadoop Windows插件配置(下一篇吧,我实在肝不动了)

转载地址:http://iipgf.baihongyu.com/

你可能感兴趣的文章
Intellij IDEA使用(三)——在Intellij IDEA中配置Tomcat服务器
查看>>
Intellij IDEA使用(四)—— 使用Intellij IDEA创建静态的web(HTML)项目
查看>>
Intellij IDEA使用(五)—— Intellij IDEA在使用中的一些其他常用功能或常用配置收集
查看>>
Intellij IDEA使用(六)—— 使用Intellij IDEA创建Java项目并配置jar包
查看>>
Eclipse使用(十)—— 使用Eclipse创建简单的Maven Java项目
查看>>
Eclipse使用(十一)—— 使用Eclipse创建简单的Maven JavaWeb项目
查看>>
Intellij IDEA使用(十三)—— 在Intellij IDEA中配置Maven
查看>>
面试题 —— 关于main方法的十个面试题
查看>>
集成测试(一)—— 使用PHP页面请求Spring项目的Java接口数据
查看>>
使用Maven构建的简单的单模块SSM项目
查看>>
Intellij IDEA使用(十四)—— 在IDEA中创建包(package)的问题
查看>>
Redis学习笔记(四)—— redis的常用命令和五大数据类型的简单使用
查看>>
Win10+VS2015编译libcurl
查看>>
Windows下使用jsoncpp
查看>>
Ubuntu下测试使用Nginx+uWsgi+Django
查看>>
Windows下编译x264
查看>>
visual studio调试内存泄漏工具
查看>>
开源Faac实现PCM编码AAC
查看>>
Windows下wave API 音频采集
查看>>
借船过河:一个据说能看穿你的人性和欲望的心理测试
查看>>