Hadoop集群硬盘故障分析与自动化修复

标签： hadoop 集群硬盘 | 发表时间：2015-08-11 23:10 | 作者：ebay

出处：http://blog.csdn.net

作者：Zhang, Haohao

摘要：

硬盘在服务器中起着至关重要的作用，因为硬盘里面存储的是数据，随着制造业技术的提高，硬盘的类型也在逐渐的改变。对于硬盘的管理是IAAS部门的责任，但作为业务运维也需要懂得相关的技术。

有的公司采用LVM来管理硬盘，这样做方便扩缩容，也有的公司直接用裸盘来存数据，这样做的好处是不会因LVM而损失掉一部分硬盘I/O速度。需要根据不同的场景采用不同的方式来管理。

Hadoop集群中跑Datanode服务的节点不建议做LVM，因为没有必要，你想想，Hadoop的HDFS就是做分布式大数据的，用Hadoop的公司肯定是有大量的数据，所以对于HDFS基本原则是硬盘有多少空间就用多少空间，不够用的话再加机器或者加硬盘。

硬盘故障在服务器硬件故障中所占的比例是最高的，下面我给出Ebay的故障报告中的硬件部件和对应故障率状态图：

从图中可以很明显的看到硬盘故障率最高，达到了84%，所以对于运维来说，如果能统计出平时工作中的故障案例，并把它们写成自动化修复脚本，那将有很重大的意义。

如果你的眼光还能看得更远一点的话，可以想一想：能不能做出一套硬件故障检测与修复的系统呢？（需要硬件厂商的合作），我这里只做抛砖引玉，如果你能想到这些，说明你已经走在了自动化运维的路上了。

这里先介绍一例最典型的硬盘故障案例，然后会给出硬盘故障的常规处理步骤，最后我会附上硬盘自动化修复脚本的链接。

环境：

这台服务器是hadoop集群里的一台slavenode ，上面跑的有datanode和nodemanager服务，总共有12块数据盘和一块系统盘，每块数据盘都只做了一个partition，文件系统用的是ext4，没有做LVM。

故障发现：

某天我们的监控系统报出了一条告警，说一个用户的一个Job跑失败了，因为这个用户是很重要的用户，所以他的每个Job跑的成功与否，跑了多长时间我们都是有监控的，废话不多说。

先查看Job id ：job_1431213413583_799324，Failed的Job 在node：example.ebay.com上，对应的日志显示：“Error: java.io.FileNotFoundException…………”，再进一步查看日志，发现是没有找到/path/to/corrupt/file这个block ,我用hadoop fsck命令查看下对应的block所在的节点，发现是在corrupted.node.com上。

考虑到公司安全，以上主机名和文件名都是假设的，大家明白就好。登录出现问题的那台机器，“df -h”先查看下硬盘情况：

#df -h

Filesystem Size Used Avail Use% Mounted on

/dev/sda2 451G 20G 408G 5% /

tmpfs 36G 0 36G 0% /dev/shm

/dev/sdb1 1.9T 1.5T 354G 81% /hadoop/1

/dev/sdc1 1.9T 1.5T 357G 81% /hadoop/2

/dev/sdd1 1.9T 1.5T 351G 81% /hadoop/3

/dev/sde1 1.9T 1.4T 402G 79% /hadoop/4

/dev/sdf1 1.9T 1.5T 371G 80% /hadoop/5

/dev/sdg1 1.9T 1.5T 375G 80% /hadoop/6

/dev/sdh1 1.9T 1.5T 388G 79% /hadoop/7

/dev/sdi1 1.9T 1.5T 383G 80% /hadoop/8

/dev/sdj1 1.9T 1.5T 394G 79% /hadoop/9

/dev/sdl1 1.9T 1.5T 377G 80% /hadoop/11

/dev/sdm1 1.9T 1.5T 386G 79% /hadoop/12

仔细观察会发现/hadoop/10没有，对应的应该是/dev/sdk1，那这块硬盘到哪去了呢？

故障分析：

用fdisk查看：

#fdisk -l /dev/sdk

发现这块盘是GPT table的，这里穿插下分区表的小知识，分区表最常用的是MBR，GPT是比较新的一种，比较少用。

因为其它硬盘都是MBR分区表，所以这块硬盘也应该是MBR的。

再查看/var/log/messages，发现有一些I/O错误信息：

Jul 17 00:50:00 xxxxxxxxxxxxxx kernel:[8385006.016524] Buffer I/O error on device sdk1, logical block 1415594116

估计是硬盘出现逻辑坏道了。

故障解决：

思路是删除/dev/sdk上的所有数据，然后重新分区，格式化。

这里不用担心数据丢失，因为Hadoop设置默认会有三份block信息保存在不同的节点上。

- 用fdisk删除原有分区表信息，创建一个新的partition：

#fdisk /dev/sdk
#    d
#    n
#    p
#    w

- 用parted工具,把partition1的分区表转化为MBR的：

#parted /dev/sdk1
#mklabel msdos
#quit

- 删除保留的百分之五的磁盘空间：

#tune2fs -m 1 /dev/sdk1

- 用ext4格式化partition:

#mkfs.ext4 /dev/sdk1

- 查看磁盘信息：

#fdisk -l /dev/sdk

Disk /dev/sdk: 2000.4 GB, 2000398934016bytes

255 heads, 63 sectors/track, 243201cylinders

Units = cylinders of 16065 * 512 = 8225280bytes

Sector size (logical/physical): 512 bytes/ 512 bytes

I/O size (minimum/optimal): 512 bytes /512 bytes

Disk identifier: 0xea6649b8

Device Boot Start End Blocks Id System

/dev/sdk1 1 243201 1953512001 83 Linux

- 一切正常，查看/etc/fstab：

.......

LABEL=/hadoop09 /hadoop/9 ext4defaults,noatime,nodiratime,noauto 0 2

LABEL=/hadoop10 /hadoop/10 ext4defaults,noatime,nodiratime,noauto 0 2

........

- 注意"noauto"选项，如果你用"mount -a"的话系统不会自动识别文件系统类型，不会自动挂载目录。

所以这里就不能用"mount -a"，而应该手动mount:

#mount LABEL=/hadoop10 /hadoop/10 -o defaults,noatime,nodiratime,noauto -t ext4

- 再用fdisk查看：

#df -h

......

/dev/sdk1 1.8T 1.9G 1.8T 1% /hadoop/10

到这里这个硬盘故障就算彻底解决了。

新硬盘到可用所需要的步骤（无需交互，可写成脚本）：

1 在/dev/sda1删除partition1:

#parted --script -- /dev/sda1 rm 1

2 在/dev/sda1上创建msdos类型的分区表:

#parted --script /dev/sda1 mklabel msdos

3 在/dev/sda1创建partition1：

#parted --script -- /dev/sda1 mkpart primary 1 -1

4 用ext4文件系统格式化/dev/sda1:

#mkfs.ext4 -L $label -N 61050880 -m 1 -O sparse_super /dev/sda1

"-N"表示inode的数量，这个数值如果不指定的话，系统会默认把它设的尽量小，如果硬盘中小文件较多的话，有可能会造成inode不够用的情况。HDFS/Hadoop设计的目的是处理大文件的，默认块的大小是64MB，是Linux文件系统默认值（4KB）的16384倍，又考虑到一块硬盘中不可能全部是HDFS 文件，还会有很多日志文件等，所以在设置inode 数量的时候最好根据经验来判断，或者保险点你可以采取以下公式计算得出：

Inode数量 = （硬盘大小 /4KB ）* 10

"-m 1"表示保留百分之一的硬盘空间，默认保留百分之五，保留的空间可在硬盘被用完的情况下，root用户任然有操作硬盘的机会；

"-O sparse_super"表示使用更少的superblock backup copies，来节约硬盘空间。

5 在/dev/sda1上禁止e2fsck文件系统在开机时自检：

#tune2fs -c 0 -i 0 /dev/sda1

"-c 0"表示无论这块硬盘被mount多少次，系统都不会调用e2fsck扫描硬盘。

硬盘若长期不自检是不好的，可能会造成数据丢失。对于HDFS而言，默认会保留3份blocks文件，所以就算丢失了一份数据，还有2份数据呢，当blocks的保存数不足3份时，HDFS会重新找一台新的服务器来做备份，从而维持3份数据的目的，所以在HDFS里面数据是相对安全的，硬盘扫描就不那么重要了。

最后我分享一个自动化修复硬盘的perl脚本：

https://github.com/zhanghaohao/DiskFormat

作者：ebay 发表于2015/8/11 15:10:57 原文链接

阅读：129 评论：0 查看评论

Hadoop集群硬盘故障分析与自动化修复

- - CSDN博客推荐文章

作者：Zhang, Haohao. 硬盘在服务器中起着至关重要的作用，因为硬盘里面存储的是数据，随着制造业技术的提高，硬盘的类型也在逐渐的改变. 对于硬盘的管理是IAAS部门的责任，但作为业务运维也需要懂得相关的技术. 有的公司采用LVM来管理硬盘，这样做方便扩缩容，也有的公司直接用裸盘来存数据，这样做的好处是不会因LVM而损失掉一部分硬盘I/O速度.

Hadoop集群与Hadoop性能优化

- - 学着站在巨人的肩膀上

本文讲解一下Hadoop集群、Hadoop性能优化、Hadoop机架感知实现、Hadoop配置等，下面是有关这些命令的具体介绍. Hadoop性能优化：Hadoop机架感知实现及配置：分布式的集群通常包含非常多的机器，由于受到机架槽位和交换机网口的限制，通常大型的分布式集群都会跨好几个机架，由多个机架上的机器共同组成一个分布式集群.

[hadoop] 搭建自己的hadoop集群

- - CSDN博客系统运维推荐文章

a> 五台centos6.2虚拟机,配置主机名、IP地址、yum源、. b> 准备所需要的软件包. 2> 配置我自己的hadoop 集群. a> 修改5台机器的hosts文件. b> 配置master无密码登录slave,在master01和master02上执行以下命令: .

Hadoop 集群基准测试

- - IT瘾-dev

生产环境中，如何对 Hadoop 集群进行 Benchmark Test. 本文将通过 Hadoop 自带的 Benchmark 测试程序：TestDFSIO 和 TeraSort，简单介绍如何进行 Hadoop 的读写 & 计算性能的压测. 回顾上篇文章：认识多队列网卡中断绑定. （本文使用 2.6.0 的 hadoop 版本进行测试，基准测试被打包在测试程序 JAR 文件中，通过无参调用 bin/hadoop jar ./share/hadoop/mapreduce/xxx.jar 可以得到其列表）.

[hadoop] 基于Hadoop集群的HBase集群的配置

- - CSDN博客系统运维推荐文章

a> 已经配置完成的Hadoop集群. b> 所需要的软件包. 2> 单独安装的ZooKeeper集群，不基于HBase集群管理. a> 在master01上解压zookeeper-3.4.4.tar.gz. b> 修改Zookeeper的配置文件.

hadoop集群环境的配置

- - ITeye博客

之前说过，我们的hadoop集群已经搭建起来了，只是具体的步骤还没来得及整理，幸好今天又把流程走了一遍，真的是不做不晓得，一做才发现自己原来什么都忘记得差不多了，在此记录一下搭建hadoop集群的步骤，便于需要的时候看看. 这个配环境的过程真的是比较困难的，我今天搞了一天终于把自己的机器作为datanode连接上了master机器，我还是年前搞过一遍的呢，所以这个还是需要耐心+细心的.

腾讯TDW：大型Hadoop集群应用

- - 服务器运维与网站架构|Linux运维|X研究

PS：TDW是腾讯最大的离线数据处理平台. 本文主要从需求、挑战、方案和未来计划等方面，介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案. TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造.

【重要】hadoop集群默认配置和常用配置

- - 学着站在巨人的肩膀上

配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效. 浏览更多的配置，有两个方法:. 1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key，配置hadoop集群.

Hadoop集群安装&Hbase实验环境搭建

- - CSDN博客云计算推荐文章

1.安装ubuntu10.04操作系统. 安装成功后，系统也会有相应提示：. sudo vi /etc/inetd.conf并加入以下一行. sudo vi /etc/xinetd.conf并加入以下内容：. sudo vi /etc/xinetd.d/telnet并加入以下内容：. 重启机器或重启网络服务sudo /etc/init.d/xinetd restart.

分布式集群环境hadoop、hbase、zookeeper搭建（全）

- - CSDN博客云计算推荐文章

集群环境至少需要3个节点（也就是3台服务器设备）：1个Master，2个Slave，节点之间局域网连接，可以相互ping通，下面举例说明，配置节点IP分配如下：. 三个节点均使用centos 6.3系统，为了便于维护，集群环境配置项最好使用相同用户名、用户密码、相同hadoop、hbase、zookeeper目录结构.

Hadoop集群硬盘故障分析与自动化修复

相关 [hadoop 集群硬盘] 推荐：

Hadoop集群硬盘故障分析与自动化修复

Hadoop集群与Hadoop性能优化

[hadoop] 搭建自己的hadoop集群

Hadoop 集群基准测试

[hadoop] 基于Hadoop集群的HBase集群的配置

hadoop集群环境的配置

腾讯TDW：大型Hadoop集群应用

【重要】hadoop集群默认配置和常用配置

Hadoop集群安装&Hbase实验环境搭建

分布式集群环境hadoop、hbase、zookeeper搭建（全）

相关文章

订阅

Hadoop集群硬盘故障分析与自动化修复

相关 [hadoop 集群 硬盘] 推荐：

相关文章

订阅

相关 [hadoop 集群硬盘] 推荐：