环境
集群7台
master 3台
datanode 4台
每个datanode有12个硬盘
场景
启动集群之后,发现有一台datanode未启动,手动启动,还是未启动。查看日志,发现:
Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to
百度之后,说是磁盘有问题
核查
查看硬盘信息
[root@hdfsdata1 /]df -h Filesystem Size Used Avail Use% Mounted on /dev/mapper/VolGroup-lv_root 50G 3.2G 44G 7% / tmpfs 63G 0 63G 0% /dev/shm /dev/sdm2 485M 40M 421M 9% /boot /dev/sdm1 200M 260K 200M 1% /boot/efi /dev/mapper/VolGroup-lv_home 5.0G 161M 4.6G 4% /home /dev/mapper/VolGroup-lv_zhjs 197G 3.2G 184G 2% /zhjs /dev/sda 5.4T 17G 5.1T 1% /data01 /dev/sdb 5.4T 17G 5.1T 1% /data02 /dev/sdc 5.4T 18G 5.1T 1% /data03 /dev/sdd 5.4T 18G 5.1T 1% /data04 /dev/sde 5.4T 18G 5.1T 1% /data05 /dev/sdf 5.4T 18G 5.1T 1% /data06 /dev/sdg 5.4T 18G 5.1T 1% /data07 /dev/sdh 5.4T 18G 5.1T 1% /data08 /dev/sdi 5.4T 24G 5.1T 1% /data09 /dev/sdj 5.4T 18G 5.1T 1% /data10 /dev/sdk 5.4T 17G 5.1T 1% /data11 /dev/sdl 5.4T 1.7T 3.5T 32% /data12
查看磁盘状态
iostat -x -k
[root@hdfsdata1 /] iostat -x -k Linux 2.6.32-431.el6.x86_64 (hdfsdata1) 2021年09月05日 _x86_64_ (32 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.20 0.00 0.06 0.02 0.00 99.73 Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util sda 0.00 3.67 0.04 0.14 2.98 15.24 204.79 0.01 70.48 0.76 0.01 sdc 0.00 3.86 0.06 0.14 4.09 16.03 201.01 0.01 65.44 0.76 0.02 sde 0.00 8.35 0.05 0.20 3.88 34.19 308.30 0.03 104.15 1.03 0.03 sdf 0.00 5.42 0.07 0.17 4.70 22.35 227.83 0.02 74.27 0.85 0.02 sdm 0.01 1.11 0.01 0.85 0.26 7.87 18.87 0.01 15.66 5.71 0.49 sdg 0.00 6.96 0.06 0.18 4.22 28.57 272.65 0.02 88.65 0.93 0.02 sdh 0.00 11.60 0.06 0.24 5.30 47.36 347.48 0.03 113.76 1.08 0.03 sdi 0.00 2.23 0.01 0.11 1.50 9.40 170.01 0.06 446.02 3.37 0.04 sdb 0.00 3.53 0.05 0.14 3.77 14.66 200.25 0.01 65.31 0.77 0.01 sdj 0.00 4.89 0.05 0.16 4.71 20.21 235.10 0.02 116.51 1.61 0.03 sdk 0.00 4.52 0.06 0.16 5.91 18.71 220.89 0.02 109.69 1.60 0.04 sdl 0.01 37.37 0.04 0.78 3.44 152.72 380.19 0.11 137.09 1.30 0.11 sdd 0.00 4.57 0.07 0.15 5.02 18.89 217.37 0.01 67.86 0.82 0.02 dm-0 0.00 0.00 0.01 1.22 0.18 4.86 8.26 0.08 65.84 3.06 0.37 dm-1 0.00 0.00 0.01 0.00 0.05 0.01 8.00 0.00 4.31 0.42 0.00 dm-2 0.00 0.00 0.00 0.07 0.00 0.27 8.00 0.00 9.46 4.88 0.03 dm-3 0.00 0.00 0.00 0.68 0.03 2.73 8.08 0.12 170.89 1.33 0.09
发现sdi这个硬盘的await:平均每次设备I/O操作的等待时间很高
查看硬盘状态
smartctl -H /dev/sdi
[root@hdfsdata1 /]smartctl -H /dev/sdi smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build) Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net Smartctl open device: /dev/sdi failed: No such device or address
查看其他盘状态(正常)
smartctl -H /dev/sda
[root@hdfsdata1 /]smartctl -H /dev/sda smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build) Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net SMART Health Status: OK
进入目录验证
[root@hdfsdata1 /]cd /data09 [root@hdfsdata1 data09]pwd /data09 [root@hdfsdata1 data09]ll ls: 正在读取目录.: 输入/输出错误 总用量 0
发现/dev/sdi这个磁盘确实存在问题!
解决方法,待更新。。。