日志messages中有IO和文件系统报错
日志messages中有IO和文件系统报错
一、 检查日志中的I/O和文件系统报错
命令含义:
1 | cat /var/log/messages | grep 'kernel' | egrep -i 'error|fail|readonly|abort|offline|fatal' | egrep -i 'ext.-fs|I/O|xfs-fs' |
作用:从系统日志
/var/log/messages
中筛选出与内核(kernel
)相关的错误信息,进一步过滤出包含 I/O错误、文件系统异常(ext4、XFS) 的关键字条目(如error
,fail
,readonly
等)。输出关键信息:
1
2
3Mar 11 14:41:11 DSJ-FS-FI-1441 kernel: [334658.278904] blk_update_request: I/O error, dev sdd, sector 5855646432
Mar 11 14:41:11 DSJ-FS-FI-1441 kernel: [334658.279098] blk_update_request: I/O error, dev sdd, sector 5855512576
Mar 11 14:41:11 DSJ-FS-FI-1441 kernel: [334658.279120] Buffer I/O error on dev sdd1, logical block 731938816, lost sync page write结论:
- 设备
sdd
出现 I/O错误,涉及特定扇区和逻辑块,可能是物理磁盘损坏、连接故障或文件系统损坏。 - 需立即通知二线备份团队(Backup)进行应急处理,并通知应用团队检查业务是否受影响。
- 设备
二、. 查看磁盘状态(是否掉盘)
命令含义:
**
/home/ansible/storcli64 /c0 show all
**:
使用 RAID 管理工具storcli64
检查控制器/c0
下所有物理磁盘(PD)的状态。- 输出关键信息:
所有磁盘状态为Onln
(在线),DG(驱动器组)值为 1-10,无Offln
(离线)或UBad
(异常)磁盘。 - 结论:
磁盘阵列中 未检测到掉盘,硬件层面未发现全局故障。
- 输出关键信息:
**
lsblk
**:
列出所有块设备及其挂载信息,确认文件系统挂载点正常。- 输出关键信息:
sdd
对应的分区sdd1
挂载至/srv/BigData/hadoop/data*
,未显示异常状态。 - 结论:
date也为1-10证明没有掉盘,逻辑层面挂载正常,但需结合日志进一步排查sdd
的硬件健康状态。
- 输出关键信息:
三、综合分析
1.问题定位:
- 日志显示
sdd
存在 I/O错误,可能是物理磁盘损坏、数据线接触不良或文件系统故障。 - 磁盘阵列状态正常(无掉盘),说明问题可能局限于单盘
sdd
,而非全局存储故障。
2.建议操作:
- 立即行动:
- 通知二线备份团队介入,启动业务应急预案。
- 检查
/srv/BigData/hadoop/data*
的业务是否受影响(如数据写入失败、服务中断)。
- 进一步排查:
- 使用
smartctl
检查sdd
的 SMART 健康状态。 - 检查磁盘连接线、控制器插槽是否松动。
- 尝试对
sdd
执行文件系统修复(如xfs_repair
或fsck
)。
- 使用
- 长期建议:
- 监控磁盘 I/O 错误率,提前替换潜在故障盘。
- 优化日志监控告警规则,确保及时响应。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 RHCloudOps博客!
评论