日志messages中有IO和文件系统报错

Linux-messages-XFSIOEXT4

一、 检查日志中的I/O和文件系统报错

命令含义

1
cat /var/log/messages | grep 'kernel' | egrep -i 'error|fail|readonly|abort|offline|fatal' | egrep -i 'ext.-fs|I/O|xfs-fs'
  • 作用:从系统日志 /var/log/messages 中筛选出与内核(kernel)相关的错误信息,进一步过滤出包含 I/O错误、文件系统异常(ext4、XFS) 的关键字条目(如 error, fail, readonly 等)。

  • 输出关键信息

    1
    2
    3
    Mar 11 14:41:11 DSJ-FS-FI-1441 kernel: [334658.278904] blk_update_request: I/O error, dev sdd, sector 5855646432  
    Mar 11 14:41:11 DSJ-FS-FI-1441 kernel: [334658.279098] blk_update_request: I/O error, dev sdd, sector 5855512576
    Mar 11 14:41:11 DSJ-FS-FI-1441 kernel: [334658.279120] Buffer I/O error on dev sdd1, logical block 731938816, lost sync page write
  • 结论

    • 设备 sdd 出现 I/O错误,涉及特定扇区和逻辑块,可能是物理磁盘损坏、连接故障或文件系统损坏。
    • 需立即通知二线备份团队(Backup)进行应急处理,并通知应用团队检查业务是否受影响。

二、. 查看磁盘状态(是否掉盘)

命令含义

  • **/home/ansible/storcli64 /c0 show all**:
    使用 RAID 管理工具 storcli64 检查控制器 /c0 下所有物理磁盘(PD)的状态。

    • 输出关键信息
      所有磁盘状态为 Onln(在线),DG(驱动器组)值为 1-10,无 Offln(离线)或 UBad(异常)磁盘。
    • 结论
      磁盘阵列中 未检测到掉盘,硬件层面未发现全局故障。
  • **lsblk**:
    列出所有块设备及其挂载信息,确认文件系统挂载点正常。

    • 输出关键信息
      sdd 对应的分区 sdd1 挂载至 /srv/BigData/hadoop/data*,未显示异常状态。
    • 结论
      date也为1-10证明没有掉盘,逻辑层面挂载正常,但需结合日志进一步排查 sdd 的硬件健康状态。

三、综合分析

1.问题定位:

  • 日志显示 sdd 存在 I/O错误,可能是物理磁盘损坏、数据线接触不良或文件系统故障。
  • 磁盘阵列状态正常(无掉盘),说明问题可能局限于单盘 sdd,而非全局存储故障。

2.建议操作:

  • 立即行动
    • 通知二线备份团队介入,启动业务应急预案。
    • 检查 /srv/BigData/hadoop/data* 的业务是否受影响(如数据写入失败、服务中断)。
  • 进一步排查
    • 使用 smartctl 检查 sdd 的 SMART 健康状态。
    • 检查磁盘连接线、控制器插槽是否松动。
    • 尝试对 sdd 执行文件系统修复(如 xfs_repairfsck)。
  • 长期建议
    • 监控磁盘 I/O 错误率,提前替换潜在故障盘。
    • 优化日志监控告警规则,确保及时响应。