AIX系统错误日志工具errpt详解

IBM-AIX-errpt

一、errpt 工具核心功能

errpt(Error Report Tool)是 AIX 系统中用于分析硬件、软件及操作系统错误的工具,功能包括:

  • 错误分类:区分硬件(H)、软件(S)、操作系统(O)等错误类型。
  • 严重性分级:标记为 Critical(严重)、Major(主要)、Minor(次要)等。
  • 时间记录:精确记录错误发生时间,便于追溯。

二、常用命令及参数解析

命令 说明 示例
errpt 列出所有错误日志(简略格式) errpt
errpt -a 显示错误详细信息(包括修复建议) errpt -a
errpt -d H 过滤显示硬件错误 errpt -d H
errpt -d S 过滤显示软件错误 errpt -d S
errpt -j <ID> 根据错误标识符查看详情 errpt -j BFE4C025
errpt -T PERM 显示永久性错误(需人工干预) errpt -T PERM
errpt -s <时间> 按时间过滤错误(格式:MMDDHHMMYY errpt -s 0301000025(2025年3月1日)

三、故障案例分析流程

案例背景

错误日志中频繁出现 sysplanar0(系统主板)相关错误,标识符为 BFE4C025,类型为 PERM(永久性错误)。


诊断步骤

  1. 初步查看错误列表

    1
    errpt | head -10   # 列出最近10条错误日志

    输出关键字段

    • IDENTIFIER:错误唯一标识(如 BFE4C025)。
    • T:错误类型(P 表示永久性错误,T 表示临时错误)。
    • DESCRIPTION:错误描述(如 UNDETERMINED ERROR)。
  2. 查看错误详情

    1
    errpt -aj BFE4C025   # 显示标识符为 BFE4C025 的详细日志

    关键信息提取

    • SRC(Service Request Code)B175F138
      表示主板子系统预测性错误,需通过 IBM 文档或技术支持解码具体含义。
    • 维护建议Maintenance Procedure: FSPSP83
      指向 IBM 提供的维护流程,通常涉及主板组件更换或固件升级。
    • 附加字段(Additional Words):十六进制状态信息(如 2BBD1F10),需用 IBM 工具(如 snap)解析。

四、错误定位与处理建议

1. 核心错误位置

  • 资源名称sysplanar0(系统主板)
  • 资源类型sysplanar_rspc(符合 CHRP 规范的主板)
    可能涉及电源、总线或芯片组故障。

2. 错误类型与操作

  • 类型PERM(永久性错误)
    需立即处理,无法自愈,可能导致系统功能降级。
  • 建议操作
    • 运行系统诊断diag 命令启动硬件诊断工具。
    • 联系 IBM 支持:根据 SRCMaintenance Procedure 代码获取维护指导。
    • 检查硬件状态
      • 电源模块电压稳定性。
      • 主板芯片组连接与固件版本。

五、关键术语解释

术语 说明
SRC Service Request Code,IBM 硬件错误标识符,需官方文档解码。
FRU Field Replaceable Unit,可更换硬件单元(如电源、内存条)。
CHRP Common Hardware Reference Platform,IBM 硬件标准规范。