AIX系统错误日志工具errpt详解
AIX系统错误日志工具errpt详解
一、errpt 工具核心功能
errpt
(Error Report Tool)是 AIX 系统中用于分析硬件、软件及操作系统错误的工具,功能包括:
- 错误分类:区分硬件(
H
)、软件(S
)、操作系统(O
)等错误类型。 - 严重性分级:标记为
Critical
(严重)、Major
(主要)、Minor
(次要)等。 - 时间记录:精确记录错误发生时间,便于追溯。
二、常用命令及参数解析
命令 | 说明 | 示例 |
---|---|---|
errpt |
列出所有错误日志(简略格式) | errpt |
errpt -a |
显示错误详细信息(包括修复建议) | errpt -a |
errpt -d H |
过滤显示硬件错误 | errpt -d H |
errpt -d S |
过滤显示软件错误 | errpt -d S |
errpt -j <ID> |
根据错误标识符查看详情 | errpt -j BFE4C025 |
errpt -T PERM |
显示永久性错误(需人工干预) | errpt -T PERM |
errpt -s <时间> |
按时间过滤错误(格式:MMDDHHMMYY ) |
errpt -s 0301000025 (2025年3月1日) |
三、故障案例分析流程
案例背景
错误日志中频繁出现 sysplanar0
(系统主板)相关错误,标识符为 BFE4C025
,类型为 PERM
(永久性错误)。
诊断步骤
初步查看错误列表
1
errpt | head -10 # 列出最近10条错误日志
输出关键字段:
IDENTIFIER
:错误唯一标识(如BFE4C025
)。T
:错误类型(P
表示永久性错误,T
表示临时错误)。DESCRIPTION
:错误描述(如UNDETERMINED ERROR
)。
查看错误详情
1
errpt -aj BFE4C025 # 显示标识符为 BFE4C025 的详细日志
关键信息提取:
- SRC(Service Request Code):
B175F138
表示主板子系统预测性错误,需通过 IBM 文档或技术支持解码具体含义。 - 维护建议:
Maintenance Procedure: FSPSP83
指向 IBM 提供的维护流程,通常涉及主板组件更换或固件升级。 - 附加字段(Additional Words):十六进制状态信息(如
2BBD1F10
),需用 IBM 工具(如snap
)解析。
- SRC(Service Request Code):
四、错误定位与处理建议
1. 核心错误位置
- 资源名称:
sysplanar0
(系统主板) - 资源类型:
sysplanar_rspc
(符合 CHRP 规范的主板)
可能涉及电源、总线或芯片组故障。
2. 错误类型与操作
- 类型:
PERM
(永久性错误)
需立即处理,无法自愈,可能导致系统功能降级。 - 建议操作:
- 运行系统诊断:
diag
命令启动硬件诊断工具。 - 联系 IBM 支持:根据
SRC
和Maintenance Procedure
代码获取维护指导。 - 检查硬件状态:
- 电源模块电压稳定性。
- 主板芯片组连接与固件版本。
- 运行系统诊断:
五、关键术语解释
术语 | 说明 |
---|---|
SRC | Service Request Code,IBM 硬件错误标识符,需官方文档解码。 |
FRU | Field Replaceable Unit,可更换硬件单元(如电源、内存条)。 |
CHRP | Common Hardware Reference Platform,IBM 硬件标准规范。 |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 RHCloudOps博客!
评论