使用storcli64工具定位与排查RAID卡告警
使用storcli64工具定位与排查RAID卡告警
一、核心操作流程
1.上传RAID卡管理工具
在Ansible管理机中找到RAID卡工具 storcli64
,上传至目标主机:
1 | cd /home/ansible |
scp
命令:用于跨主机安全传输文件。- 目标路径:确保目标主机有写入权限(如
/home/ansible
)。
2.检查RAID卡状态
使用 storcli64
查看RAID卡(控制器 /c0
)的详细信息:
1 | /home/ansible/storcli64 /c0 show all # 显示RAID卡所有信息(物理盘、逻辑卷、状态等) |
关键输出字段解析:
字段 说明 EID:Slt 物理盘位置(Enclosure ID:Slot)。 DID 磁盘唯一标识符。 State 磁盘状态: Onln
(正常在线)、Offln
(离线异常)。DG 磁盘所属磁盘组(RAID组)。 Model 磁盘型号(如 HGST HUS726T6TALE6L4
)。故障判断:
若
State
显示Offln
(如0:1 11 Offln 2 ...
),表示该磁盘已离线,需进一步处理。1
0:1 11 Offln 2 5.456 TB SATA HDD N N 512B HUS726060ALE610 U -
操作建议:
- 通过服务器管理口(如iLO/iDRAC)确认物理硬盘故障指示灯状态。
- 记录故障磁盘的
EID:Slt
(如0:1
),准备更换。
3.确认RAID卡型号
通过 lspci
查看RAID卡硬件型号:
1 | lspci | grep -i lsi # 过滤显示LSI品牌的RAID控制器 |
- 关键信息:
- 型号:
MegaRAID SAS-3 3108 [Invader]
- 兼容性:确认工具
storcli64
支持该型号(LSI RAID卡通用)。
- 型号:
二、关键命令解析
命令 | 说明 |
---|---|
scp <本地文件> <用户@IP:路径> |
跨主机安全复制文件(需SSH权限)。 |
storcli64 /c0 show all |
显示RAID控制器 /c0 的详细信息,包括物理盘、逻辑卷状态。 |
lspci | grep -i lsi |
列出所有PCI设备,过滤显示LSI品牌硬件(如RAID卡)。 |
三、故障处理建议
1.离线磁盘处理
- 物理更换:
根据EID:Slt
定位故障硬盘(如0:1
表示 Enclosure 0, Slot 1),断电后更换新硬盘。 - 重新加入阵列:
1
/home/ansible/storcli64 /c0/e0/s1 set online # 将Enclosure 0, Slot 1的磁盘重新上线
- 重建RAID(如需):
1
/home/ansible/storcli64 /c0/dg2 start rebuild # 对磁盘组2启动重建
2.日志清理(可选)
1 | /home/ansible/storcli64 /c0 delete logs # 清除RAID卡历史日志 |
四、注意事项
1.权限问题:
storcli64
需以root
权限运行,否则可能无法获取完整信息。- 若工具无执行权限,运行
chmod +x /home/ansible/storcli64
。
2.数据备份:
- 更换磁盘前,确认RAID冗余级别(如RAID 5/6/10),确保数据安全。
3.固件升级:
- 若频繁出现磁盘离线,检查RAID卡固件版本,必要时升级:
1
/home/ansible/storcli64 download firmware file=<固件文件> # 需从官网获取固件
五、总结
- 核心步骤:上传工具 → 检查磁盘状态 → 定位故障 → 物理更换 → 重建阵列。
- 工具依赖:
storcli64
是管理LSI RAID卡的核心工具,需与硬件型号匹配。 - 自动化扩展:可通过Ansible批量执行
storcli64
命令,实现多主机RAID状态监控。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 RHCloudOps博客!
评论