擎天GF7290 V5 常见问题FAQ
| 故障分类 | 故障特征 | 故障分析 | 故障解决预案 | |
| 启动类 | 整机不上电 | 按电源键无反应 | 检查PSU、电源线、节点模块是否插实 | |
| 启动类 | 单节点不上电 | 某节点无法上电 | 节点模块金手指未插紧 | 重新插拔节点模块 |
| 启动类 | 反复重启 | 服务器自动循环重启 | 电源保护触发或主板异常 | 检查PSU并重置电源流程 |
| 启动类 | 上电无自检 | 风扇转但无自检画面 | 节点板CPU/内存未就位 | 检查节点板安装 |
| 启动类 | 启动卡在LOGO | 停留在开机LOGO不进入系统 | BIOS配置冲突或硬盘异常 | 恢复BIOS默认/检查系统盘 |
| 启动类 | 上电延迟长 | 出现较长等待时间才启动 | 有多个GPU模块初始化耗时 | 属正常现象或减少GPU数量测试 |
| 电源类 | 电源模块报警 | PSU红灯亮 | 电源模块损坏 | 更换PSU |
| 电源类 | 电源不同步 | 两块电源灯状态不一致 | 冗余模式不同步 | 重新插拔电源模块并检查供电 |
| 电源类 | 风扇瞬间全速 | 上电瞬间嗡鸣大 | PSU启动自检阶段 | 属正常行为 |
| 电源类 | 系统突然断电 | 设备突然掉电 | PSU过载或供电不稳 | 检查总电源容量并更换PSU |
| 电源类 | PSU风扇持续高速 | 电源风扇噪声大 | 机箱温度高或PSU内部灰尘 | 清洁风道 |
| 电源类 | 电源无法被识别 | 管理界面看不到PSU | PSU通讯异常或背板接口问题 | 重新插拔PSU |
| 散热类 | 整机风扇全速 | 所有风扇满速运行 | 温度传感器失联 | 重启BMC或检查传感器 |
| 散热类 | 单风扇报警 | 某风扇红灯或停转 | 风扇模块故障 | 更换风扇模块 |
| 散热类 | GPU区域温度过高 | GPU温度报警 | 风道堵塞或GPU散热片积灰 | 清理GPU散热 |
| 散热类 | 节点区域温度高 | 节点CPU温度过高 | 节点风道受阻 | 检查节点风扇与风道 |
| 散热类 | 风扇噪音大 | 持续高噪音 | 高负载运行或灰尘导致压差大 | 清洁风道 |
| 散热类 | 风扇转速异常低 | 风扇无法加速 | 供电不足或风扇故障 | 检查供电或更换风扇 |
| 节点模块类 | 节点无法识别 | 管理界面不显示某节点 | 节点金手指接触不良 | 重新安装节点 |
| 节点模块类 | 节点CPU不识别 | 开机日志提示CPU缺失 | CPU未压紧或安装异常 | 重新安装CPU |
| 节点模块类 | 节点内存不识别 | 某内存条无显示 | 内存未插紧或插槽损坏 | 重新插拔或更换槽位 |
| 节点模块类 | 节点反复离线 | BMC中节点掉线 | 节点通信链路不稳 | 检查背板与节点接口 |
| 节点模块类 | 节点风扇持续满速 | 节点温度传感器无反馈 | 重启节点BMC或检查传感器 | |
| 节点模块类 | 节点频繁报错 | 节点日志大量错误 | 节点主板损坏或内存错误 | 检查节点硬件 |
| GPU类 | GPU不识别 | 系统中无GPU显示 | GPU供电线未连接或插槽不支持 | 检查供电/更换插槽 |
| GPU类 | GPU掉线 | GPU运行后消失 | 供电不足或PCIe不稳 | 检查大功率供电 |
| GPU类 | GPU风扇不转 | 风扇停转或异响 | GPU风扇损坏 | 更换GPU模块 |
| GPU类 | GPU温度过高 | GPU热报警 | 风道堵塞或涂层老化 | 清理并更换导热材料 |
| GPU类 | GPU性能下降 | 运算速度变慢 | 温度过高导致降频 | 改善散热环境 |
| GPU类 | GPU错误灯亮 | 模块告警灯持续亮 | GPU内部异常 | 更换GPU |
| 存储类 | NVMe不识别 | NVMe盘消失 | 硬盘未插紧或背板问题 | 重新插拔盘 |
| 存储类 | NVMe掉盘 | 使用中随机掉线 | 高温或驱动不兼容 | 改善散热或更新驱动 |
| 存储类 | RAID降级 | 阵列进入Degraded模式 | 某盘离线 | 更换硬盘并重建 |
| 存储类 | SAS盘不亮灯 | 硬盘指示灯无反应 | 硬盘或背板故障 | 检查背板电源 |
| 存储类 | 热插拔无效 | 插入硬盘无反应 | SAS/NVMe通道未启用 | 检查适配器模式 |
| 存储类 | 系统盘无法启动 | 引导丢失 | UEFI配置不当 | 重新设置启动项 |
| PCIe/背板类 | PCIe卡不识别 | 扩展卡不显示 | PCIe插槽版本不匹配 | 使用正确插槽 |
| PCIe/背板类 | PCIe速率异常 | 速率降到Gen3 | 链路质量不佳 | 更换线缆或插槽 |
| PCIe/背板类 | 扩展卡掉线 | 使用中断连 | 供电不稳或背板异常 | 检查供电 |
| PCIe/背板类 | OCP卡无网络 | OCP适配器无链路 | OCP未插紧 | 重新插拔OCP |
| PCIe/背板类 | 背板报警 | 背板LED亮红灯 | 背板电源异常 | 检查背板供电 |
| PCIe/背板类 | PCIe错误提示 | 系统报AER错误 | 信号完整性问题 | 更换插槽或线缆 |
| 网络类 | BMC 无法访问 | 无法Ping或Web打不开 | IP冲突或BMC死机 | 重置BMC |
| 网络类 | 网口无灯 | 链路不上 | 网线或交换机端口问题 | 更换网线测试 |
| 网络类 | 网络速度很低 | 带宽不达标 | 链路协商错误 | 锁定链路速率 |
| 网络类 | 远程KVM黑屏 | 无法打开KVM | 浏览器兼容问题 | 使用HTML5模式 |
| 网络类 | SNMP无上报 | 监控无法接收数据 | SNMP未启用或配置错误 | 开启并配置SNMP |
| 网络类 | Syslog无记录 | 日志未发送 | Syslog服务器地址错误 | 重新填写服务器地址 |
| 系统软件类 | 无法安装系统 | 安装界面卡顿 | U盘不兼容或ISO损坏 | 重新制作U盘 |
| 系统软件类 | 系统安装失败 | 复制文件失败 | 硬盘存在坏道 | 更换硬盘 |
| 系统软件类 | 无法进入系统 | 启动后黑屏 | 引导项损坏 | 修复GRUB/UEFI |
| 系统软件类 | 驱动无法加载 | 某硬件不工作 | 驱动版本不匹配 | 安装正确驱动 |
| 系统软件类 | 系统性能低 | 运行缓慢 | 电源模式被降频 | 检查BIOS电源策略 |
| 系统软件类 | 应用频繁崩溃 | 程序使用中异常退出 | 内存条存在错误 | 检测内存 |
| 机箱/结构类 | 机箱无法关闭 | 盖板对不准 | 机箱锁扣未归位 | 重新调整盖板 |
| 机箱/结构类 | 指示灯异常 | 某指示灯持续亮 | 内部模块报警 | 检查模块状态 |
| 机箱/结构类 | 滑轨卡顿 | 抽拉不顺畅 | 滑轨润滑不足 | 润滑或调整滑轨 |
| 机箱/结构类 | 前面板无指示 | 所有灯不亮 | 信号排线脱落 | 检查前面板线缆 |
| 机箱/结构类 | 模块无法拔出 | 卡扣不弹起 | 锁扣机构卡顿 | 检查锁扣机构 |






