服务器上服务器上GPU频繁lost的情况,报错信息如下:1
Unable to determine the device handle for GPU. GPU is lost. Reboot the system to recover this GPU.
主要原因可能有:
- 驱动问题
- 解决办法:更新驱动;
- gpu过热导致,这种情况解决方法有这几种:
- 将gpu风扇转速改为手动控制,调高转速(因为n卡gpu默认转速貌似永远不会超过70%)
- 主板、gpu风扇清灰
- 电源供电不足导致,这种情况只能更换功率更大的电源解决