Unable to determine the device handle... GPU is lost. Reboot the system to recover this GPU

服务器上服务器上GPU频繁lost的情况,报错信息如下:

1
Unable to determine the device handle for GPU. GPU is lost. Reboot the system to recover this GPU.

主要原因可能有:

  1. 驱动问题
    • 解决办法:更新驱动;
  2. gpu过热导致,这种情况解决方法有这几种:
    • 将gpu风扇转速改为手动控制,调高转速(因为n卡gpu默认转速貌似永远不会超过70%)
    • 主板、gpu风扇清灰
  3. 电源供电不足导致,这种情况只能更换功率更大的电源解决