使用tesla m40跑AI报错 CUDA kernel errors

环境:win10 专业版
本人不懂英文,玩不转Linux
硬件:
英特尔 Xeon(至强) E5-2673 v3 @ 2.40GHz
主板 精粤 X99M-PLUS D3 
显卡  AMD HD 6450 1 GB,接在PCIE1X转16X 转接板上
算力  Tesla M40 24G  大师跑分21万+ 
内存  48 GB ( 三星 DDR3 1866MHz 16GB x 3 )
AI程序:magicanimate  下载来源:github
python版本:3.10   之前还装了一个python 3.8没卸载 

场景:杨丽萍孔雀舞视频+奥特曼图片=奥特曼跳孔雀舞视频,用来做娱乐直播素材
当前问题:用Tesla M40做算力卡,提示:
RuntimeError: CUDA error: the launch timed out and was terminated
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
之前用2060显卡来跑,12G显存,能成功转换4秒视频不报错。4S视频太短了,一个视频要切成无数个4秒,太浪费生命了,所以尝试大显存的M40卡。

解决过程:
Above 4G memory/Crypto Currency mining  已开启
BIOS UEFI 模式,已开启
WDDM模式    已开启
CSM 已关闭

Tesla M40 驱动包:
538.15-data-center-tesla-desktop-win10-win11-64bit-dch-international.exe  
文件版本:1.0.14.0   大小:495M  来源: N卡官网
WIN10系统设备管理器里看到的M40卡驱动版本:31.0.15.3815

CUDA版本 12.2 已安装,之前安装过CUDA10.1 报错信息一样,以为换成12.2能解决。结果一样报错。

本机因为只有一个PCIE16,插了M40后,亮机卡没地方插,所以用了1X转16X转接板。
即使不使用这张转接板,不接亮机卡,用远程桌面来连接,跑上面的AI,还是同样的报错。所以报错和亮机卡无关。

没有装:cudnn,没有装pytorch,因为magicanimate是WIN版本的,包里有自带的虚拟化功能。
之前用2060显卡是能正常跑不报错的。

现在想求助远程协助解决。总酬谢费80元。已经在本平台悬赏页里付了20元
如果需要下载大文件,请提前告诉我,下载好了再远程。
谢谢!加我VX:V52595264