实例讲解通过镜像还原后SSH、JupyterLab无法连接?

已经释放的实例还能找回数据吗??

您好,实例释放后无法找回数据。

服务器CPU跑满了怎么办??

首先要查看是哪些进程/应用在消耗 CPU。

JupyterLab打不开是怎么回事??

通过镜像导入功能导入的镜像,默认不会安装 jupyterlab,如果需要安装 jupyterlab,请自行安装配置。

官方镜像中默认吧 jupyterlab 安装到了 base 虚拟环境中,如果您对 base 虚拟环境做了修改,比如修改 python 版本、安装其它包导致与 jupyterlab 冲突,卸载 jupyter、误操作等,会引起已安装的 jupyter 损坏,从而导致无法访问到 jupyter,下面给出排查和解决方法。

# 1. 先查看 base 环境中的 Python 版本是否与实例创建时,选择的镜像中的Python版本是否一致。
(base) root@492132307857413:/# python -V
Python 3.10.10

# 2. 使用 `pip list | grep jupyter` 命令来查看当前安装的 jupyter 是否缺少某个包,与下面做对比
(base) root@492132307857413:/# pip list | grep jupyter
jupyter_client                 8.6.0
jupyter_core                   5.5.0
jupyter-events                 0.9.0
jupyter-lsp                    2.2.0
jupyter_server                 2.11.1
jupyter_server_terminals       0.4.4
jupyterlab                     4.0.8
jupyterlab-language-pack-zh-CN 4.0.post3
jupyterlab-pygments            0.2.2
jupyterlab_server              2.25.0

#3. 如果缺少某个包,则通过 pip install 包名 进行安装,例如缺少 jupyter_core 组件,则使用如下命令进行安装
(base) root@492132307857413:/# pip install jupyter_core

#4. 安装完成后使用如下命令重启 jupyterlab
(base) root@492132307857413:/# supervisord ctl restart jupyterlab

#5. 然后查看 jupyterlab 运行状态,如果状态为 Running 则正常,然后去控制台进行访问
(base) root@492132307857413:/# supervisord ctl status jupyterlab
jupyterlab                       Running   pid 40, uptime 0:15:43

#如果为其它状态则提交工单让技术进行排查

为什么我不能调用GPU??

在进行深度学习训练时发现没有使用 GPU,可以尝试以下步骤进行故障排查和解决:

1.确保可以通过 nvidia-smi 命令看到 GPU 信息

nvidia-smi

2.检查当前代码运行的实例环境中已正确安装了您代码所使用的框架,(如TensorFlow、PyTorch等)支持GPU

TensorFlow框架检查

import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.experimental.list_physical_devices('GPU')))

PyTorch框架检查

import torch
print(torch.cuda.is_available())

3.检查安装的CUDA版本是否与您的深度学习框架版本兼容

官方所提供的镜像,包含了框架、CUDA、Python版本,并且都是框架官方所支持的版本)。

如果您在官方镜像中又安装了其它版本的框架,那么请检查下对应框架的官方对于您所安装的框架版本对当前的CUDA版本兼容性。

查看CUDA版本

nvcc -V

4.在训练代码中显性指定GPU设备

TensorFlow框架

with tf.device('/GPU:0'):
    model.fit(...)

PyTorch框架

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
# 确保数据也被发送到GPU
inputs, labels = data[0].to(device), data[1].to(device)

5.设置环境变量 对于某些框架,可能需要设置环境变量来指示使用GPU;例如,对于CUDA,可以设置:

export CUDA_VISIBLE_DEVICES=0

实例通过镜像还原后SSH、JupyterLab无法连接??

实例通过镜像还原后,如果无法连接 SSH 或 JupyterLab,建议您先重启下实例,重启成功后再进行尝试连接,重启后如果还是无法连接,麻烦创建工单让技术排查具体问题。

如果还原镜像选择的是导入的自定义镜像,那么自定义镜像中默认不会安装 JupyterLab ,但是 SSH 应该正常使用,如果 SSH 也无法正常使用,同样去创建工单让技术排查具体问题。