如何用阿里云服务器跑深度学习代码？-CDNK博客

使用阿里云服务器运行深度学习代码是一个非常实用且高效的选择，尤其适合需要强大计算资源（如GPU）的深度学习任务。以下是详细步骤指南，帮助你从零开始在阿里云上部署和运行深度学习代码。

推荐镜像：
- Ubuntu 20.04 / 22.04（64位）
- 或选择 AI 镜像（阿里云提供预装深度学习环境的镜像）：
- 搜索 “深度学习” 或 “AI” 镜像
- 例如：Deep Learning Image（包含 TensorFlow、PyTorch、CUDA、cuDNN 等）

分配公网 IP（或绑定弹性公网 IP）
配置安全组规则：
- 开放 SSH（端口 22）
- 如需 Jupyter Notebook，开放端口 8888
- 如需 TensorBoard，开放 6006
- 建议设置为仅允许你的 IP 访问，提高安全性

使用 SSH 连接（Linux/Mac）或 PuTTY（Windows）：

ssh root@你的公网IP

首次登录可能需要设置密码或使用密钥对。

sudo apt update && sudo apt upgrade -y

手动安装参考：

sudo apt install nvidia-driver-470
sudo reboot

重启后检查：

nvidia-smi

sudo apt install python3 python3-pip python3-venv -y

python3 -m venv dl_env
source dl_env/bin/activate

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 或 TensorFlow
pip install tensorflow-gpu

注意：选择与 CUDA 版本匹配的框架版本。

scp -r your_project root@your_ip:/root/

git clone https://github.com/yourname/your-deep-learning-project.git

启动 Jupyter（允许远程访问）：

jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root

注意：确保安全组开放 8888 端口，建议使用 SSH 隧道更安全：
ssh -L 8888:localhost:8888 root@你的公网IP
然后访问 http://localhost:8888

使用 tmux 或 screen 防止 SSH 断开导致训练中断：

tmux new -s train
python train.py
# 按 Ctrl+B, 然后按 D 脱离会话

使用阿里云服务器跑深度学习代码的关键步骤：

如需，我可以提供一键部署脚本或 Jupyter 配置模板。欢迎继续提问！