使用阿里云服务器运行深度学习代码是一个非常实用且高效的选择,尤其适合需要强大计算资源(如GPU)的深度学习任务。以下是详细步骤指南,帮助你从零开始在阿里云上部署和运行深度学习代码。
一、准备工作
-
注册阿里云账号
- 访问 阿里云官网
- 注册并完成实名认证。
-
开通必要服务
- 云服务器 ECS
- (可选)对象存储 OSS(用于存储数据集)
- (可选)专有网络 VPC(默认已配置)
二、购买和配置云服务器(ECS)
1. 选择实例类型
- 推荐使用 GPU 实例(如
ecs.gn6i-c4g1.xlarge或ecs.gn6v-c8g1.8xlarge),适合深度学习训练。 - 如果只是测试或小模型,可先用 CPU 实例(如
ecs.c6.large)。
2. 镜像选择
- 推荐镜像:
- Ubuntu 20.04 / 22.04(64位)
- 或选择 AI 镜像(阿里云提供预装深度学习环境的镜像):
- 搜索 “深度学习” 或 “AI” 镜像
- 例如:
Deep Learning Image(包含 TensorFlow、PyTorch、CUDA、cuDNN 等)
3. 存储配置
- 系统盘:建议 ≥ 100GB(SSD)
- 数据盘:如需处理大模型或数据集,可挂载额外云盘
4. 网络与安全组
- 分配公网 IP(或绑定弹性公网 IP)
- 配置安全组规则:
- 开放 SSH(端口 22)
- 如需 Jupyter Notebook,开放端口 8888
- 如需 TensorBoard,开放 6006
- 建议设置为仅允许你的 IP 访问,提高安全性
三、连接到服务器
使用 SSH 连接(Linux/Mac)或 PuTTY(Windows):
ssh root@你的公网IP
首次登录可能需要设置密码或使用密钥对。
四、配置深度学习环境(若未使用预装镜像)
1. 更新系统
sudo apt update && sudo apt upgrade -y
2. 安装 NVIDIA 驱动(GPU 实例)
- 如果使用官方 AI 镜像,已预装驱动和 CUDA。
- 手动安装参考:
sudo apt install nvidia-driver-470 sudo reboot重启后检查:
nvidia-smi
3. 安装 CUDA 和 cuDNN(如需要)
- 推荐使用 AI 镜像避免手动安装。
- 手动安装可参考 NVIDIA 官网或阿里云文档。
4. 安装 Python 环境
sudo apt install python3 python3-pip python3-venv -y
5. 创建虚拟环境
python3 -m venv dl_env
source dl_env/bin/activate
6. 安装深度学习框架
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 或 TensorFlow
pip install tensorflow-gpu
注意:选择与 CUDA 版本匹配的框架版本。
五、上传和运行代码
方法 1:使用 SCP 上传代码
scp -r your_project root@your_ip:/root/
方法 2:使用 Git
git clone https://github.com/yourname/your-deep-learning-project.git
方法 3:使用 Jupyter Notebook(推荐交互式开发)
-
安装 Jupyter:
pip install jupyter -
生成配置文件:
jupyter notebook --generate-config -
设置密码:
jupyter notebook password -
启动 Jupyter(允许远程访问):
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root -
本地浏览器访问:
http://你的公网IP:8888
注意:确保安全组开放 8888 端口,建议使用 SSH 隧道更安全:
ssh -L 8888:localhost:8888 root@你的公网IP然后访问
http://localhost:8888
六、优化建议
-
使用 tmux 或 screen 防止 SSH 断开导致训练中断:
tmux new -s train python train.py # 按 Ctrl+B, 然后按 D 脱离会话 -
数据存储
- 大数据集建议上传到 OSS,通过
ossfs挂载为本地目录 - 或使用
ossutil同步数据
- 大数据集建议上传到 OSS,通过
-
监控 GPU 使用
nvidia-smi -l 1 # 每秒刷新一次 -
成本控制
- 使用按量付费或抢占式实例降低成本
- 训练完成后及时释放实例或停止计费
七、常见问题
| 问题 | 解决方法 |
|---|---|
nvidia-smi 找不到 |
确认购买的是 GPU 实例,检查驱动安装 |
| Jupyter 无法访问 | 检查安全组、防火墙、启动参数 |
| CUDA 版本不匹配 | 使用 nvidia-smi 查看驱动支持的 CUDA 版本 |
| 磁盘空间不足 | 挂载数据盘或清理日志 |
八、进阶工具(可选)
- 阿里云 PAI:一站式机器学习平台,支持可视化建模、分布式训练
- 容器服务:使用 Docker + Kubernetes 部署训练任务
- NAS 文件存储:多实例共享数据
总结
使用阿里云服务器跑深度学习代码的关键步骤:
- 选择合适的 GPU 实例
- 使用 AI 镜像或手动配置环境
- 安全连接并上传代码
- 使用 Jupyter 或命令行运行训练
- 善用 tmux、OSS、监控工具
如需,我可以提供一键部署脚本或 Jupyter 配置模板。欢迎继续提问!
CDNK博客