如何用阿里云服务器跑深度学习代码?

服务器

使用阿里云服务器运行深度学习代码是一个非常实用且高效的选择,尤其适合需要强大计算资源(如GPU)的深度学习任务。以下是详细步骤指南,帮助你从零开始在阿里云上部署和运行深度学习代码。


一、准备工作

  1. 注册阿里云账号

    • 访问 阿里云官网
    • 注册并完成实名认证。
  2. 开通必要服务

    • 云服务器 ECS
    • (可选)对象存储 OSS(用于存储数据集)
    • (可选)专有网络 VPC(默认已配置)

二、购买和配置云服务器(ECS)

1. 选择实例类型

  • 推荐使用 GPU 实例(如 ecs.gn6i-c4g1.xlargeecs.gn6v-c8g1.8xlarge),适合深度学习训练。
  • 如果只是测试或小模型,可先用 CPU 实例(如 ecs.c6.large)。

2. 镜像选择

  • 推荐镜像
    • Ubuntu 20.04 / 22.04(64位)
    • 或选择 AI 镜像(阿里云提供预装深度学习环境的镜像):
    • 搜索 “深度学习” 或 “AI” 镜像
    • 例如:Deep Learning Image(包含 TensorFlow、PyTorch、CUDA、cuDNN 等)

3. 存储配置

  • 系统盘:建议 ≥ 100GB(SSD)
  • 数据盘:如需处理大模型或数据集,可挂载额外云盘

4. 网络与安全组

  • 分配公网 IP(或绑定弹性公网 IP)
  • 配置安全组规则:
    • 开放 SSH(端口 22)
    • 如需 Jupyter Notebook,开放端口 8888
    • 如需 TensorBoard,开放 6006
    • 建议设置为仅允许你的 IP 访问,提高安全性

三、连接到服务器

使用 SSH 连接(Linux/Mac)或 PuTTY(Windows):

ssh root@你的公网IP

首次登录可能需要设置密码或使用密钥对。


四、配置深度学习环境(若未使用预装镜像)

1. 更新系统

sudo apt update && sudo apt upgrade -y

2. 安装 NVIDIA 驱动(GPU 实例)

  • 如果使用官方 AI 镜像,已预装驱动和 CUDA。
  • 手动安装参考:
    sudo apt install nvidia-driver-470
    sudo reboot

    重启后检查:

    nvidia-smi

3. 安装 CUDA 和 cuDNN(如需要)

  • 推荐使用 AI 镜像避免手动安装。
  • 手动安装可参考 NVIDIA 官网或阿里云文档。

4. 安装 Python 环境

sudo apt install python3 python3-pip python3-venv -y

5. 创建虚拟环境

python3 -m venv dl_env
source dl_env/bin/activate

6. 安装深度学习框架

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 或 TensorFlow
pip install tensorflow-gpu

注意:选择与 CUDA 版本匹配的框架版本。


五、上传和运行代码

方法 1:使用 SCP 上传代码

scp -r your_project root@your_ip:/root/

方法 2:使用 Git

git clone https://github.com/yourname/your-deep-learning-project.git

方法 3:使用 Jupyter Notebook(推荐交互式开发)

  1. 安装 Jupyter:

    pip install jupyter
  2. 生成配置文件:

    jupyter notebook --generate-config
  3. 设置密码:

    jupyter notebook password
  4. 启动 Jupyter(允许远程访问):

    jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root
  5. 本地浏览器访问:

    http://你的公网IP:8888

注意:确保安全组开放 8888 端口,建议使用 SSH 隧道更安全:

ssh -L 8888:localhost:8888 root@你的公网IP

然后访问 http://localhost:8888


六、优化建议

  1. 使用 tmux 或 screen 防止 SSH 断开导致训练中断:

    tmux new -s train
    python train.py
    # 按 Ctrl+B, 然后按 D 脱离会话
  2. 数据存储

    • 大数据集建议上传到 OSS,通过 ossfs 挂载为本地目录
    • 或使用 ossutil 同步数据
  3. 监控 GPU 使用

    nvidia-smi -l 1  # 每秒刷新一次
  4. 成本控制

    • 使用按量付费或抢占式实例降低成本
    • 训练完成后及时释放实例或停止计费

七、常见问题

问题 解决方法
nvidia-smi 找不到 确认购买的是 GPU 实例,检查驱动安装
Jupyter 无法访问 检查安全组、防火墙、启动参数
CUDA 版本不匹配 使用 nvidia-smi 查看驱动支持的 CUDA 版本
磁盘空间不足 挂载数据盘或清理日志

八、进阶工具(可选)

  • 阿里云 PAI:一站式机器学习平台,支持可视化建模、分布式训练
  • 容器服务:使用 Docker + Kubernetes 部署训练任务
  • NAS 文件存储:多实例共享数据

总结

使用阿里云服务器跑深度学习代码的关键步骤:

  1. 选择合适的 GPU 实例
  2. 使用 AI 镜像或手动配置环境
  3. 安全连接并上传代码
  4. 使用 Jupyter 或命令行运行训练
  5. 善用 tmux、OSS、监控工具

如需,我可以提供一键部署脚本或 Jupyter 配置模板。欢迎继续提问!

未经允许不得转载:CDNK博客 » 如何用阿里云服务器跑深度学习代码?