在 TencentOS Server 3.1 (TK4) 上安装 GPU 驱动(如 NVIDIA 驱动)是一个常见的需求,尤其是在使用云服务器进行 AI 训练、深度学习或高性能计算时。以下是详细的步骤指南。
✅ 前提条件
-
确认你使用的是 TencentOS Server 3.1 (TK4):
cat /etc/os-release应该看到类似:
NAME="TencentOS Server" VERSION="3.1 (TK4)" ID=tencentos VERSION_ID=3.1 PRETTY_NAME="TencentOS Server 3.1 (TK4)" -
确认你的实例已挂载了 GPU 设备:
lspci | grep -i nvidia如果没有输出,说明未正确挂载 GPU,请检查云控制台中是否已绑定 GPU 实例类型(如 GN 系列)。
📦 方法一:使用腾讯云官方推荐方式(推荐)
腾讯云为 TencentOS 提供了优化的驱动安装脚本和源,推荐优先使用。
步骤 1:更新系统并安装必要工具
sudo yum update -y
sudo yum groupinstall "Development Tools" -y
sudo yum install epel-release kernel-devel kernel-headers dkms acpid libglvnd-glx libglvnd-opengl -y
步骤 2:启用腾讯云内核驱动源(可选但推荐)
TencentOS 使用定制内核,需确保 kernel-devel 匹配当前运行的内核版本:
uname -r
rpm -qa | grep kernel-devel
如果不匹配,安装对应版本:
sudo yum install "kernel-devel-$(uname -r)" "kernel-headers-$(uname -r)" -y
注意:TencentOS 的内核包通常托管在腾讯内部源,一般默认已配置好。
步骤 3:下载并安装 NVIDIA 官方驱动
方式 A:使用 NVIDIA 官网驱动(通用)
-
前往 NVIDIA 驱动下载页面
选择你的 GPU 型号(如 Tesla T4, V100, A10 等),操作系统选 Linux 64-bit,生成下载链接。 -
下载驱动(示例为
NVIDIA-Linux-x86_64-535.129.03.run):wget https://us.download.nvidia.com/.../NVIDIA-Linux-x86_64-535.129.03.run -
禁用 Nouveau 驱动(必须):
sudo bash -c 'echo "blacklist nouveau" >> /etc/modprobe.d/blacklist-nouveau.conf' sudo bash -c 'echo "options nouveau modeset=0" >> /etc/modprobe.d/blacklist-nouveau.conf' sudo dracut --force -
重启进入文本模式(或直接重启):
sudo systemctl set-default multi-user.target sudo reboot -
登录后停止图形界面(如果有的话):
sudo systemctl stop gdm # 或 lightdm/cdm -
赋予权限并安装驱动:
chmod +x NVIDIA-Linux-x86_64-535.129.03.run sudo ./NVIDIA-Linux-x86_64-535.129.03.run安装过程中建议:
- 允许 nvidia-xconfig 更新 X 配置(即使无显示器)
- 启用 DKMS(便于内核升级后自动重建模块)
-
安装完成后重启:
sudo reboot -
验证安装:
nvidia-smi应该能看到 GPU 信息和驱动版本。
方式 B:使用腾讯云镜像市场预装镜像(最简单)
腾讯云提供 “GPU 驱动预装镜像” 的 TencentOS 镜像,在创建实例时选择:
- 镜像类型:公共镜像 → 操作系统:TencentOS → 选择带 “CUDA” 或 “GPU Driver” 标签的镜像
- 或搜索 “TencentOS + CUDA”
这样无需手动安装,开箱即用。
方式 C:使用腾讯云自动化脚本(实验性)
腾讯云有时提供一键安装脚本,例如:
curl -s https://mirrors.cloud.tencent.com/tencentos/gpu/install_gpu_driver.sh | sudo bash
⚠️ 注意:请从官方文档获取最新脚本地址,避免安全风险。
参考文档:
👉 https://cloud.tencent.com/document/product/213/39964
🔧 常见问题排查
| 问题 | 解决方法 |
|---|---|
nvidia-smi: command not found |
驱动未安装成功,检查日志 /var/log/nvidia-installer.log |
The kernel was unable to load the NVIDIA driver |
内核头文件不匹配,确保 kernel-devel 版本与 uname -r 一致 |
Error: Unable to find the development toolchain |
安装 gcc, make, dkms 等开发包 |
X server is active 导致安装失败 |
进入 multi-user.target 模式再安装 |
✅ 安装 CUDA Toolkit(可选)
如果你还需要 CUDA 支持(如 PyTorch/TensorFlow):
# 添加 CUDA repo(以 CUDA 12.4 为例)
wget https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
sudo mv cuda-rhel7.repo /etc/yum.repos.d/cuda.repo
# 安装 CUDA
sudo yum clean all
sudo yum install cuda-driver-dev-12-4 cuda-toolkit-12-4 -y
注意:TencentOS 3.1 基于 RHEL/CentOS 7,可用 rhel7 源。
📚 参考文档
- 腾讯云 GPU 驱动安装指南:
https://cloud.tencent.com/document/product/213/39964 - NVIDIA Linux 驱动安装指南:
https://docs.nvidia.com/datacenter/tesla/index.html
如有具体 GPU 型号或错误日志,欢迎提供,我可以进一步帮你诊断。
CDNK博客