图文并茂讲解CUDA, CUDA Toolkit, CUDA Driver, CUDA Runtime, nvcc之间的关系及其版本兼容性-程序员宅基地

Intorduction:
跑深度学习需要用到GPU，而CUDA就是GPU和程序(如python)之间的桥梁。CUDA的环境依赖错综复杂，环境配置成为深度学习初学者的拦路虎。
同时网上教程大多为解决某个具体环境配置报错，或者分别讲解CUDA、CUDA toolkit(CUDA工具包)、CUDNN、NVCC等概念，并没有从计算机体系结构的角度将其层次化。故做此文，旨在帮助深度学习入门者从宏观上建立一个CUDA体系，而不是仅仅停留在报错才去了解的摸黑阶段。
本文尽可能采用自顶向下的金字塔式讲解，使得文章抓住主干，逻辑层次清晰。

概念介绍
先介绍CUDA是什么：
官方定义：CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出的运算平台。 CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA架构编写程序，所编写出的程序可以在支持CUDA的处理器上以超高性能运行。
https://baike.baidu.com/item/CUDA/1186262?fr=aladdin
通俗解释：CUDA就是让python等程序语言可以同时在CPU和GPU上跑的一个平台。
首先通过图来感受CUDA在体系结构中所在的层次。
图一

https://github.com/NVIDIA/nvidia-container-toolkit
我们可以清晰看到，绿色部分的CUDA，就是起了承上启下的作用。CUDA就是由CUDA驱动和CUDA工具包组成。
CUDA Toolkit在容器内部，而CUDA Driver在操作系统层。

CUDA Toolkit (nvidia)： CUDA完整的工具安装包，其中提供了 Nvidia 驱动程序、开发 CUDA 程序相关的开发工具包等可供安装的选项。包括 CUDA 程序的编译器、IDE、调试器等，CUDA 程序所对应的各式库文件以及它们的头文件。
注意：这里的CUDA Toolkit指的是CUDA官网下载的完整版，不是指Pytorch附带下载的CUDA不完整版，后文有详细说明。

CUDA Driver: 运行CUDA应用程序需要系统至少有一个具有CUDA功能的GPU和与CUDA工具包兼容的驱动程序。每个版本的CUDA工具包都对应一个最低版本的CUDA Driver，也就是说如果你安装的CUDA Driver版本比官方推荐的还低，那么很可能会无法正常运行。CUDA Driver是向后兼容的，这意味着根据CUDA的特定版本编译的应用程序将继续在后续发布的Driver上也能继续工作。通常为了方便，在安装CUDA Toolkit的时候会默认安装CUDA Driver。在开发阶段可以选择默认安装Driver，但是对于像Tesla GPU这样的商用情况时，建议在官方安装最新版本的Driver。
原文链接：https://blog.csdn.net/zjy1175044232/article/details/120887377

我们单独拿出CUDA的结构：
在这里插入图片描述图二
图三
图二图三将CUDA划分成三部分结构，最底层依然是CUDA Driver，而驱动之上的是CUDA Runtime和CUDA Libraries，则我们结合图一可以推断出，CUDA toolkit由CUDA Runtime和CUDA Libraries组成。

图二和图三还说明程序可以直接调用CUDA开发库、CUDA runtime ，CUDA驱动三部分。图四就是表达应用程序通过调用API来进行GPU上的计算。

在这里插入图片描述 https://cloud.tencent.com/developer/article/1496697

在这里插入图片描述 https://www.cnblogs.com/marsggbo/p/11838823.html

NVCC：NVCC是CUDA的编译器，属于runtime层，当然也属于CUDA toolkit。
cuDNN：cuDNN的全称为NVIDIA CUDA Deep Neural Network library，是NVIDIA专门针对深度神经网络中的基础操作而设计基于GPU的加速库。cuDNN为深度神经网络中的标准流程提供了高度优化的实现方式，例如convolution、pooling、normalization以及activation layers的前向以及后向过程。
CUDA这个平台一开始并没有安装cuDNN库，当开发者们需要用到深度学习GPU加速时才安装cuDNN库，工作速度相较CPU快很多。
在这里插入图片描述安装pytorch时会选择Compute platfrom，这里的如果选择CUDA系列，会安装cuDNN和不完整的CUDA Toolkit。

CUDA Toolkit (nvidia)： CUDA完整的工具安装包，其中提供了 Nvidia 驱动程序、开发 CUDA 程序相关的开发工具包等可供安装的选项。包括 CUDA 程序的编译器、IDE、调试器等，CUDA 程序所对应的各式库文件以及它们的头文件。

CUDA Toolkit (Pytorch)： CUDA不完整的工具安装包，其主要包含在使用 CUDA 相关的功能时所依赖的动态链接库。不会安装驱动程序，也不会安装编译工具(nvcc)。

（NVCC 是CUDA的编译器，只是 CUDA Toolkit 中的一部分）

注：CUDA Toolkit 完整和不完整的区别：在安装了CUDA Toolkit (Pytorch)后，只要系统上存在与当前的 cudatoolkit 所兼容的 Nvidia 驱动，则已经编译好的 CUDA 相关的程序就可以直接运行，不需要重新进行编译过程。如需要为 Pytorch 框架添加 CUDA 相关的拓展时（Custom C++ and CUDA Extensions），需要对编写的 CUDA 相关的程序进行编译等操作，则需安装完整的 Nvidia 官方提供的 CUDA Toolkit。
https://zhuanlan.zhihu.com/p/542319274

也就是说，pytorch带的CUDA不会安装runtime层和以下的层，包括nvcc和CUDA driver。

在这里插入图片描述 https://developer.nvidia.com/zh-cn/blog/gpu-containers-runtime/
这个图是在容器内部搭建操作系统，创造一个从CUDA Driver到应用程序都完全独立的容器。说明我们可以唉不同的层次进行容器的封装，可以从runtime以上封装容器（通常虚拟环境是runtime以上的），也可以直接从操作系统开始封装。

在这里区分一下Docker和虚拟环境的区别：
虚拟环境只是隔离了Python程序的依赖项，即在一个虚拟环境中，包含了特定版本的Python解释器和Python库，当激活该虚拟环境时，会屏蔽掉虚拟环境以外Python解释器和Python库。
而docker可以隔离整个系统，更接近虚拟机。同时docker可以有不同层次的封装。
https://www.saoniuhuo.com/question/detail-2432744.html

虚拟环境的隔离类似于图1，多个虚拟环境共用CUDA Driver，也可以共用CUDA runtime。因此在一个虚拟环境中安装附带CUDA的pytorch时，不会安装CUDA runtime以及CUDA驱动，只会安装已经编译好的CUDA函数库。因此如果缺少CUDA runtime(缺少nvcc)，Pytorch依然可能可以正常在GPU上运行，在有CUDA驱动的前提下。
但是如果有python setup.py build develop等需要nvcc的命令，则必须保证有和CUDA函数库相同版本的CUDA runtime(包括nvcc)，否则会报错。之后的版本兼容性会进一步说明。

版本兼容性问题：
首先是CUDA版本要和GPU算力相匹配，如A100的算力是8.0，需要CUDA版本大于11.0
查看GPU与算力对应：https://en.wikipedia.org/wiki/CUDA
在这里插入图片描述
查看算力对应的CUDA版本：原链接未找到，但是bilibiliup主"我是土堆"在视频中提到过，图片如下：
之后是CUDA driver版本和CUDA runtime版本的对应关系：
CUDA driver版本需要大于等于CUDA runtime版本
CUDA driver版本通过nvidia-smi命令查看：
在这里插入图片描述可以看到，我的CUDA Driver版本是11.7

CUDA runtime版本通过 nvcc --version查看，如果报错，可能是因为没有下载CUDA runtime，也有可能是没有将CUDA rumtime添加到环境依赖中。报错的具体解决方案在此不再赘述，直接问百度或者谷歌或者chatGPT报错信息即可。

在这里插入图片描述
可以看到我的nvcc版本是11.4，即runtime版本是11.4<=11.7的CUDA Driver版本，因此适配。

之后是CUDA runtime版本需要和CUDA Libraries版本适配。
CUDA Libraries如果是如果pytorch附带下载的CUDA toolkit（不完整版），需要选择小于等于nvcc --version的版本下载。我的nvcc是11.4，因此我需要下载小于等于11.4版本的CUDA toolkit（不完整版）。可以看到官网页面只有11.6和11.7的版本，因此需要找历史版本：https://pytorch.org/get-started/previous-versions/
在这里插入图片描述找到了pytorch附带小于等于11.4的CUDA toolkit(不完整版)

再次说明：Pytorch 接口输出的 cuda 的版本并不一定是 Pytorch 在实际系统上运行时使用的 cuda 版本，而是编译该 Pytorch release 版本时使用的 cuda 版本。也就是说，我pytorch下载的CUDA是已经编译好的版本，编译时使用的是11.3的nvcc

注意：之前查阅资料时，并没有博客提出需要让pytorch 附带的CUDA toolkit（不完整版）小于等于CUDA runtime版本。但是在我复现论文时，在使用pytorch1.13.0 pytorch-cuda=11.7时遇到了RuntimeError: indices should be either on cpu or on the same device as the indexed tensor (cpu)的错误，通过降低Pytorch和CUDA toolkit（不完整版）的版本，即conda install pytorch1.12.1 torchvision0.13.1 torchaudio0.12.1 cudatoolkit=11.3 -c pytorch，解决了这个问题。
我复现的论文因为有python setup.py build develop命令，因此需要使用nvcc编译，如果nvcc版本小于CUDA toolkit(不完整版)，则很可能出错。因此我推测是因为pytorch附带的CUDA toolkit版本过高导致。
（挖个坑：之后可以通过控制变量法实验进一步验证该结论，具体方式是安装pytorch==1.12.1和cuda11.6的版本，若报相同错误则说明确实是CUDA的问题而非pytorch的问题。）
遇到相同问题的博客：
https://blog.csdn.net/Chemist_Dong/article/details/128012131

最终是cuDNN要和CUDA libraries版本要适配，pytorch等框架的版本也要和cuDNN版本适配，应用程序要和pytorch框架适配。
这三个适配具体实现方法很简单，对与pytorch来说，在官网下载CUDA版本的pytorch，会自动下载适配的cuDNN，CUDA libraries以及适配的Pytorch。
旧版本的pytorch程序通常能够在新版本的pytorch框架内正常运行(当然python2不能在python3环境中运行)。

在这里插入图片描述最后再回过头看该图，会清晰很多。总结兼容性问题：高版本底层通常兼容低版本的上层，反之通常不行。在某博客上看到一个解释：上层可能加入一个新的功能，如果底层没有对应的实现则报错。但是底层通常会保证之前的软件可以移植过来。
因此底层通常向后兼容(backward)。因为中文的前后有歧义，所以我喜欢翻译成向过去兼容。
确定了GPU的型号就确定了算力，高算力需要匹配高版本CUDA。
CUDA Driver版本(nvidia-smi命令查看)需要大于等于CUDA runtime版本(nvcc --version命令查看)
CUDA runtime版本需要大于等于CUDA libraries版本(Pytorch附带下载的CUDA toolkit版本)

因此从头配置完整的深度学习CUDA环境的操作为：
1.保证系统至少存在一块GPU
2.在虚拟环境中查看nvidia-smi和nvcc --version，若nvcc --version小于nvidia-smi，则适配。
2.若确认不存在nvcc和CUDA驱动，官网安装CUDA Driver和完整版的CUDA toolkit（部分博客说安装CUDA toolkit时会同时安装CUDA Driver，未验证）
3.创建虚拟环境，具体流程请自行百度。
5.下载CUDA版本小于等于nvcc --version的pytorch及其附带的CUDA toolkit(不完整版)

大部分深度学习并不需要完整的CUDA toolkit 因此简化版的操作为：
1.保证系统存在至少一块GPU
2.查看nvidia-smi，确认有驱动
3.若无驱动需要官网安装
4.创建虚拟环境
5.安装附带CUDA toolkit(不完整版)pytorch

如果没有GPU，或者想要快速跑通简单的深度学习程序，可以用CPU版本的pytorch，则不需要安装驱动。直接在用conda创建虚拟环境然后安装pytorch即可。

本文链接：https://blog.csdn.net/tongjingqi_/article/details/129461512

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次，点赞7次，收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案，在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建：添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体，挺好看的。注重颜值的网站都会使用，例如知乎：font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--method将表单中的数据传送给服务器处理，get方式直接显示在url地址中，数据可以被缓存，且长度有限制；而post方式数据隐藏传输，_html表单的处理程序有那些

PHP设置谷歌验证器（Google Authenticator）实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证（即Google Authenticator服务）后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节，实现了多层数据的堆叠，为用户提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制（CoW）策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的，不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次，点赞27次，收藏13次。网络拓扑结构是指计算机网络中各组件（如计算机、服务器、打印机、路由器、交换机等设备）及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式，也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数，兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次，点赞5次，收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时，通常的做法是：new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的，而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠，也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑，需要做一些额外的特殊处理，笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数，一劳永逸，避免每次ne_date.prototype 将所有 ios