当前位置: 首页 > news >正文

【AI】环境——深度学习cuda+pytorch配置

文章目录

    • 关键组件及关系
      • 显卡驱动GPU Driver
      • CUDA
      • CUDA Toolkit
      • cuDNN
      • Pytorch
    • 各组件版本选择
      • 驱动程序
      • CUDA
        • 查看驱动及CUDA的最大支持版本
      • CUDA Toolkit
        • 选自定义安装
        • 检验
          • 无法识别nvcc
      • cuDNN
    • conda
      • pip换源
      • conda管理py包
        • conda 换源
        • 查看列表、创建、克隆、激活、删除
        • conda包管理
          • 包安装原则
        • 设置默认anaconda
    • pytorch安装
      • 自动安装
      • 手动安装
        • 确定pytorch版本
        • 确定torchvision与torchaudio版本
        • 国内镜像下载
        • 安装
      • pip安装
      • 测试

关键组件及关系

参考1

参考2

显卡驱动GPU Driver

介绍:显卡驱动是连接操作系统与GPU硬件的驱动程序。负责管理GPU的基本功能:内存管理、任务调度和与操作系统的通信

作用:显卡驱动程序是深度学习框架及CUDA Toolkit与GPU之间的桥梁。

CUDA

介绍:Compute Unified Device Architecture,NVIDIA 开发的并行计算平台和编程模型,旨在加速通用计算任务,包括深度学习训练与推理。

CUDA Toolkit

介绍:CUDA Toolkit 是一套软件工具集,定义了一些用于GPU加速的数学库。包含了编译CUDA代码所需的工具和CUDA的运行时库。

作用:CUDA Toolkit 提供了编译CUDA代码的工具、CUDA运行时库和各种GPU加速的数学库,使开发者能够方便地构建和优化GPU加速应用程序。

cuDNN

介绍:cuDNN 是NVIDIA的深度学习库,调用CUDA Toolkit的基本库函数,实现了专门用于加速深度神经网络的训练和推理,可用于各种深度学习框架。

作用:cuDNN 提供了用于加速卷积神经网络(CNN)等深度学习操作的GPU实现,使深度学习框架能够在GPU上获得显著的性能提升。

Pytorch

定义:PyTorch 是一个深度学习框架,提供用于构建和训练神经网络的高级API。

作用:PyTorch允许开发者构建灵活的神经网络模型,并使用CUDA加速训练和推理过程。

各组件版本选择

显卡驱动决定了本机器支持的最大CUDA的版本,CUDA版本决定了CUDA Toolkit 与cuDNN的版本,最后决定了Pytorch的版本

驱动程序

版本要求:必须与GPU硬件兼容,以确保GPU能正常工作并与操作系统和应用程序通信

更新显卡驱动版本可以提高本机支持的最高CUDA版本

查看显卡的最新驱动程序

CUDA

查看驱动及CUDA的最大支持版本
nvidia-smi

在这里插入图片描述

显卡驱动与CUDA版本关系

在这里插入图片描述

  • GA:General Availability,正式发布的版本。
  • RC:Release Candidate,发行候选版本,是最终发布成正式版的前一个版本。

CUDA Toolkit

CUDA Toolkit Archive

选择相应版本安装即可

在这里插入图片描述

在这里插入图片描述

选自定义安装

安装过程注意避免用旧版本替换较高的版本

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

检验

安装完成后在命令行中进行验证

nvcc -V

在这里插入图片描述

无法识别nvcc

nvcc 不是内部或外部命令,也不是可运行的程序或批处理文件

只能是两种问题:

  1. 安装出错
  2. 环境变量未配置完全

检验是否安装正确

#1. cmd 转到CUDA安装目录 XX\extras\demo_suite,分别执行
bandwidthTest.exe
deviceQuery.exe

若安装正确,则二者均 Result = PASS 。否则需要重新安装

在这里插入图片描述

环境变量

  1. Path新增三个变量

    D:\cuda\cuda12_3\lib\x64
    D:\cuda\cuda12_3\include
    D:\cuda\cuda12_3\extras\CUPTI\lib64
    

    在这里插入图片描述

    在这里插入图片描述

  2. 重启系统后生效,若想要不重启生效

    以修改环境变量“PATH”为例,修改完成后,进入DOS命令提示符,输入:set PATH=C: ,关闭DOS窗口。再次打开DOS窗口,输入:echo %PATH%

cuDNN

下载地址

在这里插入图片描述

  • “12.x” 是 CUDA 版本号的一种通用表示法,其中 “x” 表示可以是任何数字,表示适用于该主要 CUDA 版本的所有次要版本。

下载之后,解压缩,将压缩包里面的bin、clude、lib文件直接复制到CUDA的安装目录下(Development与Documentation目录下),直接替换

conda

Miniconda/Anaconda区别在于Anaconda安装后会附带很多内容,省去安装一些常见包的麻烦,同时对于一些人来说也会显得比较臃肿。而Miniconda只包括了conda和python,内容简洁,但缺点就是一些常见包需要手动下载。

  • miniconda下载地址
    • miniconda清华源
  • anaconda下载地址
    • 清华源

安装流程注意勾选添加到环境变量即可

pip换源

#查看已安装的包
conda list
pip list# 安装包
pip install package_name[==version]
conda install package_name[==version]#移除包
conda remove numpy
pip uninstall numpy# 导入导出环境
conda env export > [配置文件路径.yaml]
用配置文件创建新环境
conda env create -n [anaconda_name] -f [配置文件路径.yaml]# 设置pip源
(learning) C:\Users\AmosTian>pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
Writing to C:\Users\AmosTian\AppData\Roaming\pip\pip.ini# 查看是否生效
pip config list# 阿里云镜像源
http://mirrors.aliyun.com/pypi/simple/
# 清华大学镜像源
https://pypi.tuna.tsinghua.edu.cn/simple/
# 国科大镜像源
http://pypi.mirrors.ustc.edu.cn/simple/
# 豆瓣镜像源
https://pypi.douban.com/simple/

conda管理py包

conda 换源
# 查看当前源
conda config --show channels# 设置安装包时,显示镜像来源,建议显示
conda config --set show_channel_urls yes # 恢复默认源
conda config --remove-key channels# 添加清华源
conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --set show_channel_urls yes# # 修改conda 虚拟环境默认安装位置,默认是在C盘下的
envs directories : D:\anaconda3\envsC:\Users\AmosTian\.conda\envsC:\Users\AmosTian\AppData\Local\conda\conda\envs# 修改为
conda config --add envs_dirs D:\anaconda3\envs
修改文件夹权限,确保所有用户都有 所有权限

可以直接在 C:\Users\用户名 目录下找 .condarc 的文件,若不不存在新建一个

envs_dirs:- D:\anaconda3\envschannels:- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/- defaults
show_channel_urls: true
auto_activate_base: true
查看列表、创建、克隆、激活、删除
conda info -e
# conda信息
conda info# 查看当前conda 环境列表
conda env list# 创建conda环境
conda create -n [anaconda_name] python=3.
#克隆环境
conda create --name [new_anaconda_name] --clone [new_anaconda_name]# 删除环境
conda remove --name [anaconda_name] --all# 激活环境
conda activate [anaconda_name]

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

conda包管理
# 在指定环境中管理包
conda list -n [anaconda_name]
conda install --name [anaconda_name] package_name 
conda remove --name [anaconda_name] package_name
包安装原则

conda有严格的检查机制,它会保证你当前装的package安装好之后能work,但是,它只检查用conda安装过的package。pip装的包不会检查出来

安装包,安装方式尽量一致,不要混用,除非一些包用其中一种固定用的方式安不上。先conda,装不上的包再pip

删除包,谁安装就由谁卸载,对于一些简单的包也可以直接到 lib/site-packages 中进行手动删除

设置默认anaconda

https://www.yingtwo.com/article/8435028.html

只修改prompt

  • 到 conda 安装目录的 Script 文件夹下,找一个名为 activate.bat 的文件
  • 将第24行 @CALL "%~dp0..\condabin\conda.bat" activate %* 中的 %*[anaconda_name] 替换

修改prompt 与 powershell pompt

  • 查看二者属性窗口,发现其启动目标都指向 D:\anaconda3 的默认 anaconda

    # prompt:
    %windir%\System32\cmd.exe "/K" D:\anaconda3\Scripts\activate.bat D:\anaconda3\envs\learn# powershell:
    %windir%\System32\WindowsPowerShell\v1.0\powershell.exe -ExecutionPolicy ByPass -NoExit -Command "& 'D:\anaconda3\shell\condabin\conda-hook.ps1' ; conda activate 'D:\anaconda3' "
    
  • D:\anaconda3 修改为 D:\anaconda3\envs\learn

pytorch安装

官网

参考

自动安装

最新版本

在这里插入图片描述

  • 修改为

    conda install pytorch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 pytorch-cuda=12.1 -c pytorch -c nvidia# -c pytorch 会使用默认的pytorch源,下载速度慢
    

试过了解决方法, unsuccessful initial attempt using frozen solve 无解,换手动或pip安装吧

手动安装

确定pytorch版本

也可以在 Previous Pytorch Verion 中选择CUDA相应的pytorch版本

# CUDA 11.8
conda install pytorch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 pytorch-cuda=11.8 -c pytorch -c nvidia
# CUDA 12.1
conda install pytorch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 pytorch-cuda=12.1 -c pytorch -c nvidia
# CPU Only
conda install pytorch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 cpuonly -c pytorch

官网的命令根据cuda以及pytorch的的版本有所不同,选择对应的即可。

确定torchvision与torchaudio版本

根据选择的pytorch版本,确定torchvision与torchaudio版本

https://gitcode.com/pytorch/vision/overview?utm_source=csdn_github_accelerator&isLogin=1

在这里插入图片描述

国内镜像下载

镜像

在这里插入图片描述

cuda版本12.1,python3.9,假设pytorch选用2.1.2

安装

三个文件下载完成后,切换准备安装torch的环境,切换到三个whl文件的目录下,执行 pip install

pip安装

pip install torch==2.1.2+cu121 torchvision==0.16.2+cu121 torchaudio==2.1.2+cu121 --extra-index-url https://download.pytorch.org/whl/cu121 -i https://pypi.tuna.tsinghua.edu.cn/simple
  • -i https://pypi.tuna.tsinghua.edu.cn/simple :切换清华源
  • +cu121 pip默认下载的是CPU版本,需要 指定下载GPU版本

测试

import torch# 检查CUDA是否可用
print(torch.cuda.is_available())# 显示当前CUDA版本
print(torch.version.cuda)

在这里插入图片描述

实际情况,有时需要我们根据pytorch版本倒推CUDA版本,若所需的pytorch版本低于当前CUDA的最低支持版本,则需要重新安装CUDA环境

http://www.dtcms.com/a/271377.html

相关文章:

  • aichat-core简化 LLM 与 MCP 集成的前端核心库(TypeScript)
  • 前端开发流程设计详解
  • 【leetcode】2235. 两整数相加
  • 【LeetCode 热题 100】21. 合并两个有序链表——(解法二)递归法
  • 仓颉语言 1.0.0 升级指南:工具链适配、collection 操作重构与 Map 遍历删除避坑
  • 深度学习12(卷积神经网络)
  • java idea 本地debug linux服务
  • Vue响应式原理四:响应式-监听属性变化
  • 国密算法(SM2/SM3/SM4)
  • 【MySQL】一些操作:修改MySQL root密码等等
  • Java 多线程编程:原理与实践
  • UI前端与数字孪生结合实践探索:智慧物流的仓储优化与管理系统
  • 供应链管理:定量分析中的无量纲化处理
  • Java 各集合接口常用方法对照表
  • 虚拟化技术,容器技术和Docker
  • Android View 绘制流程 简述 (无限递归+BitMap问题)
  • android activity生命周期温习
  • Java HashMap 的 get 和 put 方法的实现流程
  • android——热修复(补丁)
  • 微软官方C++构建工具:历史演变、核心组件与现代实践指南
  • SQL注入:现象、本质与防御详解
  • 文本标签提取与大模型理解:方法论深度指南
  • Kubernetes 集群部署、配置和验证-使用kubeadm快速部署一个K8s集群_笔记
  • 【K8S】在 Kubernetes 上配置安装 Nginx Ingress 控制器指南
  • 使用LLaMA-Factory微调Qwen2.5-VL-3B 的目标检测任务-LLaMA-Factory训练数据配置
  • 图像处理中的霍夫变换:直线检测与圆检测
  • 【软件运维】前后端部署启动的几种方式
  • 区块链系统开发技术应用构建可信数字生态链
  • 股指期货交割日避坑指南
  • 【MkDocs踩坑】图片路径问题的排查与解决