XTuner 大模型单卡低成本微调实战-程序员宅基地

XTuner 大模型单卡低成本微调实战

视频链接：https://www.bilibili.com/video/BV1yK4y1B75J/?vd_source=bebd279bbc043ae1c13d45838597180f
文档地址：https://github.com/InternLM/tutorial/tree/main/xtuner
XTuner Repo: https://github.com/InternLM/xtuner/tree/main

Finetune 简介

在这里插入图片描述

XTuner

在这里插入图片描述

8GB 显存玩转 LLM

在这里插入图片描述
FlashAttention 旨在避免从 HBM（High Bandwidth Memory）中读取和写入注意力矩阵，这需要做到：
目标一：在不访问整个输入的情况下计算 softmax 函数的缩减；
目标二：在后向传播中不能存储中间注意力矩阵。

DeepSpeed ZeRO有三个主要的优化阶段（如下图所示），它们对应于优化器状态、梯度和参数的划分。
1.Optimizer State Partitioning（Pos）：将优化器状态切分到不同的 GPU
2.添加梯度分区（Pos+g）：将梯度切分到不同的 GPU
3.添加参数分区（Pos+g+p）：将模型参数切分到不同的 GPU
在这里插入图片描述

整体基本步骤

准备数据
下载所需数据集，比如 https://huggingface.co/datasets/timdettmers/openassistant-guanaco/tree/main
修改配置文件
使用 xtuner list-cfg 查看支持的模型配置

# xtuner list-cfg
[2024-01-14 10:44:08,415] [INFO] [real_accelerator.py:161:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-01-14 10:44:20,046] [INFO] [real_accelerator.py:161:get_accelerator] Setting ds_accelerator to cuda (auto detect)
==========================CONFIGS===========================
省略...
internlm_20b_qlora_alpaca_e3
internlm_20b_qlora_alpaca_enzh_e3
internlm_20b_qlora_alpaca_enzh_oasst1_e3
internlm_20b_qlora_alpaca_zh_e3
internlm_20b_qlora_arxiv_gentitle_e3
internlm_20b_qlora_code_alpaca_e3
internlm_20b_qlora_colorist_e5
internlm_20b_qlora_lawyer_e3
internlm_20b_qlora_msagent_react_e3_gpu8
省略...
=============================================================

拷贝修改配置文件

xtuner copy-cfg internlm_chat_7b_qlora_oasst1_e3 .

训练微调
使用命令训练

xtuner train ${CONFIG_NAME_OR_PATH}

也可以增加 deepspeed 进行训练加速：

xtuner train ${CONFIG_NAME_OR_PATH} --deepspeed deepspeed_zero2

模型转换
训练完成后，转换训练完成 pth 到 hugging face 格式的模型

xtuner convert pth_to_hf ${CONFIG_NAME_OR_PATH} ${PTH_file_dir} ${SAVE_PATH}

部署与测试
将 HuggingFace adapter 合并到大语言模型：

xtuner convert merge    ${NAME_OR_PATH_TO_LLM}  ${NAME_OR_PATH_TO_ADAPTER}   ${SAVE_PATH}   --max-shard-size 2GB

与合并后的模型对话：

# 加载 Adapter 模型对话（Float 16）
xtuner chat ./merged --prompt-template internlm_chat

# 4 bit 量化加载
# xtuner chat ./merged --bits 4 --prompt-template internlm_chat

不合并模型直接对话，增加 --adapter 参数来指定 Lora 的参数

xtuner chat $LLM --adapter $ADAPTER --prompt-template $PROMPT_TEMPLATE --system-template $SYSTEM_TEMPLATE

用 MS-Agent 数据集赋予 LLM 以 Agent 能力

MSAgent-Bench

ModelScope-Agent是一个通用且可定制的代理框架，用于实际应用，基于开源LLMs作为种树。它提供了一个用户友好的系统库，具有可定制的引擎设计，支持在多个开源LLMs上进行模型训练，同时还以一种统一的方式实现了与模型API和常见API的无缝集成。 https://modelscope.cn/datasets/damo/MSAgent-Bench/summary

下载已经训练好的参数

cd ~/ft-msagent
apt install git git-lfs
git lfs install
git lfs clone https://www.modelscope.cn/xtuner/internlm-7b-qlora-msagent-react.git

执行

到 serper.dev 注册后获得一个 api key

export SERPER_API_KEY=abcdefg

xtuner chat ./internlm-chat-7b --adapter internlm-7b-qlora-msagent-react --lagent

执行日志

# xtuner chat ./internlm-chat-7b/ --adapter ./internlm-7b-qlora-msagent-react/ --lagent
[2024-01-13 23:37:23,481] [INFO] [real_accelerator.py:161:get_accelerator] Setting ds_accelerator to cuda (auto detect)
Error: mkl-service + Intel(R) MKL: MKL_THREADING_LAYER=INTEL is incompatible with libgomp.so.1 library.
        Try to import numpy first or set the threading layer accordingly. Set MKL_SERVICE_FORCE_INTEL to force it.
[2024-01-13 23:37:27,892] [INFO] [real_accelerator.py:161:get_accelerator] Setting ds_accelerator to cuda (auto detect)
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:09<00:00,  1.24s/it]
Loading adapter from ./internlm-7b-qlora-msagent-react/...

double enter to end input (EXIT: exit chat, RESET: reset history)请介绍 attention is all you need 论文

根据我的搜索结果，“attention is all you need”论文提出了一种基于注意力机制的简单网络架构，可以替代传统的递归和卷积神经网络，并在多个任务上取得了最新的翻译结果。此外，这篇论文还介绍了一些实验结果和应用场景。如果您对这个主题感兴趣，我可以为您提供更多相关信息。

在 serper.dev 上可以查询到日志
在这里插入图片描述

参考文献

https://zhuanlan.zhihu.com/p/618533434
https://zhuanlan.zhihu.com/p/624412809

本文链接：https://blog.csdn.net/zhjunqin/article/details/135572684

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

艾美捷Epigentek DNA样品的超声能量处理方案-程序员宅基地

文章浏览阅读15次。空化气泡的大小和相应的空化能量可以通过调整完全标度的振幅水平来操纵和数字控制。通过强调超声技术中的更高通量处理和防止样品污染，Epigentek EpiSonic超声仪可以轻松集成到现有的实验室工作流程中，并且特别适合与表观遗传学和下一代应用的兼容性。Epigentek的EpiSonic已成为一种有效的剪切设备，用于在染色质免疫沉淀技术中制备染色质样品，以及用于下一代测序平台的DNA文库制备。该装置的经济性及其多重样品的能力使其成为每个实验室拥有的经济高效的工具，而不仅仅是核心设施。

11、合宙Air模块Luat开发：通过http协议获取天气信息_合宙获取天气-程序员宅基地

文章浏览阅读4.2k次，点赞3次，收藏14次。目录点击这里查看所有博文本系列博客，理论上适用于合宙的Air202、Air268、Air720x、Air720S以及最近发布的Air720U（我还没拿到样机，应该也能支持）。先不管支不支持，如果你用的是合宙的模块，那都不妨一试，也许会有意外收获。我使用的是Air720SL模块，如果在其他模块上不能用，那就是底层core固件暂时还没有支持，这里的代码是没有问题的。例程仅供参考！..._合宙获取天气

EasyMesh和802.11s对比-程序员宅基地

文章浏览阅读7.7k次，点赞2次，收藏41次。1 关于meshMesh的意思是网状物，以前读书的时候，在自动化领域有传感器自组网，zigbee、蓝牙等无线方式实现各个网络节点消息通信，通过各种算法，保证整个网络中所有节点信息能经过多跳最终传递到目的地，用于数据采集。十多年过去了，在无线路由器领域又把这个mesh概念翻炒了一下，各大品牌都推出了mesh路由器，大多数是3个为一组，实现在面积较大的住宅里，增强wifi覆盖范围，智能在多热点之间切换，提升上网体验。因为节点基本上在3个以内，所以mesh的算法不必太复杂，组网形式比较简单。各厂家都自定义了组_802.11s

线程的几种状态_线程状态-程序员宅基地

文章浏览阅读5.2k次，点赞8次，收藏21次。线程的几种状态_线程状态

stack的常见用法详解_stack函数用法-程序员宅基地

文章浏览阅读4.2w次，点赞124次，收藏688次。stack翻译为栈，是STL中实现的一个后进先出的容器。要使用 stack，应先添加头文件include<stack>，并在头文件下面加上“ using namespacestd;"1. stack的定义其定义的写法和其他STL容器相同, typename可以任意基本数据类型或容器：stack<typename> name;2. stack容器内元素的访问..._stack函数用法

2018.11.16javascript课上随笔（DOM）-程序员宅基地

文章浏览阅读71次。<li> <a href = "“#”>-</a></li><li>子节点：文本节点（回车），元素节点，文本节点。不同节点树：　　节点（各种类型节点）childNodes:返回子节点的所有子节点的集合，包含任何类型、元素节点（元素类型节点）：child。node.getAttribute(at...

随便推点

layui.extend的一点知识第三方模块base 路径_layui extend-程序员宅基地

文章浏览阅读3.4k次。//config的设置是全局的layui.config({ base: '/res/js/' //假设这是你存放拓展模块的根目录}).extend({ //设定模块别名 mymod: 'mymod' //如果 mymod.js 是在根目录，也可以不用设定别名 ,mod1: 'admin/mod1' //相对于上述 base 目录的子目录}); //你也可以忽略 base 设定的根目录，直接在 extend 指定路径（主要：该功能为 layui 2.2.0 新增）layui.exten_layui extend

5G云计算：5G网络的分层思想_5g分层结构-程序员宅基地

文章浏览阅读3.2k次，点赞6次，收藏13次。分层思想分层思想分层思想-1分层思想-2分层思想-2OSI七层参考模型物理层和数据链路层物理层数据链路层网络层传输层会话层表示层应用层OSI七层模型的分层结构TCP/IP协议族的组成数据封装过程数据解封装过程PDU设备与层的对应关系各层通信分层思想分层思想-1在现实生活种，我们在喝牛奶时，未必了解他的生产过程，我们所接触的或许只是从超时购买牛奶。分层思想-2平时我们在网络时也未必知道数据的传输过程我们的所考虑的就是可以传就可以，不用管他时怎么传输的分层思想-2将复杂的流程分解为几个功能_5g分层结构