Lecture4 XTuner入门和单卡低成本微调

<aside> 💡 在上节课的Lecture3中，我们主要学习了两种大模型的开发范式，并详细学习了其中的RAG。本节课中，我们主要学习第二种范式，Finetune，并使用XTuner基于InternLM进行单卡微调。在普通的学习中，LLM没办法很好的应用于具体的实际和板块，因此需要微调来定制。对模型进行微调有两种策略，增加数据集和指令微调。XTuner是打包好的微调工具箱，它的微调原理是LoRA&QLoRA，能够减少显存占用，使开发者专注数据内容而不是格式。

</aside>

<aside> ❓ 课前的一些问题~

</aside>

什么是LLM？

LLM就是大语言模型的统称。我们知道，LangChain 封装了很多组件，通过将这些组件组合，一个chain能够封装一系列的LLM操作，详细的可以见后续的检索问答链。

什么是Finetune？

Finetune是大模型常见的两种范式之一，它的核心：在已有数据集上微调

可以进行更多个性化微调，以满足用户需求。
需要在新的数据集上进行训练，这可能会导致成本上升。然而，这也意味着模型可以更好地适应不断变化的环境。
需要注意的是，由于训练成本较高，模型的更新可能不是实时的，但我们可以定期进行更新以确保其性能始终保持在最佳状态。

什么是XTuner？

XTuner是打包好的微调工具箱，支持Huggingface和modelscope加载模型和数据集。支持多款开源大模型InternLM，阿里千问，百川大模型，清华Chatglm，多专家模型等，加速算法等等都有。

一、微调框架Xtuner原理

<aside> 📎 Finetune简介：

</aside>

为什么要微调大语言模型？ 在普通的学习中，LLM没办法很好的应用于具体的实际和板块，需要微调来定制！
常见的两种微调策略（训练数据的处理）：
- 增量预训练
  - 给模型投喂新知识，学更多有关目标领域的文本内容
  - 不需要问题，只需要回答，都是陈述句
- 指令跟随微调
  - 能让模型的输出更符合我们的意图）
  - 将pretrained LLM指令微调成instructed LLM
  <aside> 🔑 Xtuner打包好的工具：指令跟随微调
  
  </aside>
  - 构建对话模板，进行角色指定：将问题部分指定给user，将答案指定给assistant，给模型一个定位system
  - 输入模型，计算答案assistant部分损失

<aside> 👉

Xtuner使用的微调原理：LoRA&QLoRA

</aside>

Stable diffusion：不同的LoRA能够出不同的风格和人物
为什么要使用LoRA？什么是LoRA？ 如果对整个模型的所有参数Linear都进行调整需要很大的显存，使用LoRA方法在原本的Linear旁新增一个分支，包含连续的两个小Linear（叫做Adapter），就能减少参数和显存开销。
全参数微调 VS LoRA VS QLoRA QLoRA使用4-bit模型加载器，不那么精确的加载模型。参数优化器能够在CPU和GPU之间调度。

二、Xtuner微调工作流程

Xtuner有强大的数据处理引擎，使开发者专注数据内容而不是格式

数据处理流程：