大语言模型开发的三阶段（stage)

大语言模型系列是笔者学习过程中的笔记，很多来自网络文档，如有侵权请随时告知。

大语言模型开发的三个阶段：构建、预训练、微调

第一阶段：LLM的基础构建

1）数据准备和采样（Data preparation & sampling):这一步骤主要是收集和处理数据。因为大语言模型需要大量的数据来进行训练，所以这里的数据准备包括采样、清洗和标注等过程。

2）注意力机制（Attention mechanism) :实现并理解注意力机制是构建LLM的关键步骤。注意力机制允许模型更好地理解句子中的重要词汇及其关系。

3）LLM架构设计（LLM architecture):这一步是设计模型的整体架构，包括层数、维度、编码方式等。常见的架构有Transformer、BERT、GPT等。

4）预训练（Pretraining): 在完成前几步之后，将模型在大量无标签数据上进行预训练。这是为了让模型学习到语言的基本结构和词汇关系。

在这个阶段结束之后，得到了一个基础的LLM，实现了数据采样、注意力机制和架构的基础。

第二阶段：构建基础模型（Foundation Model)

5）训练循环（Traing loop）：这一阶段的核心是建立训练循环。模型会在大量数据上进行训练，逐步优化参数，使其在语言任务上表现的更好。

6）模型评估（Model evaluation）：训练过程中，需要定期评估模型性能，查看是否收敛或是否需要调整超参数。

7）加载预训练权重（Load pretrained weights)：在一些情况下，可以加载已有的预训练权重进行微调，避免从头开始训练。

在这个阶段末尾，得到了一个基础模型（Foundation Model)，可以用作进一步任务的微调（Fine-tuning)。

第三阶段：微调模型

8）微调分类器（Fine-tuning for classification): 在一些任务中，基础模型会被微调以实现分类功能。这里需要一个有标签的数据集，通过训练让模型能够准确分类。

9）微调为助手模型（Fine-tuning for a personal assistant):在其他任务中，可以将基础模型微调为一个助手或对话模型，通过带有指令的数据集训练，让模型能够回答问题或提供交互支持。

最后经过微调后得到了特定任务的模型，例如分类其或个人助手（聊天模型）。

Recent Posts