- MiniMind 是一个开源的轻量级大语言模型项目。
- 它使得有一点代码基础的人能够快速训练自己的大模型,而且是从 0 开始训练而非微调。
- 仅需 3 小时就能从 0 训练出一个 26M 参数的大模型,该模型大小是 GPT3 的 1/7000。
- 最低 2G 显卡就能进行推理,这大大降低了训练大模型对硬件的要求。
- 项目具有多种优势。
- 它可以使用极小的数据和计算资源,让大模型技术的使用更加简单。
- 支持单机单卡和多卡训练,并且兼容多个流行的框架。
- 提供完整的代码和文档支持,有助于初学者和研究者快速上手,还能进行定制和扩展。
- 目前 MiniMind 总共有 5 个模型,其中最小的 26M 模型已经具备不错的对话能力。
- 在实际应用场景方面。
- 虽然单个模型对于一些问题的回答效果不如千亿模型,但可以训练出对某方面知识极其了解的专家型模型。
- 如果有几千个这样的模型,就如同有几千个专家,再配合一个大模型分配任务并总结,对于垂直领域大模型的能力将是质的提升。
- 从整个大语言模型(LLM)领域来看。
- 像 GPT、LLaMA、GLM 等虽然效果惊艳,但庞大的模型参数导致个人设备显存不够训练,甚至推理困难。
- 很多人不满足于用 Lora 等方案微调大模型学习新指令,而 MiniMind 项目目标就是把上手 LLM 的门槛无限降低。
- 它改进自 DeepSeek - V2、Llama3 结构,项目包含整个数据处理、pretrain、sft、dpo 的全部阶段,还包含混合专家(MoE)模型。
- 这个项目既是开源项目,又是入门 LLM 教程,同时也是一个初具雏形的开源模型,起到抛砖引玉的作用。
- 关于项目的部署过程。
- 基础环境有最低要求,如 CPU、内存、显卡、软件版本等都有相应说明。例如需要 Intel (R) Core (TM) i9 - 10980XE CPU @ 3.00GHz 的 CPU、128 GB 内存、NVIDIA GeForce RTX 3090 (24GB) * 2 显卡、python 3.9 + Torch 2.1.2 + DDP 单机多卡训练、Ubuntu == 20.04、Python == 3.9、Pytorch == 2.1.2、CUDA == 12.2(这些是项目环境依赖)。
意义
MiniMind 的开源具有多方面的意义。首先,它打破了训练大模型的高门槛,让更多有一点代码基础的人能够参与到训练自己的大模型中来。其次,对于大模型技术的普及有着积极的推动作用,使得大模型技术不再是少数拥有高端设备和专业知识人群的专属。再者,在垂直领域方面,通过构建多个专家型小模型再配合大模型协作的模式,为垂直领域大模型能力的提升提供了新的思路,有助于提升特定行业内的人工智能应用效果。