开源⼤语⾔模型(LLM)信息集
发布日期:2023/7/1 18:01:40 浏览量:
开源⼤语⾔模型(LLM)信息集
随着ChatGPT的⽕爆,越来越多⼈希望在本地运⾏⼀个⼤语⾔模型。为此我维护了这个开源⼤语⾔模型汇总,跟踪每天不发的⼤语⾔模型和精调语⾔模型
。
我将根据个模型采⽤的基础⼤模型进⾏分类,每个⼤模型下列出各派⽣模型。
Alpaca (Stanford)
斯坦福Alpaca:⼀种指令遵从型 LLaMA 模型。
Alpaca 官⽹: https://crfm.stanford.edu/2023/03/13/alpaca.html
❤
Alpaca GitHub: https://github.com/tatsu-lab/stanford_alpaca
是否可以商⽤: 否
以下是基于 Stanford Alpaca 项⽬的衍⽣模型或类似模型:
Alpaca.cpp
Alpaca-LoRA
Baize
Cabrita
BELLE
Luotuo
Vicuna
Chinese-Vicuna
GPT4All
Koala
llama.cpp
Lit-LLaMA
Alpaca.cpp
⼀个可以在本地设备上快速运⾏的类ChatGPT模型。视频中演示的模型具有4G权重,运⾏在M2芯⽚的Macbook Air上。视频是原始速度,没有加速。
GitHub: https://github.com/antimatter15/alpaca.cpp
Alpaca-LoRA
该项⽬使⽤低秩适应 (LoRA) 重现Stanford Alpaca。
项⽬提供了⼀个与 text-davinci-003 质量相似的指令模型,可以在 Raspberry Pi 上运⾏(⽤于研究),代码可以很容易地扩展到 13B、30B 和 65B 模型。
❤
GitHub: https://github.com/tloen/alpaca-lora
Demo: Alpaca-LoRA — a Hugging Face Space by tloen
Baize
Baize 是⼀个使⽤ LoRA 微调的开源聊天模型。 它使⽤与 ChatGPT 聊天⽣成的 100k 对话进⾏训练。 还使⽤ Alpaca 的数据来提⾼其性能。 ⽬前已经发布了
7B、13B 和 30B 规模模型。
❤
GitHub: https://github.com/project-baize/baize
论⽂: 2304.01196.pdf (arxiv.org)
Cabrita
基于LLaMA的葡萄⽛语微调模型
❤
GitHub: https://github.com/22-hours/cabrita
BELLE
BELLE 基于斯坦福的 Alpaca 完成,对中⽂做了优化,并对⽣成代码进⾏了⼀些修改,模型调优仅使⽤由 ChatGPT ⽣产的数据(不包含任何其他数据)。
❤
GitHub: https://github.com/LianjiaTech/BELLE
Luotuo
来⾃商汤科技和华中科技⼤学开源中⽂语⾔模型骆驼 Luotuo,该项⽬基于 LLaMA、Stanford Alpaca、Alpaca LoRA、Japanese-Alpaca-LoRA 等完成,单卡
就能完成训练部署。
❤
GitHub: https://github.com/LC1332/Luotuo-Chinese-LLM
GitHub: https://github.com/LC1332/Chinese-alpaca-lora
Vicuna (FastChat)
⼀个达到ChatGPT 90%效果的开源聊天机器⼈。
❤
GitHub: https://github.com/lm-sys/FastChat
视频: Vicuna — 90% of ChatGPT quality by using a new dataset? — YouTube
Chinese-Vicuna
⼀个中⽂低资源的LLaMA + LoRA⽅案,结构参考Alpaca
❤
GitHub: https://github.com/Facico/Chinese-Vicuna
GPT4All
基于 LLaMA,⽤⼤约 800k GPT-3.5-Turbo ⽣成数据训练的助⼿式⼤语⾔模型。
❤
GitHub: https://github.com/nomic-ai/gpt4all
视频: Is GPT4All your new personal ChatGPT? — YouTube
Koala
Koala 是⼀个在 LLaMA 上微调的语⾔模型。
博客: Koala: A Dialogue Model for Academic Research — The Berkeley Artificial Intelligence Research Blog
❤
GitHub: EasyLM/koala.md at main · young-geng/EasyLM (github.com)
Demo: FastChat (lmsys.org)
视频: Investigating Koala a ChatGPT style Dialogue Model — YouTube
llama.cpp
⽤纯C/C++实现的LLaMA模型推理。⽀持3个模型:LLaMA, Alpaca和GPT4All
❤
GitHub: https://github.com/ggerganov/llama.cpp
Lit-LLaMA
LLaMA 的独⽴实现,⽀持量化、LoRA微调和预训练。在 Apache 2.0 许可下完全开源。 此实现基于 nanoGPT。
❤
GitHub: https://github.com/Lightning-AI/lit-llama
BLOOM (BigScience)
BigScience ⼤型开放科学开放存取多语⾔模型。
❤
Hugging Face: bigscience/bloom · Hugging Face
Hugging Face Demo: Bloom Demo — a Hugging Face Space by huggingface
以下是基于 BigScience BLOOM 项⽬的衍⽣模型或类似模型:
BLOOM-LoRA
Petals
BLOOM-LoRA
各种指令调优数据集的低秩适应模型。
❤
GitHub: https://github.com/linhduongtuan/BLOOM-LORA
Petals
使⽤分布式 176B 参数 BLOOM 或 BLOOMZ ⽣成⽂本,并根据您⾃⼰的任务对其进⾏微调。
❤
GitHub: https://github.com/bigscience-workshop/petals
Flamingo (Google/Deepmind)
使⽤单⼀视觉语⾔模型处理多项任务
官⽹: Tackling multiple tasks with a single visual language model
以下是基于 Flamingo 项⽬的衍⽣模型或类似模型:
Flamingo — Pytorch
OpenFlamingo
Flamingo — Pytorch
在 Pytorch 中实现 Flamingo。包括感知器重采样器(包括学习查询贡献要注意的键/值的⽅案,以及媒体嵌⼊)、专⻔的掩码交叉注意⼒块,以及交叉注意⼒
末端的 tanh ⻔控 + 相应的前馈块。
❤
GitHub: https://github.com/lucidrains/flamingo-pytorch
OpenFlamingo
DeepMind Flamingo 模型的开源版本。提供了⽤于训练和评估 OpenFlamingo 模型的 PyTorch 实现。还提供了在新的多模态 C4 数据集(即将推出)上训练
的初始 OpenFlamingo 9B 模型。
❤
GitHub: https://github.com/mlfoundations/open_flamingo
FLAN (Google)
包含⽤于⽣成指令调优数据集集合的代码。 第⼀个是原始的 Flan 2021,记录在 Finetuned Language Models are Zero-Shot Learners 中;第⼆个是扩展版
本,被称为 Flan Collection,记录在 The Flan Collection: Designing Data and Methods for Effective Instruction Tuning 中,⽤于⽣成 Flan-T5 和 FlanPaLM。
❤
GitHub: https://github.com/google-research/FLAN
以下是基于 FLAN 项⽬的衍⽣模型或类似模型:
Flan-Alpaca
Flan-UL2
Flan-Alpaca
来⾃⼈类和机器的指令调优。 包含⽤于将 Stanford Alpaca 合成指令调优扩展到现有指令调优模型(例如 Flan-T5)的代码。 HuggingFace 上提供了预训练
模型和演示。
❤
GitHub: https://github.com/declare-lab/flan-alpaca
Flan-UL2
Flan-UL2是基于T5架构的编解码器模型。 它使⽤与去年早些时候发布的 UL2 模型相同的配置。 使⽤“Flan”提示调整和数据集收集对其进⾏了微调。
❤
Hugging Face: google/flan-ul2 · Hugging Face
视频: Trying Out Flan 20B with UL2 — Working in Colab with 8Bit Inference — YouTube
GLM (General Language Model)
GLM 是⼀种使⽤⾃回归填空⽬标进⾏预训练的通⽤语⾔模型,可以针对各种⾃然语⾔理解和⽣成任务进⾏微调。
以下是基于 GLM 项⽬的衍⽣模型或类似模型:
GLM-130B
ChatGLM-6B
GLM-130B
GLM-130B是⼀个开放的双语(英汉)双向密集模型,拥有1300亿个参数,使⽤通⽤语⾔模型(GLM)的算法进⾏预训练。 它旨在在单台A100(40G 8)或
V100(32G 8)服务器上⽤具有130B参数模型进⾏推理任务。 通过 INT4 量化,硬件要求可以进⼀步降低到具有 4 * RTX 3090(24G)的单个服务器,⽽性
能⼏乎没有下降。 截⾄ 2022 年 7 ⽉ 3 ⽇,GLM-130B 已经接受了超过 4000 亿个⽂本标记的训练(中⽂和英⽂各 200B)。
❤
GitHub: https://github.com/THUDM/GLM-130B
ChatGLM-6B
ChatGLM-6B 是⼀个开源的、⽀持中英双语的对话语⾔模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,⽤户可以
在消费级的显卡上进⾏本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使⽤了和 ChatGPT 相似的技术,针对中⽂问答和对话进⾏了优
化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈⾃助、⼈类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能⽣成相当符合⼈类偏
好的回答。
官⽹: ChatGLM
❤
GitHub: https://github.com/THUDM/ChatGLM-6B
GPT-J (EleutherAI)
GPT-J 是 EleutherAI 开发的开源⼈⼯智能语⾔模型。GPT-J 在各种零样本下游任务上的表现与 OpenAI 的 GPT-3 ⾮常相似,甚⾄在代码⽣成任务上的表现优
于它。
最新版本 GPT-J-6B 是⼀种基于名为 The Pile) 的数据集的语⾔模型。The Pile 是⼀个开源的 825 GB 语⾔建模数据集,分为 22 个较⼩的数据集。GPT-J 在
能⼒上与 ChatGPT 类似,虽然它不具有聊天机器⼈的功能,仅作为⽂本预测器。
❤
GitHub: https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b
Demo: https://6b.eleuther.ai/
以下是基于 GPT-J 项⽬的衍⽣模型或类似模型:
Dolly
Dolly (Databricks)
Databricks 的 Dolly 是⼀个在 Databricks 机器学习平台上训练的⼤型语⾔模型,它基于开源模型 (GPT-J) 在对 50k的重点语料库(Stanford Alpaca)进⾏仅 30
分钟的微调 ,就表现出令⼈惊讶的⾼质量指令遵循⾏为。 我们认为这⼀发现很重要,因为它表明创造强⼤的⼈⼯智能技术的能⼒⽐以前意识到的要容易得
多。
❤
GitHub: https://github.com/databrickslabs/dolly
视频: Meet Dolly the new Alpaca model — YouTube
Cerebras-GPT (Cerebras)
⼀系列开源、⾼效的⼤型语⾔模型。 Cerebras 开源了七个 GPT-3 模型,参数从 1.11 亿到 130 亿。 这些模型使⽤ Chinchilla 公式进⾏训练,为准确性和计算
效率设定了新的基准。
官⽹: Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models — Cerebras
❤
Hugging Face: cerebras (Cerebras) (huggingface.co)
视频: Checking out the Cerebras-GPT family of models — YouTube
GPT-NeoX
该项⽬记录了 EleutherAI ⽤于在 GPU 上训练⼤规模语⾔模型的库。 当前的框架基于 NVIDIA 的 Megatron 语⾔模型,并通过 DeepSpeed 技术以及⼀些新颖
的优化得到了增强。 ⽬标是使这个项⽬成为⼀个可访问的集散地,以收集训练⼤规模⾃回归语⾔模型的技术,并加速对⼤规模训练的研究。
❤
GitHub: https://github.com/EleutherAI/gpt-neox
HuggingGPT
HuggingGPT 是⼀个协作系统,由作为控制器的 LLM 和作为协作执⾏者的众多专家模型组成(来⾃ HuggingFace Hub)。
❤
GitHub: https://github.com/microsoft/JARVIS
论⽂: https://arxiv.org/abs/2303.17580
Polyglot
多语⾔均衡能⼒的⼤型语⾔模型。 由于对当前多语⾔模型的⾮英语性能不满意,Polyglot团队制作了⾮英语语⾔性能更⾼的多语⾔模型,并将其命名为
“Polyglot”。
❤
GitHub: https://github.com/EleutherAI/polyglot
Pythia
跨时间和尺度解释⾃回归Transformer
❤
GitHub: https://github.com/EleutherAI/pythia
Segment Anything
Segment Anything Model (SAM) 根据输⼊提示(例如点或框)⽣成⾼质量的对象掩码,它可⽤于为图像中的所有对象⽣成掩码。 它已经在 1100 万张图像和
11 亿个掩码的数据集上进⾏了训练,并且在各种分割任务上具有很强的零样本性能。
官⽹: Introducing Segment Anything: Working toward the first foundation model for image segmentation (facebook.com)
❤
GitHub: https://github.com/facebookresearch/segment-anything
The RWKV Language Model
RWKV:具有 Transformer 级 LLM 性能的可并⾏化 RNN(RWKV来⾃Transformer的4 个主要参数:R W K V)
❤
GitHub: https://github.com/BlinkDL/RWKV-LM/RWKV-LM
ChatRWKV: https://github.com/BlinkDL/ChatRWKV
Hugging Face Demo: HuggingFace Gradio demo (14B ctx8192)
Hugging Face Demo: Raven (7B finetuned on Alpaca) Demo
视频: Raven — RWKV-7B RNN’s LLM Strikes Back — YouTube
XGLM
XGLM 模型是 Few-shot Learning with Multilingual Language Models 中提出的模型。
❤
GitHub: https://github.com/facebookresearch/fairseq/tree/main/examples/xglm
Hugging Face: https://huggingface.co/docs/transformers/model_doc/xglm
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生