永洪社区
标题: 盘点2023年最佳开源大语言模型 [打印本页]
作者: 喝酸奶不舔盖 时间: 2024-3-12 21:40
标题: 盘点2023年最佳开源大语言模型
自从 OpenAI 推出 ChatGPT 以来,大型语言模型(LLMs)在公众中的关注度显著提升。这些基于生成式人工智能的工具不仅展现了巨大的盈利潜力,而且也引起了技术和商业界的广泛关注。然而,对于许多小型企业和独立研究者来说,闭源的大型语言模型存在一些挑战,如高昂的运营成本、复杂的计算需求,以及数据所有权和隐私问题。
因应这些挑战,过去一年中,开源的大型语言模型获得了更多关注。虽然它们通常不如闭源模型强大,但开源模型提供了灵活性,可以针对特定任务进行微调,有时甚至能超越专有模型。
2023年,随着更多开源替代品的出现,AI 领域变得更加多元化。以下是一些在这一年产生显著影响的主要开源模型:
1、Llama 2
https://github.com/facebookresearch/llama
Meta的Llama 2是其AI大模型阵容中的一次重大突破。这不仅仅是一个新模型,而是旨在推动一系列最先进应用的设计。Llama 2的训练数据既广泛又多样,这使其成为比前代产品更为显著的进步。这种训练数据的多样性确保Llama 2不仅仅是一个小幅改进,而是向着AI驱动交互未来的一大步。
Meta与微软的合作扩展了Llama 2的应用范围。这款开源模型现在支持在Azure和Windows等平台上运行,旨在为开发者和组织提供创造生成式AI驱动体验的工具。这种合作强调了两家公司致力于使AI更加可访问和开放的决心。
Llama 2不仅仅是原始Llama模型的继任者;它代表了聊天机器人领域的一个范式转变。尽管第一代Llama模型在生成文本和代码方面具有革命性,但其可用性受到限制以防止滥用。相比之下,Llama 2则将触及更广泛的受众。它已为平台如AWS、Azure和Hugging Face的AI模型托管平台进行了优化。此外,得益于Meta与微软的合作,Llama 2不仅将在Windows上留下印记,还将在搭载高通Snapdragon系统芯片的设备上发挥作用。
安全性是Llama 2设计的核心。Meta已经采取了广泛措施以确保Llama 2的可靠性,以应对先前大型语言模型(如GPT)有时产生误导性或有害内容的挑战。该模型经过了严格的训练,以最小化“幻觉”、错误信息和偏见。
LLaMa 2的主要特点包括:
- 多样化的训练数据:Llama 2的训练数据既广泛又多样,确保了全面的理解和性能。
- 与微软的合作:Llama 2在Azure和Windows等平台上得到支持,扩大了其应用范围。
- 开放可用性:与前代产品不同,Llama 2面向更广泛的受众,可在多个平台上进行微调。
- 安全为中心的设计:Meta强调安全性,确保Llama 2产出准确可靠的结果,同时最小化有害输出。
- 优化版本:Llama 2提供两个主要版本 - Llama 2和Llama 2-Chat,后者专为双向对话设计。这些版本的复杂度从70亿到700亿参数不等。
- 加强训练:Llama 2的训练基于两百万个token,较原始Llama的1.4万亿个token有显著增加。
2、Bloom
https://huggingface.co/bigscience/bloom
2022年,经过全球70多个国家的志愿者和Hugging Face专家的共同努力,BLOOM项目揭幕。这个通过一年长的倡议创建的大型语言模型(LLM),专为自回归文本生成而设计,能够延续和扩展给定的文本提示。它利用大量计算能力,在庞大的文本数据语料库上进行训练。
BLOOM的首次亮相是使生成式AI技术更易获取的重要一步。作为一个开源LLM,它拥有1760亿参数,使其成为同类中最强大的模型之一。BLOOM能够在46种语言和13种编程语言中生成连贯、精确的文本。
该项目强调透明度,允许公众访问其源代码和训练数据。这种开放性邀请了持续的检查、使用和改进模型。
通过Hugging Face平台,BLOOM可以免费获取和使用,成为AI领域协作创新的证明。
Bloom的主要特点包括:
- 多语言能力:BLOOM能够在46种语言和13种编程语言中生成文本,展现其广泛的语言范围。
- 开源访问:模型的源代码和训练数据公开可用,促进透明度和协作改进。
- 自回归文本生成:设计用于继续给定提示的文本,BLOOM擅长扩展和完成文本序列。
- 庞大的参数数量:拥有1760亿参数,BLOOM是现存最强大的开源LLM之一。
- 全球合作:通过为期一年的项目开发,获得了来自70多个国家的志愿者和Hugging Face研究人员的贡献。
- 免费获取:用户可以通过Hugging Face生态系统免费获取和使用BLOOM,增强了其在AI领域的普及。
- 工业级训练:该模型在使用大量计算资源的情况下,在大量文本数据上进行训练,确保了强大的性能。
3、MPT-7B
https://huggingface.co/mosaicml/mpt-7b
MosaicML Foundations 的最新开源大型语言模型 MPT-7B 对这一领域做出了显著贡献。MPT-7B(MosaicML 预训练Transformer的缩写)是一款 GPT 风格的、仅限解码器的Transformer模型。这个模型拥有多项增强功能,包括性能优化的层实现和确保更大训练稳定性的架构变更。
MPT-7B 的一个突出特点是它在包含1万亿token的文本和代码的广泛数据集上进行了训练。这一严格的训练在 MosaicML 平台上执行了9.5天。
MPT-7B 的开源性质使其成为商业应用的有价值工具。它有潜力显著影响预测分析和企业及组织的决策过程。
除了基础模型外,MosaicML Foundations 还发布了针对特定任务的专门模型,例如用于短文指令跟随的 MPT-7B-Instruct、对话生成的 MPT-7B-Chat 和长篇故事创作的 MPT-7B-StoryWriter-65k+。
MPT-7B 的开发过程全面而详细,MosaicML 团队在几周内管理了从数据准备到部署的所有阶段。数据来自多个不同的仓库,团队使用了诸如 EleutherAI 的 GPT-NeoX 和 20B token生成器等工具,以确保培训组合的多样性和全面性。
MPT-7B 的主要特点概览:
- 商业许可:MPT-7B 获得商业使用许可,对企业来说是一项宝贵的资产。
- 广泛的训练数据:模型在包含1万亿token的庞大数据集上进行了训练。
- 长输入处理:MPT-7B 被设计用于处理极长的输入,不会妥协性能。
- 速度和效率:模型针对快速训练和推断进行了优化,确保及时的结果。
- 开源代码:MPT-7B 提供高效的开源训练代码,提升透明度和易用性。
- 相对卓越:MPT-7B 在 7B-20B 范围的其他开源模型中显示出优越性,其质量与 LLaMA-7B 相匹敌。
4、Falcon
https://huggingface.co/tiiuae/falcon-40b
Falcon LLM,特别是 Falcon-40B,迅速成为大型语言模型(LLM)层级中的佼佼者。Falcon-40B 是一个基础型LLM,配备了400亿个参数,并在令人印象深刻的1万亿token上进行了训练。它作为一种自回归的仅限解码器模型运行,这意味着它基于前面的token来预测序列中的下一个token。这种架构让人想起 GPT 模型。值得注意的是,Falcon 的架构已经显示出比 GPT-3 更优越的性能,仅用了75%的训练计算预算就实现了这一壮举,并在推理过程中显著减少了计算需求。
在 Falcon 的开发过程中,技术创新研究所(TII)的团队强调了数据质量的重要性。意识到 LLM 对训练数据质量的敏感性,他们构建了一个能够扩展到数以万计的 CPU 核心的数据管道。这允许快速处理和从网络中提取高质量内容,通过广泛的过滤和去重过程实现。
除了 Falcon-40B,TII 还推出了其他版本,包括具有70亿参数并在1,5000亿token上训练的 Falcon-7B。还有专门为特定任务定制的模型,如 Falcon-40B-Instruct 和 Falcon-7B-Instruct。
训练 Falcon-40B 是一个广泛的过程。该模型在 TII 构建的大型英文网络数据集 RefinedWeb 上进行了训练。该数据集基于 CommonCrawl 构建,并经过严格的过滤以确保质量。一旦模型准备好,它就在包括 EAI Harness、HELM 和 BigBench 在内的几个开源基准上进行了验证。
Falcon LLM 的主要特点概览:
- 广泛的参数:Falcon-40B 配备了400亿参数,确保全面的学习和性能。
- 自回归解码器-仅限模型:这种架构允许 Falcon 基于前面的token来预测后续token,类似于 GPT 模型。
- 卓越性能:Falcon 在只使用75%的训练计算预算的情况下超越了 GPT-3。
- 高质量数据管道:TII 的数据管道确保了从网络中提取高质量内容,对模型的训练至关重要。
- 多样化模型:除了 Falcon-40B,TII 还提供 Falcon-7B 以及专门的模型,如 Falcon-40B-Instruct 和 Falcon-7B-Instruct。
- 开源可用性:Falcon LLM 已开源,促进了 AI 领域的可访问性和包容性。
5、Vicuna-13B
https://huggingface.co/lmsys/vicuna-13b-v1.3
LMSYS ORG 在开源大型语言模型(LLM)领域引入了 Vicuna-13B,这一开源聊天机器人通过在用户共享的来自 ShareGPT 的对话上微调LLaMA进行了精心训练。初步评估显示,以 GPT-4 作为评判标准,Vicuna-13B 达到了与 OpenAI 的 ChatGPT 和 Google 的 Bard 等知名模型相当的90%以上质量。
令人印象深刻的是,Vicuna-13B 在超过90%的情况下超越了其他知名模型,如LLaMA和Stanford的Alpaca。Vicuna-13B 的整个训练过程成本约为300美元。对于那些有兴趣探索其功能的人来说,代码、权重和一个在线演示已经公开提供,仅供非商业目的使用。
Vicuna-13B 模型通过70K用户共享的 ChatGPT 对话进行了微调,使其能够生成更详细、结构更良好的回应。这些回应的质量与 ChatGPT 相媲美。然而,评估聊天机器人是一个复杂的过程。随着 GPT-4 的进步,越来越多人对其作为自动评估框架进行基准生成和性能评估的潜力感到好奇。初步研究表明,GPT-4 在比较聊天机器人回应时可以产生一致的排名和详细的评估。基于 GPT-4 的初步评估显示,Vicuna 达到了与 Bard/ChatGPT 等模型90%的能力。
Vicuna-13B 的主要特点概览:
- 开源本质:Vicuna-13B 对公众开放,促进透明度和社区参与。
- 广泛的训练数据:该模型在70K用户共享的对话上进行了训练,确保了对多样化交互的全面理解。
- 竞争性能能力:Vicuna-13B 的性能与行业领袖如 ChatGPT 和 Google Bard 相媲美。
- 成本效益训练:Vicuna-13B 的整个训练过程成本低廉,约为300美元。
- LLaMA 上的微调:该模型在 LLaMA 上进行了微调,确保了性能和回应质量的提升。
- 在线演示可用性:提供交互式在线演示,供用户测试和体验 Vicuna-13B 的功能。
大型语言模型的不断扩展
大型语言模型的领域广阔且不断扩展,每个新模型都在推动可能性的边界。这些模型的开源本质不仅展示了 AI 社区的协作精神,也为未来的创新铺平了道路。
从 Vicuna 强大的聊天机器人功能到 Falcon 的卓越性能指标,这些模型代表了当前 LLM 技术的顶峰。随着我们继续见证这一领域的快速进步,显然,开源模型将在塑造 AI 未来中发挥关键作用。
欢迎光临 永洪社区 (https://club.yonghongtech.com/) |
Powered by Discuz! X3.4 |