永洪社区

标题: 盘点2023年最佳开源大语言模型 [打印本页]

作者: 喝酸奶不舔盖    时间: 2024-3-12 21:40
标题: 盘点2023年最佳开源大语言模型
自从 OpenAI 推出 ChatGPT 以来,大型语言模型(LLMs)在公众中的关注度显著提升。这些基于生成式人工智能的工具不仅展现了巨大的盈利潜力,而且也引起了技术和商业界的广泛关注。然而,对于许多小型企业和独立研究者来说,闭源的大型语言模型存在一些挑战,如高昂的运营成本、复杂的计算需求,以及数据所有权和隐私问题。
因应这些挑战,过去一年中,开源的大型语言模型获得了更多关注。虽然它们通常不如闭源模型强大,但开源模型提供了灵活性,可以针对特定任务进行微调,有时甚至能超越专有模型。
2023年,随着更多开源替代品的出现,AI 领域变得更加多元化。以下是一些在这一年产生显著影响的主要开源模型:
1、Llama 2
https://github.com/facebookresearch/llama
Meta的Llama 2是其AI大模型阵容中的一次重大突破。这不仅仅是一个新模型,而是旨在推动一系列最先进应用的设计。Llama 2的训练数据既广泛又多样,这使其成为比前代产品更为显著的进步。这种训练数据的多样性确保Llama 2不仅仅是一个小幅改进,而是向着AI驱动交互未来的一大步。
Meta与微软的合作扩展了Llama 2的应用范围。这款开源模型现在支持在Azure和Windows等平台上运行,旨在为开发者和组织提供创造生成式AI驱动体验的工具。这种合作强调了两家公司致力于使AI更加可访问和开放的决心。
Llama 2不仅仅是原始Llama模型的继任者;它代表了聊天机器人领域的一个范式转变。尽管第一代Llama模型在生成文本和代码方面具有革命性,但其可用性受到限制以防止滥用。相比之下,Llama 2则将触及更广泛的受众。它已为平台如AWS、Azure和Hugging Face的AI模型托管平台进行了优化。此外,得益于Meta与微软的合作,Llama 2不仅将在Windows上留下印记,还将在搭载高通Snapdragon系统芯片的设备上发挥作用。
安全性是Llama 2设计的核心。Meta已经采取了广泛措施以确保Llama 2的可靠性,以应对先前大型语言模型(如GPT)有时产生误导性或有害内容的挑战。该模型经过了严格的训练,以最小化“幻觉”、错误信息和偏见。
LLaMa 2的主要特点包括:
2、Bloom
https://huggingface.co/bigscience/bloom
2022年,经过全球70多个国家的志愿者和Hugging Face专家的共同努力,BLOOM项目揭幕。这个通过一年长的倡议创建的大型语言模型(LLM),专为自回归文本生成而设计,能够延续和扩展给定的文本提示。它利用大量计算能力,在庞大的文本数据语料库上进行训练。
BLOOM的首次亮相是使生成式AI技术更易获取的重要一步。作为一个开源LLM,它拥有1760亿参数,使其成为同类中最强大的模型之一。BLOOM能够在46种语言和13种编程语言中生成连贯、精确的文本。
该项目强调透明度,允许公众访问其源代码和训练数据。这种开放性邀请了持续的检查、使用和改进模型。
通过Hugging Face平台,BLOOM可以免费获取和使用,成为AI领域协作创新的证明。
Bloom的主要特点包括:
3、MPT-7B
https://huggingface.co/mosaicml/mpt-7b
MosaicML Foundations 的最新开源大型语言模型 MPT-7B 对这一领域做出了显著贡献。MPT-7B(MosaicML 预训练Transformer的缩写)是一款 GPT 风格的、仅限解码器的Transformer模型。这个模型拥有多项增强功能,包括性能优化的层实现和确保更大训练稳定性的架构变更。
MPT-7B 的一个突出特点是它在包含1万亿token的文本和代码的广泛数据集上进行了训练。这一严格的训练在 MosaicML 平台上执行了9.5天。
MPT-7B 的开源性质使其成为商业应用的有价值工具。它有潜力显著影响预测分析和企业及组织的决策过程。
除了基础模型外,MosaicML Foundations 还发布了针对特定任务的专门模型,例如用于短文指令跟随的 MPT-7B-Instruct、对话生成的 MPT-7B-Chat 和长篇故事创作的 MPT-7B-StoryWriter-65k+。
MPT-7B 的开发过程全面而详细,MosaicML 团队在几周内管理了从数据准备到部署的所有阶段。数据来自多个不同的仓库,团队使用了诸如 EleutherAI 的 GPT-NeoX 和 20B token生成器等工具,以确保培训组合的多样性和全面性。
MPT-7B 的主要特点概览:
4、Falcon
https://huggingface.co/tiiuae/falcon-40b
Falcon LLM,特别是 Falcon-40B,迅速成为大型语言模型(LLM)层级中的佼佼者。Falcon-40B 是一个基础型LLM,配备了400亿个参数,并在令人印象深刻的1万亿token上进行了训练。它作为一种自回归的仅限解码器模型运行,这意味着它基于前面的token来预测序列中的下一个token。这种架构让人想起 GPT 模型。值得注意的是,Falcon 的架构已经显示出比 GPT-3 更优越的性能,仅用了75%的训练计算预算就实现了这一壮举,并在推理过程中显著减少了计算需求。
在 Falcon 的开发过程中,技术创新研究所(TII)的团队强调了数据质量的重要性。意识到 LLM 对训练数据质量的敏感性,他们构建了一个能够扩展到数以万计的 CPU 核心的数据管道。这允许快速处理和从网络中提取高质量内容,通过广泛的过滤和去重过程实现。
除了 Falcon-40B,TII 还推出了其他版本,包括具有70亿参数并在1,5000亿token上训练的 Falcon-7B。还有专门为特定任务定制的模型,如 Falcon-40B-Instruct 和 Falcon-7B-Instruct。
训练 Falcon-40B 是一个广泛的过程。该模型在 TII 构建的大型英文网络数据集 RefinedWeb 上进行了训练。该数据集基于 CommonCrawl 构建,并经过严格的过滤以确保质量。一旦模型准备好,它就在包括 EAI Harness、HELM 和 BigBench 在内的几个开源基准上进行了验证。
Falcon LLM 的主要特点概览:
5、Vicuna-13B
https://huggingface.co/lmsys/vicuna-13b-v1.3
LMSYS ORG 在开源大型语言模型(LLM)领域引入了 Vicuna-13B,这一开源聊天机器人通过在用户共享的来自 ShareGPT 的对话上微调LLaMA进行了精心训练。初步评估显示,以 GPT-4 作为评判标准,Vicuna-13B 达到了与 OpenAI 的 ChatGPT 和 Google 的 Bard 等知名模型相当的90%以上质量。
令人印象深刻的是,Vicuna-13B 在超过90%的情况下超越了其他知名模型,如LLaMA和Stanford的Alpaca。Vicuna-13B 的整个训练过程成本约为300美元。对于那些有兴趣探索其功能的人来说,代码、权重和一个在线演示已经公开提供,仅供非商业目的使用。
Vicuna-13B 模型通过70K用户共享的 ChatGPT 对话进行了微调,使其能够生成更详细、结构更良好的回应。这些回应的质量与 ChatGPT 相媲美。然而,评估聊天机器人是一个复杂的过程。随着 GPT-4 的进步,越来越多人对其作为自动评估框架进行基准生成和性能评估的潜力感到好奇。初步研究表明,GPT-4 在比较聊天机器人回应时可以产生一致的排名和详细的评估。基于 GPT-4 的初步评估显示,Vicuna 达到了与 Bard/ChatGPT 等模型90%的能力。
Vicuna-13B 的主要特点概览:
大型语言模型的不断扩展
大型语言模型的领域广阔且不断扩展,每个新模型都在推动可能性的边界。这些模型的开源本质不仅展示了 AI 社区的协作精神,也为未来的创新铺平了道路。
从 Vicuna 强大的聊天机器人功能到 Falcon 的卓越性能指标,这些模型代表了当前 LLM 技术的顶峰。随着我们继续见证这一领域的快速进步,显然,开源模型将在塑造 AI 未来中发挥关键作用。







欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4