国外大语言模型《一》

发布于: 2024-07-30

自从ChatGPT横空出世以来,各种大模型如雨后春笋般一个个不断冒了出来,正所谓萝卜青菜各有所爱,也许没有最好,只有更适合的,下面让我们盘点一下除了ChatGPT外,国外还有那些优秀的大模型可以选择

Meta AI

地址:https://www.meta.ai

meta.ai 是 meta 公司设立的一个聊天网站,于 2024 年 4 月 18 日上线。meta.ai 是 metaai 的网页版,该网站搭载了 meta 的 llama3 模型(大型语言模型)。

特点:

  • 参数量丰富从 Llama 1 到 Llama 3,参数量不断增加。Llama 3 的最大版本参数量飙升至超过 4000 亿
  • 性能表现优异例如 Llama 3 的 80 亿和 700 亿参数版本,Meta 声称其性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5。它在推理任务上有显著提升,能更好地理解和执行指令,以及编写更高品质的代码。
  • 开源开放Llama 系列采取了开源的方式,这促进了全球开发者社区的创新,推动了 AI 领域的发展。如 Llama 3 开源其 80 亿参数版本,使更多人能够接触和使用先进的人工智能技术。
  • 多模态处理能力Llama 3 实现了多模态处理,能够同时理解并生成文本、图像、音频等多种类型的数据,开启了跨媒介交互的新纪元。不过,目前 Llama 3 仅提供文本形式的回应。

Claude

地址:https://claude.ai/

Claude,美国人工智能初创公司Anthropic发布的大型语言模型家族,拥有高级推理、视觉分析、代码生成、多语言处理、多模态等能力,该模型对标ChatGPT、Gemini等产品

特点:

  • 多种模型可选Claude 3.0共发布了三款模型,分别是 Opus、Sonnet 和 Haiku。Opus 是最强大、最智能的模型,在 AI 系统评估基准上表现出色;Sonnet 在性能和成本效益之间取得了平衡;Haiku 则是成本最优的模型,速度最快,能在短时间内处理大量信息。
  • 语言处理能力强能够流畅地处理多种语言的对话和文本分析,如西班牙语、日语、法语等。
  • 准确性提高例如 Claude 3.0 Opus 在挑战性开放式问题上,正确答案率是 Claude 2.1 的两倍。
  • 上下文处理能力提升初始提供200K的上下文窗口,且所有模型都能处理超过1百万 token 的输入,其中 Claude Opus 实现了接近完美的召回率,准确率超过99%。
  • 即时反应支持实时反馈,Haiku 模型可以在短时间内(不到3秒)阅读约10K tokens 的信息和数据密集型研究论文,并快速给出响应。
  • 视觉识别能力能够识别并处理多种视觉格式,如照片、图表和技术图纸等。

Gemini

地址:https://gemini.google.com

Gemini是一款由Google DeepMind(谷歌母公司Alphabet下设立的人工智能实验室)于2023年12月6日发布的人工智能模型,可同时识别文本、图像、音频、视频和代码五种类型信息。

特点:

  • 多模态能力能够同时识别和处理文本、图像、音频、视频和代码等多种类型的信息。它原生支持多模态,在预训练阶段直接接受多模态输入,不同于传统多模态模型在第二阶段才将不同模态的模型连接在一起的做法。这种设计有助于其无缝理解、操作和组合不同类型的信息,并且可以实现端到端处理原始音频,更好地理解和处理用户需求。
  • 强大性能在大多数基准测试中表现出色,例如在大规模多任务语言理解(MMLU)基准测试中,Gemini Ultra 的得分为 90%,高于包括 GPT-4 在内的其他竞争对手。其 Ultra 版本性能超过了 GPT-4,Pro 版本比 GPT-3.5 效果好。它还能将最先进的结果提高了5个百分点以上,在 MMMU(yue etal.,2023)数据集中6个学科里的5个学科超越了之前的最佳成绩,展示了其多模态推理能力。在多语种翻译方面,性能也超过 GPT-4,在 WMT23 指标中的4个有3个超过 GPT-4 的表现。
  • 灵活性和高效性该模型能高效地运行在数据中心和移动设备等多类型平台上。其中 Nano 版本可以在使用特殊芯片的终端设备上运行,而不依赖于云端服务器,为用户提供了更高的安全性和隐私保护。Nano 版本首先从大模型蒸馏,然后进行 4bit 量化,包含两个版本,1.8b 面向低端手机,3.25b 面向高端手机。Nano 2 模型在很多方面超过了 Pro 版本的 50%,部分达到 90%的水平。
  • 多种版本首个版本 Gemini 1.0 包括三个不同体量的模型,分别是 Ultra(用于处理高度复杂任务)、Pro(用于处理多任务和终端上设备的特定任务)和 Nano(用于处理多个任务和端侧特定任务)。


Mistral AI

地址:https://chat.mistral.ai/chat

Mistral AI 是一家总部位于法国的人工智能公司。该公司由来自 Deepmind 和 Meta 公司的前研究人员组建,拥有强大的研发团队,其创始人曾主导 Llama 大语言模型的研发。

特点:

  • 性能强大例如 Mistral 7B 虽是小模型,但在大部分 benchmark 上的能力优于 Llama 2 13B,在语言能力上的多语言能力(MMLU)具有显著优势,推理能力也只是小幅弱于专门在代码场景训练的 Code-Llama 7B 模型;其新发布的 Mistral Large 2 拥有1230亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。
  • 成本和延迟优化Mistral 7B 专门针对低推理成本和延迟做了优化,例如采用 grouped-query attention 能加快推理速度,sliding window attention 能够增大 input context,并降低推理成本。实际应用中,使用 Mistral-7B 替代 GPT-3.5 可节省一大半的推理成本。
  • 易于微调尽管 Mistral 7B 发布时间不长,但开源社区已基于其推出了很多微调模型,开发者普遍反馈该模型很适合根据使用场景进一步 fine-tune。
  • 功能多样Mistral Large 2 支持数十种语言和 80 多种编程语言;具备增强的函数调用和检索技能,可执行并行和顺序函数调用;大幅提升了指令遵循和对话能力,擅长遵循精确指令和处理长时间的多轮对话;在语言多样性方面表现优异,特别是在多种常见语言上的处理能力突出。
  • 开源且有潜力其开源模型允许第三方根据需求进行微调(部分有使用条件限制),如编码大模型 Codestral 可免费用于研究和非商业用途。Mistral AI 有潜力研发出更具变革性的新模型。