02 GPT-4o 多模态大模型的技术进步、以及安全性 - 第 2 页

文章信息: 作者：黎诗韵; 分类：加拿大文化; 日期：2024年5月14日

02 GPT-4o 多模态大模型的技术进步、以及安全性

这些惊艳的产品表现，根本上源自于 GPT-4o 多模态大模型的技术进步。后者分为文本、语音、图像三部分，GPT-4o 在这三块都有提升，尤其是后两者。

在文本方面，据 OpenAI 的技术报告，GPT-4o 在 MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评测指标上，都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本)，以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上，GPT-4o 创下了 88.7% 的新高分。

最关键的，是音频、多语言和视觉上的进步。

在音频方面，过去 ChatGPT 的音频缺陷是需要经过三个独立的模型，从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本，再由 GPT-3.5 或 GPT-4 接收文本并输出文本，最后由第三个模型将该文本转换回音频——一方面，它使得音频的传输存在延迟，GPT-3.5 的平均延迟为 2.8 秒，GPT-4 的平均延迟为 5.4 秒。另一方面，模型会丢失大量信息，从而无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而 GPT-4o 的解决办法是，跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。OpenAI 称这是其突破深度学习界限的最新举措。目前，GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入，与人类的响应时间相似。同时在音频 ASR 性能和翻译性能上，GPT-4o 都比 Whisper-v3（OpenAI 的语音识别模型）的性能更优。

M3Exam 基准测试既能用于多语言评估，也可以用于视觉评估。它由多项选择题组成，包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。另外在视觉理解评估上，GPT-4o 在视觉感知基准上都实现了最先进的性能。

一位大模型训练者曾对极客公园表示，模型的技术领先性从来不是靠打榜评分，而是靠用户最真实的感受和体验。从这个角度来说，GPT-4o 的技术领先性将很容易见分晓。

OpenAI 表示，GPT-4o 的文本和图像功能将于发布会当天在 ChatGPT 中推出。免费用户就可以使用，不过 Plus 付费用户能享受高达 5 倍的消息容量。在未来几周内，OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

而开发人员现在就可以在 API 中访问 GPT-4o 的文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍、价格降低了一半、速率限制提高了 5 倍。在未来几周内，OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。

一项强大的技术最令外界担忧的，就是它的安全可控性。这也是 OpenAI 最核心的考虑之一。

OpenAI 表示，GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。其还创建了新的安全系统，为语音输出提供防护。为了保证更好的安全性，OpenAI 表示在接下来的几周和几个月里，将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。

点击数：11426

GPT-4o：OpenAI的一小步 “AI助理”的一大步 - 02 GPT-4o 多模态大模型的技术进步、以及安全性

目录

最新文章

【本网专稿】多伦多周末好去处（2026年1月30日至2月1日）— 共19处

专访：加拿大著名Groundhog Day Wiarton Willie土拨鼠节2月2日举行（视频+组图）

卡尼总理宣布新措施，让加拿大人买菜更便宜

“红枫传奇”喜迎银禧 2026年选拔现接受提名

从量子计算到AI销售多伦多科技公司年薪超10万大举招聘

【本网专稿】多伦多周末好去处（2026年1月23日至1月25日）— 共11处

Toronto Gift Show多伦多礼品展精彩瞬间聊加拿大人的生意经（组图）

《寻秦记》将于2026年1月30日登陆多伦多（视频+组图）

【本网专稿】多伦多周末好去处（2026年1月16日至1月18日）— 共13处

从多伦多国际游艇展“窥”加拿大人的生活（组图）

Search

GPT-4o：OpenAI的一小步 “AI助理”的一大步 - 02 GPT-4o 多模态大模型的技术进步、以及安全性

目 录

最新文章

Search

目录