加国生活网life416 - GPT-4o：OpenAI的一小步 “AI助理”的一大步

: 黎诗韵; 发布于 2024年5月14日

文章索引

第1页共3页

文章来源: 极客公园
原文链接：https://www.geekpark.net/news/335020

5 月 13 日，OpenAI 用一场春季发布会，再次搅动了整个 AI 行业。

在 Sam Altman 缺席的情况下，OpenAI CTO Mira Murati 担纲介绍了新的 ChatGPT 产品 GPT-4o。

短短 26 分钟的发布会，却几乎是科幻电影《Her》的现实演绎。当你打开 ChatGPT，你面对的不再是一个只会帮你生成内容、或者进行僵硬语音聊天的工具——你唤起的将是一个「无所不能」的语音助手，或者说，一个越来越接近人类的「物种」。

它长出了「眼睛」，可以通过摄像头看到你，比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议；它能「看到」你的电脑桌面，直接帮你查看写的代码有什么问题。

它有了更灵敏的「耳朵」，能听懂的不只是语言，还能听懂研究员过于急促的呼吸声，并引导他慢慢平稳呼吸、放松下来。

它有了更灵活的「嘴巴」，对话不再有延时，你能随时打断它、它能随时接住你的话。它的声音能带入感情，比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。

它也有了更聪明的「大脑」。它能帮研究员一步步解不等式，还可以做同声翻译、你可以通过它跟不同语种的人们交流。

这些强大的能力背后，源自 OpenAI 推出的新模型 GPT-4o。与现有模型相比，GPT-4o 的最大进步在于，它可以实时对音频、视觉和文本进行推理——换句话说，它让ChatGPT实现了真正意义上的多模态交互。

这不仅仅是技术进步的追求，更是应用普及的追求。OpenAI 的使命之一是让 AI 普惠每个人，让用户能顺滑地用上 AI 是至关重要的。在「模型即应用」的时代，这种交互体验最终还是靠模型能力的提升。OpenAI 称，GPT-4o（「o」代表「omni」）是迈向更自然的人机交互的一步。

发布会上，Mira Murati 宣布 GPT-4o 将免费向所有用户开放，而付费和企业用户，可以抢先获得体验。

电影《Her》上映于 2013 年，它讲述了一位人类爱上一位人工智能语音助理的故事。从今天 ChatGPT 呈现的能力来看，这样的想象正在加速成为现实。

01 ChatGPT 的惊人进步：变身人类「超级助理」，甚至不需要人类参与

在 OpenAI 的官网上，呈现了 ChatGPT 作为个人语音「超级助理」的更多惊人应用场景。

首先是面向单个用户，和人一样，它提供的主要是「情绪价值」与「认知价值」。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等；它能充当面试官，给人提供面试建议；它还能给一位盲人提供环境观察，给他讲述看到的景色、提醒他过马路的路况。

接着是面向多个用户，它提供的更多是一种「协同价值」。比如给两个语言不通的人充当翻译，让他们能无障碍沟通；给两个人做「剪刀石头布」的游戏裁判，先喊口令让游戏开始、之后还能准确判断是哪个人赢了；充当一名「家教」，帮一位父亲辅导他的孩子做作业；甚至作为一名「会议第三方」，主持和记录多人会议。

最有意思的还是，不同 ChatGPT 之间的对话。这种无需人类参与的沟通，不仅充满了科幻感，更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中，一位用户要求一部手机的 ChatGPT 代表自己，向另一部手机的 ChatGPT 申请售后，结果这两个 ChatGPT 毫无阻碍地聊了两分钟，顺利帮这位用户「换了货」。而 OpenAI 总裁 Greg Brockman 则做了一个调皮的演示，他让两个 ChatGPT 互动并唱了歌。

一位曾在 10 年前就开始做「AI 语音助理」的前大厂高管对极客公园表示，他当时就设想过 AI 助理的终极形态应该是「多模态、无所不能」，但彼时技术并不支持，他认为 ChatGPT 会加速这种设想实现的可能——只是他没想到，这个过程会来得这么快。

他认为，实现 AGI 的一个关键标志是，机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远，但当两个 ChatGPT 开始互相聊天的时候，这个鸿沟看起来似乎浅了一点点。

GPT-4o：OpenAI的一小步 “AI助理”的一大步

文章索引

最新文章

热门文章

热门话题