多模态是下一代大模型明确方向

问:听说咱们今年的行研已经结束了,与去年比,我们在大模型和AI领域得出结论有哪些变化?之前您认为开源大模型可能落后于闭源,Deepseek大火后,您的看法有了哪些改变?
宋春雨:今年标志着一个新时代的开始,整体AI发展正在加速迈向硅基智能。以Deepseek为代表的开源大模型崛起,反映出AI普惠趋势明显加快。

我们得出三个主要结论。第一,去年我们在分析AI大模型格局时认为开源与闭源各占五成。Deepseek最大的价值是AI普惠了,AI普及加速,这会让开源和闭源模式变成八二开,开源大模型占比80%,闭源大模型占比20%。

Deepseek的开创性贡献体现在两方面,一是其不仅开源了推理模型,还大幅降低了模型部署成本,加速了智能体和AI应用的普及。同时,Deepseek在工具链、数据链以及调用性方面更透明,也促进了智能体之间的协作。例如,像Manus这样的平台,使得多个智能体协同完成复杂任务成为可能。

第二,在大模型和AI领域,中国和美国已成全球两大核心力量,代表当前AI发展的最高水平。由于大模型高度依赖数据,主权AI的逻辑依然成立。

第三,Deepseek带来AI普惠后,下一阶段会有智能体的大爆发,垂域智能体和通用智能体会加速进化。在物理世界,我们看大模型对物理世界的影响主要是两个方向,一是车的自动驾驶,二是具身智能。会出现基于物理世界真实数据和仿真数据的专属具身智能大模型。

问:现在行业对具身智能判断两极分化,你怎么看?
宋春雨:我个人认为具身智能是物理世界进化的终极形态。首先,在有限场景的泛化,比如工厂内的分拣工作,两年内能产生ROI;其次,未来的机器人将呈现多样化共存的状态,它们不一定是人形的,可能是轮式的,或者配备的不是五指灵巧手,而是简单的夹具等形式。

问:和第一波具身智能创业者相比,这波创业者有何不同?
宋春雨:第一波创业者大多来自高校教授,而这波创业者很多都具有产业背景,比如创业者本身在智能驾驶公司、或者在特斯拉等工作过。

问:智能驾驶现在处于哪个阶段?
宋春雨:智能驾驶现已进入快速收敛期,自动驾驶肯定是具身第一个成功的商业化成功的场景,毕竟自动驾驶本质上就是一种“四轮机器人”。

自动驾驶已经迎来了类似iPhone的突破时刻,这一进展主要由视觉大模型驱动,然而具身智能落地应用仍需进一步演进。在中国,自动驾驶领域的创业公司会进一步收敛集中。由于特斯拉的FSD在国内缺乏数据训练支持,这对中国的自动驾驶企业来说是一个机会。一旦这些企业能够提供超越用户体验门槛的产品,就会对市场产生重大影响。

问:多模态大模型算今年的投资重点吗?
宋春雨:从模型进化来看,Deepseek-R1和OpenAI的o1主要基于文本处理,下一代大模型比较明确发展方向是多模态。典型案例是GPT-4o的多模态能力,图像、声音等是大模型获取世界数据的方向。

问:怎么看文生视频方向?
宋春雨:我个人感觉文生视频的技术框架上还没有完全走通,OpenAI的Sora相当于给大家放了个demo(一个演示性产品),模型本身还需要突破。

    

    © 2025 加国生活网life416