糖心vlog破解版无限vip:alexisfawx喷水-火山总裁谭待:很多Agent的能力还停留在类似自动驾驶的L1阶段
“目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent,是行业发展的方向。”4月17日,在火山引擎2025 FORCE LINK AI创新巡展现场杭州站上,字节跳动旗下的火山总裁谭待在接受包括澎湃科技(www.thepaper.cn)在内的媒体采访时表示。
谭待认为,深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。

豆包1.5深度思考模型发布 澎湃新闻记者 摄
当日,豆包1.5深度思考模型正式发布。据介绍,这款模型除了在数学、编程、科学推理、创意写作等通用任务表现突出之外,还上线了具备视觉推理能力的深度思考模型视觉版,能像人类一样对看到的事物进行联想和思考。
值得一提的是,就在今天凌晨,OpenAI也发布了能够进行视觉推理的推理模型o3。
在发布会现场,谭待展示了豆包1.5深度思考模型的视觉推理功能,不仅能够根据照片分析地貌,还能在帮助用户点餐,还可以根据家庭成员的需求推荐露营装备,甚至也能协助制定旅行计划。在企业场景中,该模型可辅助完成项目管理流程图,优化工作流程,推动企业实现智能化运营。
2025年被业界视为“AI Agent智能体元年”,全球科技巨头如微软、谷歌、OpenAI等纷纷加速布局,推出具备自主决策和多任务处理能力的AI Agent产品,如微软发布了企业级AI助手Microsoft 365 Copilot Chat,谷歌升级了Gemini 2.0模型,OpenAI则在17日凌晨突然推出最新的o系列模型,o3和o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。
国内继中国初创公司Monica推出号称全球首款AI智能体产品Manus后,行业内也在等待下一个科技圈的爆款产品出现。

现场展示豆包1.5深度思考模型 澎湃新闻记者 摄
面对行业内激烈的竞争,谭待在接受采访时直言,现在所谓的“Agent”,不能仅完成“写一首打油诗”或“写篇小学生作文”这样的简单任务。真正的Agent,需要能完成专业性较高、耗时较长、结构完整的任务,这是从定性角度来看。从技术实现的角度来看,如果没有运用深度思考模型,缺乏反思和规划能力,也很难称其为真正的Agent。
谈及市面上目前Agent的发展阶段,谭待以目前大家熟悉的自动驾驶领域来类比。自动驾驶技术根据自动化程度的不同分为L0到L5六个级别。其中,L0级、L1级、L2级都只能称为辅助驾驶系统。谭待指出,2025年行业内和大众可能会对Agent的定义会更加清晰,行业内或许会像自动驾驶分级一样,对Agent进行分级,如Agent L1、L2、L3、L4 这类。“那些开发三四千个 Agent的企业,(Agent能力)可能仅相当于自动驾驶中的 L1 级别;而真正实现落地应用,至少应具备 L2++ 能力(注:L2部分自动驾驶范畴,但在技术和体验上比普通的L2更先进,接近甚至部分具备L3能力)”谭待表示。
澎湃科技注意到,在此次AI创新巡展现场杭州站上,火山引擎还推出了OS Agent解决方案。据悉,OS Agent解决方案包含豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,实现对代码、浏览器、电脑、手机以及其他Agent的操作。其中,豆包UI-TARS模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合了在一起,为Agent的智能交互提供了更接近人类操作的模型基础。