糖心淑女晋江:糖心小水水-如何让机器人闻令而动甚至主动行动?两项具身智能成果在WAIC发布

频道:旅游 日期: 浏览:1

7月27日,2025世界人工智能大会(WAIC)进入第二天,最热闹、最“核爆”的依然是具身智能。商汤科技、智元机器人当天分别发布“悟能”具身智能平台和面向真实世界双臂机器人的世界模型开源平台GE。

“悟能”具身智能平台让机器人“闻令而动”

在当天召开的“大爱无疆·模塑未来”WAIC 2025大模型论坛上,商汤科技发布“悟能”具身智能平台。该平台以商汤具身世界模型为核心引擎,依托商汤大装置提供端侧和云侧算力支持,能够为机器人、智能设备提供强大的感知、视觉导航及多模态交互能力,推动智能终端向更高层次的自主化与智能化演进。该平台可赋能机器人等各种终端硬件,实现对世界万物的感知理解能力,并支持嵌入到端侧芯片,具有强大的场景适配性。

在7月27日召开的“大爱无疆·模塑未来”WAIC 2025大模型论坛上,商汤科技发布“悟能”具身智能平台。 本文图均为 受访者供图

论坛现场,商汤科技董事长兼首席执行官徐立展示了搭载具身世界引擎的人形机器人讲解PPT的效果,机器人语言自然、风趣幽默,不仅可以自动翻页,还能回答各类问题,并进行阶段性小结。

商汤透露,商汤具身世界模型还能构建面向人、物、场的4D真实世界。用户仅需要输入简单的提示词,比如“在厨房区域的架子上找东西”“进入娱乐室、向右转,然后打开通往院子的门”等,具身世界模型就能自主进行位姿、动作骨架和指令的生成,可以说是“闻令而动”。徐立表示,商汤希望“悟能”具身智能平台能够帮助各种具身智能企业,帮助他们完成和现实世界交互的梦想。

智元发布双臂机器人世界模型开源平台

同样是7月27日,由智元机器人主办、以“全球视角下的具身智能新机遇”为主题的“智启具身论坛”在上海世博展览馆举行,汇聚包括来自PI、Intrinsic、清华大学、Sanctuary AI、英伟达、亚马逊等全球具身智能领域的“最强大脑”,聚焦机器人基础模型泛化、高性能操控等关键方向,开启了一场跨越学术与产业的“华山论剑”。

智元机器人合伙人&具身业务部总裁姚卯青表示,目前,智元机器人通过自建专业数采工厂,形成了全球最大数据集AgiBot World并开源。智元还发布了行业首个通用具身基座模型——启元大模型,拥有“一脑多形”能力,可适配其他异构机器人本体。在场景端,智元机器人凭借“机器人+具身模型”技术重构了智能生产力范式,现已在工业制造、仓储物流、电力巡检、交互引导四大场景实现突破性落地。

论坛上,姚卯青代表智元机器人发布了行业首个真正面向真实世界双臂机器人的世界模型开源平台“Genie Envisioner”(以下简称 GE)。该平台融合了预测、控制、评测三大核心能力,为机器人从“看见”到“行动”提供了端到端、一体化的解决方案。

2025世界人工智能大会智元机器人展台。

GE平台的核心是多视角视频扩散模型GE-Base,以AgiBot-World-Beta数据集为基础,利用超过100万条、近3000小时的头部与双臂腕同步视频流,捕捉机器人操作任务中的空间布局、动作演化与语义意图。160M参数级别的动作解码器GE-Act,可以帮助机器人完成从视觉感知到动作执行的跨模态迁移。在真实平台验证中,搭载GE-Act的机器人先后完成“做三明治”“倒茶”“擦桌面”“使用微波炉加热”“流水线装箱”等五项任务,各项成功率均远超行业平均值。GE平台的发布,标志着机器人从被动执行向主动“想象—验证—行动”的转变,将持续推动智能制造与服务机器人的落地应用。

姚卯青透露,智元的精灵系列下一代机器人本体——精灵G2即将发布。相较于上一代,G2在运动精度、场景适配性上全面升级,具备原生数采能力,可胜任工业、商业、家庭等多元场景,进一步拓宽具身智能的应用边界。