具身基座模型(VLA、世界模型)这两年进取很快。但只有工作一长、场景一复杂,一个很现实的问题就会立刻出现:机械人好多时辰不是「不会做」,而是「记不住」。好比:
柜子之前有没有打开过?物体被遮挡之前放到了哪里?某个沉复作为已经执行了几次?人类刚才示范过的挨次到底是什么?
这些都不是只看当前一帧图像就能解决的问题。也正由于如此,我们越来越感触:现有好多机械人 benchmark 固然在操作上已经很丰硕,但对 memory-dependent long-horizon manipulation 的刻画还远远不够。
因而,香港科技大学(昭通)结合清华大学、浙江大学、西湖大学、上海交通大学等多所顶尖高校与科研机构共同打造了具身智能领域首个聚焦「机械人影象能力」的系统性评测基准RoboMemArena,旨在添补持久以来机械人在长时程工作与汗青状态影象评估上的空缺。
该基准突破传统机械人 Benchmark 仅关注短期感知与即季节造的局限,构建了涵盖物体转移、指标遮挡、作为计数与挨次执行四大主题影象场景的综合评测系统,共蕴含 26 项长时程工作、151 个细粒度子工作以及 2600 条专家演示轨迹。同时配套复杂的真机测评和 leaderboard,支持表部单元手动上传模型进行真机评测,为具身智能系统在持久规划、世界状态理解与动态决策方面提供了更靠近真实世界的统一评测尺度。
有些工作看起来很长,但其实当前观察就足够决策;有些 benchmark 有长程执行,却没有为 memory formation 提供直接监督;还有一些工作只停顿在 simulation,没有配套的真实机械人验证。
RoboMemArena 想补上的,正是这块空缺。它不是单一做更多工作,而是试图把「机械人到底什么时辰必须依缆氟史信息」这件事,系统化地组织起来。
这是我们最看沉的一点。好多 memory benchmark 只能通知你最终成功还是失败,但若是模型真的要学会「记住从前」,它必要的往往不只是最终标签。
subtask-level annotations:把长程轨迹拆成可执杏注可理解的子工作;native keyframe annotations:显式象征那些真正沉要的物理状态转折;与轨迹对应的视觉观测、作为和机械人状态。
也就是说,我们不仅通知模型「这个工作要实现」,还尽量通知它「汗青里哪些瞬间值得记住」。这也是 RoboMemArena 融洽多已有 benchmark 极度分歧的处所。
若是一个 memory 步骤只能在 simulation 里有效,那它距离真正的 embodied system 还是有一段距离。所以在 RoboMemArena 里,我们不仅做了仿真 benchmark,还配套设计了5 个真实机械人 memory 工作:
我们不仅愿 RoboMemArena 只是一个「写论文用的 benchmark」,也但愿它能被后来者真正拿来训练、复现和比力。所以在盛开资源上,我们尽量把入口做齐全:
开源26 个工作的高质量训练数据,并带有子工作、关键帧、HDF5 轨迹结构等丰硕标注;提供26 个 BDDL 工作界说、LIBERO-compatible evaluation environment,以及与mujoco + robosuite + OpenGL/EGL兼容的评测蹊径;盛开PrediMem有关训练与评测实现入口,并已经系统跑出π0.5、MemoryVLA、MemER、HiF-VLA等代表性 baseline。
若是再细看四类工作,PrediMem 在Transferring、Occlusion、Counting、Sequence上都拿到了最好的均匀了局,其中在最依缆氟史状态维持的Sequence上达到72.5% TSR / 89.5% CSR,在Occlusion和Counting这两类 memory-demand 最强的设置里也显著拉开了和 baseline 的差距。
更沉要的是,在最长、最复杂、最依缆氟史信息的IHMB上,只有 PrediMem 成功。并且从消融尝试也能看到,无论去掉predictive coding head还是拿掉keyframe bank,整体阐发城市显著降落。
这注明 PrediMem 的优势并不来自单纯「模型更大」,而是确事反自对汗青信息组织方式的改进。这也注明 memory 不是一个「锦上添花」的幼?,而是长程机械人执行里决定工作能不能贯通的主题能力。
《《我朋友中字ID》韩剧》近年来,一种名为“普萘洛尔”的药物被部分考生视为“考前救急药”。但它真的能解决考试焦虑吗?今天,我们就用通俗的语言,来科学、审慎地认识这种药。与此同时,埃里温转而寻求深化与欧盟的关系,北约秘书长还出席了首届亚美尼亚-欧盟峰会。这彻底激怒了莫斯科,俄亚两国关系进一步恶化。《《我朋友中字ID》韩剧》《玖辛奈的浮殇TXT》他声称,“我们对于这一安全环境有着清醒而明确的评估,也共同认识到,如果太平洋地区被任何一个霸权国家主导,地区力量平衡将被打破,并损害我们所有人希望维护的均势”。这次会议被普遍认为是“夏日童话”得以延续的重要转折点之一。在此之后,以《图片报》为代表的德国本土媒体对国家队的态度逐渐缓和,批评声音减少,取而代之的是更具建设性的支持与关注。
20260604 ? 《《我朋友中字ID》韩剧》湖南道县:采收西瓜 2026年6月1日,湖南永州道县白芒铺镇龙岭头村,农民正在田间采收西瓜。 近年来,道县立足地域资源优势,因地制宜发展优质西瓜产业,通过优化品种、精细管理、打造品牌等措施,持续拓宽市场销路,有效带动农民增收。蒋克青摄(人民图片网)《法国空乘2021法版》总台记者当地时间5月29日获悉,一名也门军方官员称,一架美军MQ-9型"死神"无人机当天在也门东北部的马里卜省被击落后坠毁。
20260604 ? 《《我朋友中字ID》韩剧》但最让我骄傲的是,你在每一次挑战、挫折和转变中展现出的领导方式。你始终做真实的自己,保持善良、职业和投入。你为所有人树立了完美榜样,也激励了一个国家。羞羞漫画肖旭新婚妻子桑瑞的评论区也沦陷了,不少人质问她和肖旭恋爱时,是否知道肖旭的恋爱情况,桑瑞没有回应,只是默默关闭了评论区。