Skip to main content

小米发布 Xiaomi OneVL 一步式潜空间推理框架并全面开源小米发布 Xiaomi OneVL 一步式潜空间语言视觉推理框架,首次在自动驾驶领域将 VLA 与世界模型统一到同一套框架内

  1. 小米发布 Xiaomi OneVL 一步式潜空间推理框架并全面开源

    小米发布 Xiaomi OneVL 一步式潜空间语言视觉推理框架,首次在自动驾驶领域将 VLA 与世界模型统一到同一套框架内。该框架基于潜空间 CoT,用视觉 latent token 编码物理因果结构、语言 latent token 编码驾驶意图,并通过双辅助解码器在训练中预测未来画面与可读思维链,推理时全部移除,实现一步并行生成。

    在 ROADWork、Impromptu、Alpamayo-R1 三项基准上达到 SOTA,NAVSIM 的 PDM-score 达 88.84,首次在潜空间推理中超越显式 CoT(88.29),且是目前唯一在所有基准上超越显式自回归 CoT 的隐式推理方法。挂载 MLP 回归头变体后延迟可压至 0.24s,仅为 VLA 自回归推理的 5.4%。模型权重、训练与推理代码已全部开源。

    小米技术

    🌸 在花频道 · 茶馆讨论 · 投稿通道
    👍 139 👎 17 🤔 10 🙈 6 🤓 3 😁 1 🏆 1 🤗 1