- 救援场景:山区发生地震后,道路中断,救援机器人搭载io-ebodied进入灾区:通过摄像头拍摄现场画面(视觉输入),传感器检测生命体征(比如呼吸、心跳),语音模块接收被困人员的呼救声(语音输入);模型会快速判断被困人员的位置和状态,指挥机器人清理障碍物、输送食物和水,同时把现场情况实时传递给救援人员;这里用到了汽车的“复杂环境感知”能力和机器人的“精准操作”能力,让救援更高效、更安全。
四、它是怎么做到的?步训练,大白话讲透
可能有人会问:“一个ai怎么能同时搞定机器人和自动驾驶?是不是有什么黑科技?”其实核心逻辑很简单,咱们用“上学考试”
1 核心架构:三个“关键部件”,像人的“眼、脑、神经”
io-ebodied的架构就像一个完整的“智能系统”核心部分组成,分工明确:
- 视觉编码器(vit):相当于“眼睛”——负责处理所有视觉信息,比如图片、视频、机器人摄像头拍的画面、汽车行车记录仪的影像,能从这些画面里提取关键信息(比如“这是红色杯子”“前方是红灯”“路边有障碍物”
- 投影器(lp):相当于“神经中枢”——视觉编码器提取的信息是“视觉语言”模型懂的是“文字\/指令语言”,投影器的作用就是把这两种语言翻译成同一种“ai能懂的通用语言”能顺畅传递;
- 大语言模型(ll):相当于“大脑”——负责理解你的指令、整合所有信息、做决策。比如收到“拿红色杯子”的指令,结合视觉信息“杯子在茶几上”放置”的动作指令;收到“避开拥堵”的指令,结合路况信息“前方施工”,就会生成新的行驶路线。
这三个部件配合起来,就像一个完整的人:眼睛看、神经传、大脑想,然后做出反应。
2 训练数据:“多学科课本”
要让ai变聪明,得给它喂足够多、足够全的“课本”——也就是训练数据。io-ebodied的“课本”,覆盖了所有关键场景:
- 通用多模态数据:相当于“基础课课本”——包含图片、视频、长文本等,比如新闻、科普文章、日常照片,让ai具备基本的理解能力,就像咱们小学学的语文、数学,是所有能力的基础;
- 具身智能数据:相当于“机器人专项课本”——包含机器人怎么抓取物体、怎么规划家务步骤、怎么理解室内空间的知识,比如“怎么拿起易碎品”“怎么在狭窄空间移动”懂机器人的任务逻辑;
- 自动驾驶数据:相当于“汽车专项课本”——包含交通规则、路况识别、驾驶规划的知识,比如“红灯停绿灯行”“怎么预判车辆变道”“雨天怎么安全行驶”,让ai懂驾驶的核心逻辑。
这就像一个学生,不仅学基础课,还学“机器人操作”和“汽车驾驶”两门专业课,知识储备自然全面。
3 四阶段训练:从“基础班”到“尖子班”
有了好的“课本”,还得有科学的“学习计划”。io-ebodied的训练分四步,一步一个台阶,最后成为“全能尖子生”
- 阶段1:具身智能基础训练——先学“机器人相关知识”,结合通用数据,打好视觉理解、任务推理的基础,就像先上“机器人基础班”么看懂指令、怎么规划简单动作;
- 阶段2:自动驾驶专项训练——在基础之上,再学“驾驶相关知识”,重点练复杂路况分析、动态预测能力,就像上“驾驶专项班”么应对道路上的各种情况;
- 阶段3:思维链推理训练——学“多步推理”还要提醒后方车辆→避免追尾”,就像上“逻辑思维班”,让ai不仅能做简单任务,还能处理复杂、多步骤的问题;
- 阶段4:强化学习训练——相当于“模拟考试+错题复盘”,用专门的算法给ai的表现打分,做得对就奖励、做得错就纠正,不断优化精度和可靠性,直到在所有测试中都拿到高分。
正是因为有了“全场景数据”和“循序渐进的训练”,io-ebodied才能同时精通两种完全不同的任务,还能让它们互相赋能。
4 开源:让全世界都来“帮它进步”
小米还做了一件特别关键的事:把io-ebodied开源了。啥意思呢?就像一个顶级厨师,不仅做出了一道好菜,还把菜谱、食材清单全公之于众,全世界的厨师都能照着做,还能根据自己的口味修改,然后把更好的做法分享回来。
开发者可以通过github、huggg face这些平台,免费获取模型和代码,不用从零开始研发,直接在这个基础上做修改,适配自己的场景——比如有人想做“快递配送机器人”,有人想做“智能农业设备”,都能直接用io-ebodied的核心能力,节省大量时间和成本。
而这些开发者的修改和优化,又能反过来丰富模型的能力,让io-ebodied越来越强,形成一个“开源共享、共同进步”的生态。这也是小米“人车家全生态”战略的关键一步——让这个ai大脑