理想汽车启动端到端 + 视觉语言模型早鸟计划：车辆将具备“思考能力”-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2024/7/92cdd669-c3ce-466d-b1f4-cb57716eb761.jpg

IT之家 7 月 5 日消息，在今晚的理想智能驾驶夏季发布会期间，理想汽车宣布，端到端 + 视觉语言模型早鸟计划正式启动，号称可让车更智能、更像人。IT之家汇总主要信息如下：理想汽车称端到端模型的优势在于“高效传递”和“高效计算”两方面：端到端是一体化的模型，信息都在模型内部传递，具有更高上限，用户所能感受到的整套系统的动作、决策都“更加拟人”；一体化模型可在 GPU 里一次完成推理，且端到端延迟更低，用户可感知到“眼”“手”协调一致，车辆动作响应及时。一体化模型可实现端到端的可训，完全数据驱动。官方表示，对于用户来说最大的感受就是 OTA 的速度越来越快。视觉语言模型方面，其整体算法架构由统一的 Transformer 模型组成，将 Prompt（提示词）文本进行 Tokenizer（分词器）编码，然后将前视 120 度和 30 度相机的图像以及导航地图信息进行视觉信息编码，通过图文对齐模块进行模态对齐，统一交给 VLM 模型