微比恩 > 信息聚合 > 从Agent到多模态,大模型想要什么?

从Agent到多模态,大模型想要什么?

2023-10-01 12:28:01来源: 钛媒体

图片来源@视觉中国文|李智勇OpenAI 9.25发了个关于多模态版本的Blog说chatGPT现在能够看、听、说了,体验过的同学反馈还不错,那这意味着什么?应用>纯粹的智能改进同纯粹的智能提升相比多模态是一种应用可能性的提升。如果说原本的大模型瓮中之脑,那多模态无疑是把给这个瓮中之脑接上和现实世界相联的触角。从技术上,这意味着之前这是在多种算法的综合上发力,而不是单纯的强调智能这一个维度。这种衔接在过去其实是吃力的,OpenAI看起来也没把这问题解决的特别好,所以在文章中贴了这么一小段:这啥意思呢?其实是说语音识别通用度不好,反过来推测一点就是语音识别还没有自己的大模型。希望OpenAI能在这种综合和衔接上取得进展。值得一提的是,这种方向和很多人心心念念的GPT5是不完全重叠的,GPT5更像是让瓮中之脑更为强大,而多模态综合则是让现有大脑的智力得到更好的发挥。如果OpenAI贴着多模态走,那意味着他们在战略上把应用放到了更前面

关注公众号
标签: 大模型