微比恩 > 信息聚合 > 谷歌 Gemini 刚发就惹质疑:测试标准有失偏颇,效果视频疑似剪辑

谷歌 Gemini 刚发就惹质疑:测试标准有失偏颇,效果视频疑似剪辑

2023-12-07 15:53:06来源: IT之家

谷歌憋了许久的大招,双子座 Gemini 大模型终于发布!其中一图一视频最引人注目:一图,MMLU 多任务语言理解数据集测试,Gemini Ultra 不光超越 GPT-4,甚至超越了人类专家。一视频,AI 实时对人类的涂鸦和手势动作给出评论和吐槽,流畅还很幽默,最接近贾维斯的一集。然鹅当大家从惊喜中冷静下来,仔细阅读随之发布的 60 页技术报告时,却发现不妥之处。(没错,没有论文,OpenAICloseAI 你开了个什么坏头啊)MMLU 测试中,Gemini 结果下面灰色小字标称 CoT@32,展开来代表使用了思维链提示技巧、尝试了 32 次选最好结果。而作为对比的 GPT-4,却是无提示词技巧给 5 个示例,这个标准下 Gemini Ultra 其实并不如 GPT-4。以及原图比例尺也有点不厚道了,90.0% 与人类基准 89.8% 明明只差一点,y 轴上却拉开很远。HuggingFace 技术主管 Philipp Schm

关注公众号
标签: 谷歌 视频