批评不仅能让人进步,也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下,验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上,它可以让模型的准确率从 86.6% 提升到 88.2%。CriticGPT 的核心思路是在代码中故意设置 bug 并进行详细标注,然后用得到的数据训练出会 debug 的模型。北大团队发现,这种方法不仅在代码当中有用,也能帮助语言模型解决数学问题。于是团队利用相似的思路,把代码换成数学问题,推出了“数学版 CriticGPT”——Math-Minos。用 GPT4 逐步提出修正意见在数学推理领域,验证解决方案的正确性,是确保推理质量的关键步骤。然而,现有的数学验证器大
北大千问团队推出数学专用版 CriticGPT,“找茬”让大模型进步更快
2024-07-08 23:30:24来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 开辟大模型更多应用场景 浪潮云洲"知业大模型"加速赋能千行百业2024-09-30 15:16:00
- 企业大模型应用开发提速 浪潮信息发布元脑企智EPAI一体机2024-09-29 21:23:00
- 软通动力出席百度云智大会,分享行业大模型的思考与实践2024-09-27 15:44:00
- 陈睿:B站已上线自研大模型 index 并应用于 AI 字幕,具备近 10 种语言实时翻译能力2024-09-26 21:59:45
- 软通动力开源驱动AI大模型与软硬一体创新发展分论坛圆满落幕2024-09-26 17:45:00
- 百度全面升级百舸 AI 异构计算平台 4.0、千帆大模型平台 3.02024-09-25 17:48:57
- 前百度研究院副院长新项目:给手机、PC做可用的大模型基础设施,前微软高管加入 | 智涌独家2024-09-24 15:55:40
- 阿里云智能集团首席技术官周靖人:大模型降价背后是效率的提升2024-09-24 08:30:15
- 华知大模型5.0发布2024-09-22 14:03:04
- 华知大模型 5.0 发布:同方知网与华为云打造,7B~135B 尺寸2024-09-22 11:11:24
- 1全新智己 LS6 10 月 1-3 日累计大定突破 2800 台,权益价 21.69 万元起
- 2谷歌在日本整活:打造可从任何角度使用的 Gboard 键盘,莫比乌斯环外形
- 3第七届进博会倒计时30天:乐高集团携儿童创意作品七赴进博之约
- 4安卓版 Arc Search 开启公测:2 人团队从零构建,目标打造最轻量、搜索最快移动浏览器
- 5谷歌测试搜索结果“已验证”蓝色标记,帮助用户避开虚假网站链接
- 6进博会倒计时三十天 "全勤生"爱茉莉太平洋如约奔赴
- 72024国庆档新片票房破16亿
- 810月起上海适老化改造最高可享补贴3000元,补贴范围扩大
- 9沪苏浙皖多地车站午后将迎首波返程客流,长三角铁路今日预计发送 363 万人次
- 10梅赛德斯-奔驰喊话欧盟:对华电动汽车征收反补贴税可能导致深远的负面结果