【新智元导读】ChatGPT 横空出世后,RLHF 成为研究人员关注的焦点。谷歌最新研究提出,不用人类标注,AI 标注偏好后,也能取得与 RLHF 一样的效果。如果说,RLHF 中的「人类」被取代,可行吗?谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是 AI 反馈强化学习(RLAIF)。论文地址:https://arxiv.org/ abs / 2309.00267结果发现,RLAIF 可以在不依赖人类标注员的情况下,产生与 RLHF 相当的改进效果,胜率 50%。同时,谷歌研究再次证明了 RLAIF 和 RLHF,比起监督微调(SFT)胜率都超过了 70%。如今,大型语言模型训练中一个关键部分便是 RLHF。人类通过对 AI 输出的质量进行评级,让回应更加有用。但是,这需要付出很多的努力,包括让许多标注人员暴露在 AI 输出的有害内容中。既然 RLAIF 能够与 RLHF 相媲美,未来模型不需要人类反馈,也可
RLHF 再也不需要人类了!谷歌团队研究证明 AI 标注已达人类水平
2023-09-05 23:22:44来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 消息称谷歌 10 月 15 日向 Pixel 6 及后续机型推送安卓 15 更新2024-09-19 14:16:18
- 传音与联发科共建人工智能联合实验室,聚焦手机端侧 AI 技术创新2024-09-19 14:43:55
- 《幻兽帕鲁》开发商 Pocket Pair 回应任天堂诉讼:游戏运营及服务不受影响2024-09-19 17:24:31
- SiFive 推出 Intelligence XM 系列 RISC-V 架构 AI 数据流处理器2024-09-19 17:26:57
- 保卫厨房,A.O.史密斯AI-LiNK厨房安全套系助您畅享安全美好生活2024-09-18 16:21:00
- it.com Domains持续增长,宣布通过GMO在亚太推出创新域名解决方案2024-09-18 18:14:00
- 90%东南亚用户偏爱Instagram等购物便利性:Gen AI塑造电商未来2024-09-18 18:18:00
- 英矽智能AI赋能开发的TNIK抑制剂获IIa期临床试验积极结果2024-09-19 09:00:00
- 微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金,英伟达提供专业知识支持2024-09-18 08:53:40
- Snap 发布第 5 代 Spectacles AR 眼镜:集成 OpenAI 多模态 AI 模型,支持语音控制2024-09-18 08:58:57
- 1任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 2阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 3Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 4中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 5亚马逊将向意大利数据中心业务投资13亿美元
- 6人民币兑美元中间价报7.1433,调升226个基点
- 7创业板指涨超2%,沪指涨近1%
- 8小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 9多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低
- 10安徽高新投先进材料投资基金登记成立 出资额3亿