缺数据不是问题,直接用 GPT-4 生成的指令就够了,标注员恐怕要失业了!「指令」(Instruction)是 ChatGPT 模型取得突破性进展的关键因素,可以让语言模型的输出更符合「人类的偏好」。但指令的标注工作需要耗费大量的人力,即便有了开源的语言模型,资金不足的学术机构、小公司也很难训练出自己 ChatGPT.最近微软的研究人员利用之前提出的 Self-Instruct 技术,首次尝试使用 GPT-4 模型来自动生成语言模型所需的微调指令数据。论文链接:https://arxiv.org/ pdf / 2304.03277.pdf代码链接:https://github.com/Instruction-Tuning-with-GPT-4 / GPT-4-LLM在基于 Meta 开源的 LLaMA 模型上的实验结果表明,由 GPT-4 生成的 5.2 万条英语和汉语 instruction-following 数据在新任务中
轻松打造家用版 GPT-4,微软开源微调指令集:效果不输原版,中英双语都能用
2023-04-14 12:23:06来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama2024-09-19 14:21:51
- 微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金,英伟达提供专业知识支持2024-09-18 08:53:40
- “最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱2024-09-13 18:38:35
- 元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B2024-09-13 20:49:18
- 微软宣布 Xbox 游戏部裁员 650 人,占全球员工总数 3%2024-09-12 18:35:46
- 开源鸿蒙 OpenHarmony 社区累计已超 8000 名贡献者,9 月 26 日举办生态主题演讲2024-09-10 04:05:08
- 消息称微软 9 月 26 日东京电玩展将公布 SE 游戏《最终幻想 16》Xbox 版2024-09-08 15:26:08
- 9 个月实现翻番,微软 Outlook Lite 应用全球下载量破 1000 万次2024-09-06 17:02:49
- 微软 Office 2024 默认禁用 ActiveX, Microsoft 365 将于 2025 年 4 月开始逐步生效2024-09-06 22:26:28
- 微软 Windows App SDK 1.6 原生支持超前编译,应用启动时间缩短 50%2024-09-05 13:49:45