微比恩 > 信息聚合 > 破解AI“胡说八道”,这家公司要给大模型投喂好原料|产品观察

破解AI“胡说八道”,这家公司要给大模型投喂好原料|产品观察

2024-07-29 09:30:00来源: 36氪

作者|黄楠编辑|袁斯来大模型今天所展示出的强大能力,源于背后海量数据,为其注入了丰富的人类知识。如果将大模型视为正在疾驰的科技列车,数据语料便是珍贵的“燃料”。其中,语料质量的提升对模型性能取得阶段性突破至关重要。然而一个现实情况是,高质量语料正在被急速消耗。国内大模型厂商所面临的语料短缺问题十分严峻。以中文语料为例。中国工程院院士高文指出,当前全球通用的50亿大模型数据训练集中,中文语料占比仅为1.3%,其数量和质量上同英文等其他语言相比存在明显不足。“沉睡”在报告、论文、报纸等文档内的大批高价值语料数据,由于其复杂的版面结构,制约了大模型的训练语料处理能力,无法被轻易解析并提取。解决中文数据不足和质量问题,处理多样化数据,仍是各厂商面临的一大挑战。为了帮助企业应对数据局限问题,日前,合合信息在WAIC 2024上发布了用于大模型语料训练的“加速器”产品——TextIn智能文档处理平台。 在训练前期阶段,使用“加速器

关注公众号
标签: AI 大模型