破解AI“胡说八道”，这家公司要给大模型投喂好原料

作者｜黄楠编辑｜袁斯来大模型今天所展示出的强大能力，源于背后海量数据，为其注入了丰富的人类知识。如果将大模型视为正在疾驰的科技列车，数据语料便是珍贵的“燃料”。其中，语料质量的提升对模型性能取得阶段性突破至关重要。然而一个现实情况是，高质量语料正在被急速消耗。国内大模型厂商所面临的语料短缺问题十分严峻。以中文语料为例。中国工程院院士高文指出，当前全球通用的50亿大模型数据训练集中，中文语料占比仅为1.3%，其数量和质量上同英文等其他语言相比存在明显不足。“沉睡”在报告、论文、报纸等文档内的大批高价值语料数据，由于其复杂的版面结构，制约了大模型的训练语料处理能力，无法被轻易解析并提取。解决中文数据不足和质量问题，处理多样化数据，仍是各厂商面临的一大挑战。为了帮助企业应对数据局限问题，日前，合合信息在WAIC 2024上发布了用于大模型语料训练的“加速器”产品——TextIn智能文档处理平台。在训练前期阶段，使用“加速器

破解AI“胡说八道”，这家公司要给大模型投喂好原料｜产品观察