微比恩 > 信息聚合 > 澳鹏一站式文档智能识别,为大模型训练数据准备赋能

澳鹏一站式文档智能识别,为大模型训练数据准备赋能

2023-12-14 19:06:00来源: 美通社

上海2023年12月14日 /美通社/ -- 在大模型训练过程中,许多专业领域知识是基于书籍等纸质文档的形式记录的,常见于教材、期刊论文、特定学科研究等。例如工业、教育等涉及到专业领域的行业应用,大量需要训练的数据沉淀在纸质版上亟待利用。 澳鹏Appen全新推出文档智能识别接口,可将图片、不可编辑的PDF等文档一键识别转换成可编辑的Word或Markdown格式,方便对其中数据作进一步利用。接口支持识别文档中不同模态的数据,如文本、插图、公式、表格等,并支持对不同版面进行识别和还原。 澳鹏全新推出一站式文档智能识别解决方案,为大模型训练数据准备赋能 在大模型的训练过程中,许多企业或行业数据沉淀在不可编辑的PDF、甚至是纸质文档中。若要将这些数据利用起来,无论是用作基础大模型的训练数据,还是用于RAG或微调,都需要先转化成可编辑的文档格式。 这些文档包含的内容有文本、表格、公式、插图等内容,现有的内容识别技术大多

关注公众号
标签: 大模型