微比恩 > 信息聚合 > 谷歌开源“穷人版”摘要生成NLP模型:训练成本低,只要1000个样本就能打败人类

谷歌开源“穷人版”摘要生成NLP模型:训练成本低,只要1000个样本就能打败人类

2020-06-14 14:58:14来源: 新浪科技

原标题:谷歌开源“穷人版”摘要生成NLP模型:训练成本低,只要1000个样本就能打败人类来源:量子位关注前沿科技 晓查发自凹非寺 量子位报道|公众号QbitAIBERT、GPT-2、XLNet等通用语言模型已经展现了强大的威力,它们可以应付各类任务,比如文本生成、问答。当这些模型对各种语言任务进行微调时,可以达到SOTA性能。以上这些NLP模型都是“通才”,虽然全面,但在面向特定任务时需要微调,训练数据集也十分庞大,非一般人所能承受。如果开发一个非通用NLP模型,专门针对某项具体任务,在降低训练成本的同时,性能会不会提高呢?这就是谷歌发布的“天马”(PEGASUS)模型,它专门为机器生成摘要而生,刷新了该领域的SOTA成绩,并被ICML2020收录。“天马”模型仅使用1000个样本进行训练,就能接近人类摘要的水平,大大减少了对监督数据的需求,创造了低成本使用的可能性。从填空到生成摘要PEGASUS的全称是:利用提取的间隙句进行摘要概括的预训练模型(Pre-trainingw

关注公众号
标签: 谷歌 开源