AI 所生成文本的最权威评估者并非人类-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2021/7/b2983335-a23c-4cd7-8a38-75576cc5097a.png

（原标题：人类评估已不是 NLG 的最佳标准，华盛顿大学提出全新观点，网友：那是评估人水平不行）AI 生成的文本好不好，最权威的评估者竟然不是人类自己？最近，华盛顿大学和艾伦人工智能研究院的学者们在研究中发现：未经过训练的人类评估文本时，往往过分关注生成文本像不像人话，而忽略了生成文本更重要的问题，即它的内容是否正确、合乎逻辑。研究人员就给出了一个例子：他们分别让未经训练的人类和机器来评价一段 GPT-3 生成的文字。这段文字翻译过来为：从前，有一个海盗。他是那种宁愿把时间花在驱赶在船周围游泳的鲨鱼上，也不愿驶向外国港口寻找战利品的海盗。他是个好海盗，高尚的海盗，诚实的海盗。他是个宁愿和妻儿呆在家里也不愿出海的海盗。人类评估员认为这段文字除了有些啰嗦外，没什么大毛病。这可能就是一个海盗想回家陪老婆孩子吧，AI 可能没理解，但是这也没什么稀奇的。机器评估也认为这段文字很啰嗦，不过它对文段的内容提出了质疑：海盗会有老婆孩子？还不和他