微比恩 > 信息聚合 > 人类数据,要被OpenAI用完了,然后呢?

人类数据,要被OpenAI用完了,然后呢?

2023-07-18 09:22:18来源: TechWeb

「比大更大」(Bigger than bigger)当年苹果的一句广告词,用来形容现在 AI 领域最热的大语言模型,看起来也没什么不对。从十亿、百亿再到千亿,大模型的参数走向逐渐狂野,相应的,用来训练 AI 的数据量,也以指数级暴增。以 OpenAI 的 GPT 为例,从 GPT-1 到 GPT-3,其训练数据集就从 4.5GB 指数级增长到了 570GB。不久前的 Databricks 举办的 Data+AI 大会上,a16z 创始人 Marc Andreessen 认为,二十几年来互联网积累的海量数据,是这一次新的 AI 浪潮兴起的重要原因,因为前者为后者提供了可用来训练的数据。但是,即便网民们在网上留下了大量有用或者没用的数据,对于 AI 训练来说,这些数据,可能要见底了。人工智能研究和预测组织 Epoch 发表的一篇论文里预测,高质量的文本数据会在 2023-2027 年之间消耗殆尽。尽管研究团队也承认,分析方法存在严重

关注公众号
标签: OpenAI AI