人工智能，“抛弃”真实数据集？-微比恩

图片地址：https://images.tmtpost.com/uploads/images/2022/03/3cbb0d023a8697b0b0953bcd5bc85524_1648555221.jpeg

图片来源@视觉中国文 | 学术头条当前，人工智能技术已经应用在我们日常生活中的方方面面，比如人脸识别、语音识别、虚拟数字人等。但普遍存在的一个问题是，科研人员要想通过训练一个机器学习模型来执行某一特定任务（比如图像分类），往往需要使用大量的训练数据，而这些数据（集）却并不总是很容易获得。比如，如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型，但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本，一旦遇到这种情况，模型就不知道该如何做，可能会产生不必要的后果。而且，使用已有数据生成数据集，也会花费数百万美元。另外，即使是最好的数据集，也常常包含对模型性能产生负面影响的偏见。那么，既然获得、使用一个数据集代价这么昂贵，能不能在保证模型性能的前提下，使用人为合成的数据来训练呢？近日，一项来自麻省理工学院（MIT）科研团队的研究显示，一种使用合成数据训练的图像分类机器学习模型，可以与使用真实数据来训练的模型相媲美，甚至性能