八千万张小图片

简介

八千万张小图片是一个用于训练机器学习系统数据集。它包含79,302,017张32×32像彩色图片,这些图片是在2008年从万维网上提取的,使用的是来自WordNet的一套75,062个非抽象名词的自动网络搜索查询

然后,搜索词中的单词被用作图像的标签。研究人员为此使用了七个网络搜索资源:Altavista、Ask.com、Flickr、Cydral、Google、Picsearch和Webshots。

在研究人员AbebaBirhane和VinayPrabhu的一篇论文中发现,包括8000万张微小图像在内的几个公开的图像数据集的一些标签导致在这些数据集上训练的模型表现出种族和性别偏见之后,8000万张微小图像数据集于2020年被其创建者退出使用。

八千万张小图片

他们已经要求其他研究人员不要将其用于进一步研究,并删除他们的数据集副本。CIFAR-10数据集使用该数据集中的一个图像子集,但有独立生成的标签。

0

点评

点赞

相关文章