微比恩 > 信息聚合 > 影子图书馆“安娜的档案”宣布获得超星旗下读秀数据库 359TB 图书

影子图书馆“安娜的档案”宣布获得超星旗下读秀数据库 359TB 图书

2023-11-05 13:48:58来源: IT之家

IT之家 11 月 5 日消息,影子图书馆“安娜的档案”官方博客当地时间 10 月 4 日宣布,该网站现已经收购一批“独特的”750 余万份、共计 359TB 的电子图书,并表示愿意为一系列大语言模型公司提供独家早期访问权限,以获得高质量的图书 OCR(IT之家注:Optical Character Recognition,光学字符识别)和文本提取。“安娜的档案”在博客中介绍,读秀是由超星数字图书馆创建的大量扫描图书的数据库,大多数是学术图书,通过扫描可以使它们以数字化的形式提供给大学和图书馆。“安娜的档案”表示曾希望批量获取它,并为此分配了多个月的全职工作。最终,一位“不可思议、了不起、才华横溢”的志愿者宣布已经完成上述所有工作,并为之“付出巨大代价”,并无偿分享了所有藏品。图源 Pixabay从总数来看,这个收藏品共有 7543702 个文件,多过另一家“影子图书馆”Library Genesis 的 530 万本非虚构图书

关注公众号