Гарвард создает беспрецедентный открытый датасет для ИИ-обучения при поддержке технологических гигантов

· 1 минут чтения

article picture

Гарвардский университет объявил о публикации крупномасштабного набора данных, содержащего около миллиона книг, находящихся в общественном достоянии. Этот датасет может быть использован для обучения языковых моделей и других инструментов искусственного интеллекта.

Проект реализован недавно созданной Institutional Data Initiative при финансовой поддержке OpenAI и Microsoft. В базу данных вошли оцифрованные книги из проекта Google Books, срок авторских прав на которые истек.

По объему новый датасет в пять раз превосходит известный набор данных Books3, использовавшийся для обучения таких моделей как Meta's Llama. Коллекция охватывает различные жанры, временные периоды и языки - от классических произведений Шекспира, Диккенса и Данте до малоизвестных чешских учебников математики и валлийских карманных словарей.

По словам исполнительного директора Institutional Data Initiative Грега Леперта, проект направлен на создание равных условий, предоставляя широкой общественности, включая небольшие компании и отдельных исследователей, доступ к качественным и тщательно отобранным материалам, которые обычно доступны только крупным технологическим гигантам.

Помимо книг, Institutional Data Initiative сотрудничает с Бостонской публичной библиотекой по оцифровке миллионов газетных статей, находящихся в общественном достоянии. Точный механизм распространения книжного датасета пока обсуждается с Google.

Появление подобных проектов демонстрирует, что создание качественных моделей ИИ возможно без использования защищенных авторским правом материалов. Однако эксперты отмечают, что положительный эффект от таких датасетов будет достигнут только при условии их использования в качестве замены, а не дополнения к неавторизованному контенту.

В условиях множества судебных исков, связанных с использованием защищенных авторским правом данных для обучения ИИ, будущее разработки систем искусственного интеллекта остается неопределенным. Независимо от исхода этих разбирательств, спрос на наборы данных, находящихся в общественном достоянии, вероятно, сохранится.