Гарвард предоставляет миллион книг для обучения ИИ: новая эра в развитии искусственного интеллекта

· 1 минут чтения

article picture

Гарвардский университет объявил о масштабном проекте по предоставлению доступа к коллекции из миллиона книг для обучения систем искусственного интеллекта. Инициатива реализуется в рамках новой программы Institutional Data Initiative (IDI) при финансовой поддержке Microsoft и OpenAI.

В коллекцию войдут произведения, срок действия авторских прав на которые уже истек. Среди них - классические работы Шекспира, Чарльза Диккенса и Данте, а также редкие чешские учебники математики и валлийские карманные словари. Все книги были ранее оцифрованы в рамках проекта Google Books.

По словам исполнительного директора IDI Грега Лепперта, проект призван "уравнять правила игры" и сделать обширную коллекцию доступной для всех - от исследовательских лабораторий до стартапов в сфере ИИ.

Инициатива появилась в период, когда компании, разрабатывающие ИИ, сталкиваются с растущими ограничениями на использование данных. Многие издательства, включая Wall Street Journal и New York Times, подали иски против OpenAI и других компаний за несанкционированное использование их материалов.

Джонатан Зиттрейн, директор факультета Лаборатории инноваций библиотеки Гарварда, подчеркнул, что цель IDI - обеспечить доступ ко всем произведениям, находящимся в общественном достоянии, как для людей, так и для машинной обработки.

Проект также направлен на то, чтобы различные культуры и языки были должным образом представлены в будущих моделях ИИ. Например, в Исландии уже реализуется государственная программа по открытию доступа к материалам национальной библиотеки для обучения ИИ.

Хотя миллион книг может показаться внушительной цифрой, этого недостаточно для полноценного обучения современных языковых моделей. Тем не менее, инициатива Гарварда предоставляет легальный источник качественных данных для базового обучения ИИ-систем.