В ходе судебного разбирательства между OpenAI и The New York Times произошел неожиданный поворот - инженеры компании случайно удалили важные данные, которые могли стать ключевыми доказательствами в деле о нарушении авторских прав.
По информации юристов The New York Times и Daily News, которые подали иск против OpenAI за предполагаемое использование их материалов без разрешения для обучения AI-моделей, 14 ноября инженеры OpenAI стерли данные поисковых запросов издателей, хранившиеся на одной из виртуальных машин.
Ранее OpenAI предоставила издателям доступ к двум виртуальным машинам для поиска их защищенного авторским правом контента в наборах данных для обучения AI. Юристы и эксперты издателей потратили более 150 часов с 1 ноября на исследование этих данных.
Хотя OpenAI удалось восстановить большую часть информации, структура папок и имена файлов были безвозвратно утеряны. Это делает невозможным определение того, как именно статьи истцов использовались при создании моделей OpenAI.
"Нам пришлось заново воссоздавать всю работу, что потребовало значительных человеческих ресурсов и машинного времени", - заявили представители истцов в письме, поданном в окружной суд США Южного округа Нью-Йорка.
Юристы издателей подчеркнули, что не считают удаление преднамеренным. Однако этот инцидент, по их мнению, показывает, что OpenAI находится "в лучшем положении для поиска потенциально нарушающего авторские права контента в своих наборах данных".
OpenAI отказалась комментировать ситуацию. Компания продолжает настаивать на том, что обучение моделей на общедоступных данных подпадает под принцип добросовестного использования, даже если эти модели впоследствии используются в коммерческих целях.
В то же время OpenAI заключила лицензионные соглашения с рядом издателей, включая Associated Press и Axel Springer. По некоторым данным, один из партнеров - компания Dotdash - получает не менее 16 миллионов долларов в год за использование своего контента.