Сегодня 26 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → new york times

OpenAI случайно удалила потенциальные улики по иску об авторских правах

В конце прошлого года началось судебное разбирательство, в рамках которого The New York Times и другие крупные издатели обвинили OpenAI в том, что компания без разрешения использовала публикуемые ими материалы для обучения своих нейросетей. Теперь же стало известно, что инженеры OpenAI случайно удалили данные, которые потенциально могли стать доказательством вины разработчика ИИ-алгоритмов в нарушении авторских прав.

 Источник изображения: OpenAI

Источник изображения: OpenAI

В сообщении сказано, что юристы новостных изданий потратили более 150 часов на изучение данных, которые OpenAI использует для обучения своих нейросетей. Цель их работы заключалась в том, чтобы найти случаи, когда для обучения ИИ-алгоритмов использовались новостные статьи изданий, защищённые законом об авторском праве. Какую именно информацию удалили инженеры OpenAI, точно неизвестно. Компания признала ошибку и попыталась восстановить данные, но сделать это в полном объёме не удалось. Те же данные, что удалось восстановить, не позволяют определить, что публикации изданий были задействованы при обучении нейросетей. Юристы OpenAI охарактеризовали удаление данных как «сбой», а представители The New York Times заявили, что у них «нет оснований полагать», что это было сделано преднамеренно.

В декабре прошлого года The New York Times обвинила OpenAI и её крупнейшего партнёра в лице Microsoft в том, что они создали свои ИИ-алгоритмы путём «копирования и использования миллионов статей» издания. Компания требует привлечь OpenAI к ответственности за «миллиарды долларов установленных законом и реальных убытков» за якобы копирование статей издания. The New York Times уже потратила более $1 млн на борьбу с OpenAI в суде. В это же время OpenAI успела договориться и заключить соглашение с другими изданиями, такими как Axel Springer, Conde Nast и Vox Media. Это говорит о том, что многие издатели предпочитают сотрудничество, а не судебные разбирательства.

В ответ на обвинения в воровстве контента OpenAI обвинила New York Times во взломе ChatGPT

OpenAI заявила в суде, что New York Times (NYT) «заплатила кому-то за взлом продуктов OpenAI», таких как ChatGPT, чтобы получить доказательства для подачи иска против OpenAI о нарушении авторских прав. OpenAI считает, что более ста примеров, в которых модель GPT-4 генерирует контент Times в качестве выходных данных не отражают обычного использования ChatGPT, а представляют собой «надуманные атаки наёмника», который добивался от чат-бота генерации фальшивого контента NYT.

 Источник изображения: pexels.com

Источник изображения: pexels.com

OpenAI обвинила NYT в «десятках тысяч попыток» получить эти «крайне аномальные результаты», «выявив и воспользовавшись ошибкой», которую сама OpenAI «стремится устранить». NYT якобы организовала эти атаки, чтобы собрать доказательства в поддержку утверждения, что продукты OpenAI ставят под угрозу журналистику, копируя авторские материалы и репортажи и тем самым отбирая аудиторию у NYT.

«Вопреки утверждениям [содержащимся в жалобе NYT], ChatGPT никоим образом не заменяет подписку на The New York Times, — заявила OpenAI в ходатайстве, направленном на отклонение большинства претензий NYT. — В реальном мире люди не используют ChatGPT или любой другой продукт OpenAI для этой цели. И не могут. В обычном мире невозможно использовать ChatGPT для предоставления статей Times по своему желанию».

 Источник изображений: unsplash.com

Источник изображений: unsplash.com

OpenAI отметила, что примеры в иске NYT цитируют не текущие материалы, которые подписчики Times могут прочитать на сайте Times, а гораздо более старые статьи, опубликованные до 2022 года. Это дополнительно ослабляет заявление NYT о том, что ChatGPT можно рассматривать как замену изданию.

«То, что OpenAI ошибочно называет "хакерством", — это просто использование продуктов OpenAI для поиска доказательств воровства и воспроизведения материалов NYT, защищённых авторским правом. И это именно то, что мы нашли. На самом деле масштаб копирования OpenAI гораздо больше, чем сто примеров, изложенных в жалобе», — парировали адвокаты NYT.

Юристы NYT сделали акцент на том, что OpenAI «не оспаривает и не может оспорить того, что они скопировали миллионы работ для создания и поддержки своих коммерческих продуктов без нашего разрешения». Позиция издания заключается в том, что создание новых продуктов не является оправданием для нарушения закона об авторском праве, и это именно то, что OpenAI сделала в беспрецедентных масштабах.

OpenAI заявила, что NYT в течение многих лет с энтузиазмом разрабатывала собственных чат-ботов, не опасаясь нарушения ими авторских прав. OpenAI сообщала об использовании статей NYT для обучения своих моделей ИИ ещё в 2020 году, но NYT обеспокоилась только после резко возросшей популярности ChatGPT в 2023 году. После этого NYT обвинила OpenAI в нарушении авторских прав и потребовала «коммерческих условий», а после нескольких месяцев обсуждений подала многомиллиардный иск.

OpenAI убеждает суд, что ему следует отклонить иски, направленные на защиту прямого авторского права в цифровую эпоху и игнорировать обвинения в незаконном присвоении, которые компания называет «юридически недействительными». У некоторых жалоб истёк срок давности, другие, по утверждению OpenAI, неправильно трактуют добросовестное использование или искажают требования федеральных законов.

Если это ходатайство OpenAI будет удовлетворено, в иске NYT останутся только претензии о косвенном нарушении авторских прав и размывании товарного знака. Но если NYT победит в суде (а вероятность этого не так уж мала), OpenAI, возможно, придётся буквально «стереть» ChatGPT и заново начать обучение моделей.

OpenAI утверждает, что NYT использовала вводящие в заблуждение подсказки, чтобы вынудить ChatGPT раскрыть обучающие данные. The Times якобы просила у чат-бота предоставить вступительный абзац конкретной статьи, а затем запрашивала «следующее предложение». Но даже эта тактика не поможет воссоздать статью целиком, а скорее выведет набор «разрозненных и неупорядоченных цитат». OpenAI считает, что NYT намеренно вводит суд в заблуждение, используя купюры и многоточие, чтобы скрыть порядок, в котором ChatGPT выдавал фрагменты репортажей, что создаёт ложное впечатление, что ChatGPT выводит последовательные и непрерывные копии статей.

OpenAI также отвергла примеры галлюцинаций ИИ предоставленных NYT, где модели ИИ изобретали на первый взгляд реалистичные статьи, которые содержали неверные факты и никогда не публиковались изданием. Поскольку ни одна из ссылок в этих фиктивных статьях не работала, OpenAI считает, что «любой пользователь, получивший такие выходные данные, сразу же распознает в них галлюцинацию».

OpenAI планирует исправить ошибки ИИ, но это будет возможно сделать только в случае победы в суде. OpenAI необходимо убедить суды во многих юрисдикциях в своей теории добросовестного использования текстов, защищённых авторским правом, что имеет решающее значение для развития её моделей ИИ. «Постоянная задача разработки ИИ — свести к минимуму и в конечном итоге устранить галлюцинации, в том числе за счёт использования более полных наборов обучающих данных для улучшения точности моделей», — заявили в OpenAI.

Адвокаты NYT полагают, что для OpenAI «незаконное копирование и дезинформация являются основными особенностями их продуктов, а не результатом маргинального поведения». По их словам, OpenAI «отслеживает запросы и результаты пользователей, что особенно удивительно, учитывая, что они утверждали, что не делают этого. Мы с нетерпением ждём возможности изучить эту проблему».

Разработчики больших языковых моделей всё чаще прибегают к лицензированию вместо обучения на общедоступных данных, чтобы избежать возможных обвинений в нарушении авторских прав. «Разработка технологий в соответствии с установленными законами об авторском праве является общеотраслевым приоритетом, — считает ведущий советник NYT Ян Кросби (Ian Crosby). — Решение OpenAI и других разработчиков генеративного ИИ заключать сделки с издателями новостей только подтверждает, что они знают, что их несанкционированное использование работ, защищённых авторским правом, далеко не справедливо».


window-new
Soft
Hard
Тренды 🔥
Платформер Restitched отправит исследовать и создавать красочные миры — геймплейный трейлер духовного наследника LittleBigPlanet 4 мин.
Apple объяснила, почему не хочет создавать собственный поисковик на замену Google 35 мин.
«Не думаю, что Nintendo это стерпит, но я очень рад»: разработчик Star Fox 64 одобрил фанатский порт культовой игры на ПК 11 ч.
Корейцы натравят ИИ на пиратские кинотеатры по всему миру 12 ч.
В Epic Games Store стартовала новая раздача Control — для тех, кто дважды не успел забрать в 2021 году 15 ч.
За 2024 год в Steam вышло на 30 % больше игр, чем за прошлый — это новый рекорд 16 ч.
«Яндекс» закрыл почти все международные стартапы в сфере ИИ 16 ч.
Создатели Escape from Tarkov приступили к тестированию временного решения проблем с подключением у игроков из России — некоторым уже помогло 17 ч.
Веб-поиск ChatGPT оказался беззащитен перед манипуляциями и обманом 18 ч.
Инвесторы готовы потратить $60 млрд на развитие ИИ в Юго-Восточной Азии, но местным стартапам достанутся крохи от общего пирога 19 ч.
Во флагманских смартфонах Huawei Mate 70 нашли память SK hynix, которой там быть не должно 49 мин.
Чтобы решить проблемы с выпуском HBM, компания Samsung занялась перестройкой цепочек поставок материалов и оборудования 4 ч.
Новая статья: Обзор и тест материнской платы Colorful iGame Z790D5 Ultra V20 9 ч.
Новая статья: NGFW по-русски: знакомство с межсетевым экраном UserGate C150 11 ч.
Криптоиндустрия замерла в ожидании от Трампа выполнения предвыборных обещаний 11 ч.
Открыт метастабильный материал для будущих систем хранения данных — он меняет магнитные свойства под действием света 13 ч.
Новый год россияне встретят под «чёрной» Луной — эзотерика ни при чём 16 ч.
ASRock выпустит 14 моделей Socket AM5-материнских плат на чипсете AMD B850 16 ч.
Опубликованы снимки печатной платы Nvidia GeForce RTX 5090 с большим чипом GB202 18 ч.
От дна океана до космоса: проект НАТО HEIST занялся созданием резервного космического интернета 18 ч.