Сегодня 27 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → gpt-3

На OpenAI подали в суд за незаконное использование литературных произведений для обучения нейросетей

На OpenAI снова подали в суд за использование произведений для обучения ИИ. Два известных писателя подали иск против компании, которая стоит за ChatGPT и Bing Chat, в нарушении авторских прав. По их мнению, OpenAI использовала их произведения в качестве обучающих данных. Это, по всей видимости, первый поданный иск об использовании текста (в отличие от изображений или кода) в качестве обучающих данных.

В поданном в окружной суд Северного округа Калифорнии иске истцы Пол Тремблей (Paul Tremblay) и Мона Авад (Mona Awad) утверждают, что OpenAI и её дочерние компании нарушили авторские права, нарушили Закон об авторском праве в цифровую эпоху (DMCA), а также нарушили калифорнийские и общие законодательные ограничения на недобросовестную конкуренцию.

Писатели представлены юридической фирмой Джозефа Савери (Joseph Saveri) и Мэттью Баттерика (Matthew Butterick), той же командой, которая стоит за недавними исками, поданными против Stable Diffusion AI и GitHub. В жалобе утверждается, что роман Тремблея «Хижина на краю света» и два романа Авад: «13 способов посмотреть на толстую девушку» и «Зайка» использовались в качестве обучающих данных для GPT-3.5 и GPT-4. Хотя OpenAI не раскрывала, что эти романы находятся в её обучающих данных (которые держатся в секрете), истцы делают вывод, что они должны быть там, поскольку ChatGPT смог предоставить подробные резюме сюжетов и ответить на вопросы о книгах, что потребовало бы доступа к их текстам.

«Поскольку языковые модели OpenAI не могут функционировать без выразительной информации, извлечённой из произведений истцов (и других лиц) и сохранённой в них, языковые модели OpenAI сами являются нарушающими авторские права производными произведениями, созданными без разрешения истцов и в нарушение их исключительных прав по Закону об авторском праве», — говорится в жалобе.

Все три книги содержат информацию о защите авторских прав (CMI), такую как ISBN и номера регистрации авторских прав. Закон об авторском праве в цифровую эпоху (DMCA) утверждает, что удаление или фальсификация CMI является незаконной, и поскольку ответы ChatGPT не содержат этой информации, истцы утверждают, что OpenAI виновна в нарушении этого закона, помимо факта нарушения авторских прав.

Хотя в настоящее время в иске участвуют только два истца, адвокаты намерены сделать иск коллективным, что позволило бы другим авторам, чьи авторские произведения использовались OpenAI, также получить компенсацию. Адвокаты требуют денежных возмещений, судебных издержек и судебного запрета, принуждающего OpenAI изменить своё программное обеспечение и деловые практики в отношении авторских материалов. На сайте юридической фирмы LLM Litigation подробно изложена позиция истцов и причины подачи иска. «Мы подали коллективный иск против OpenAI, обвиняя ChatGPT и его базовые большие языковые модели, GPT-3.5 и GPT-4, в том, что они перерабатывают авторские произведения тысяч писателей — и многих других — без согласия, компенсации или признания», — сообщают адвокаты.

Они также критикуют концепцию генеративного ИИ, утверждая: «Генеративный искусственный интеллект — это просто человеческий интеллект, переупакованный и проданный как новый продукт. Это не новый вид интеллекта. Это просто новый способ использования чужого интеллекта без разрешения или компенсации». Они отмечают, что, хотя OpenAI заявляет, что не знает, какие именно книги использовались для обучения ИИ, это не имеет значения, поскольку: «OpenAI знает, что она использовала множество книг, и она знает, что она не получила разрешения от их авторов».

Это не первый случай, когда OpenAI сталкивается с подобными обвинениями. Однако новый иск, станет первым, затрагивающим использование текстовых данных, и он может создать прецедент для будущих судебных дел о нарушении авторских прав в области ИИ.

Твиты нейросети GPT-3 оказались более убедительными, чем посты реальных людей

Судя по результатам исследования, проведённого учёными Института биомедицинской этики и истории медицины в составе Университета Цюриха в Швейцарии, твиты, созданные большой языковой моделью GPT-3 компании OpenAI, оказались убедительнее, чем посты настоящих людей. При этом GPT-3 — это далеко не самая современная версия модели.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Авторы исследования попросили участников опроса отличить твиты, написанные людьми, от сгенерированных ИИ. Кроме того, необходимо было решить, верна ли та или иная опубликованная информация, в том числе контент, связанный с вызывающими споры темами вроде эффективности вакцин и климатических изменений, часто используемых для массовых манипуляций общественным мнением в Сети.

Оказалось, что дезинформацию труднее выявить, если она написана ботами. При этом как это ни парадоксально, достоверную информацию, написанную ботами, легче распознавать. Другими словами, люди, участвовавшие в исследовании, охотнее верили ИИ, чем другим людям, независимо от того, насколько точными на самом деле были сведения — это свидетельствует о том, каким опасным могут стать языковые модели при их использовании для дезинформации.

Исследователи выбрали 11 научных тем, обсуждавшихся в Twitter, включая тему вакцин и COVID-19, климатические изменения и теорию эволюции, после чего поставили GPT-3 задачу создавать посты с верной или ложной информацией. После этого были опрошены более 600 англоговорящих респондентов из США, Великобритании, Канады, Австралии и Ирландии — созданный GPT-3 контент оказался неотличимым от созданного людьми. При этом сами исследователи не были на 100 % уверены в том, что «органический» контент, собранный из социальной сети для сравнения, не был написан сервисами вроде ChatGPT. Кроме того, участникам опроса предлагалось оценивать посты «вне контекста» — они не видели профиля автора, что, возможно, помогло бы им сделать верный вывод, поскольку даже прошлые посты в ленте аккаунта и изображение в профиле могут дать подсказку о его природе.

Успешнее всего участники могли отличать дезинформацию, написанную реальными пользователями Twitter, а GPT-3 убеждала пользователей несколько эффективнее. Стоит помнить, что уже существуют как минимум модели GPT-3.5 и GPT-4, которые справляются с разнообразными задачами ещё лучше. При этом оказалось, что GPT-3 хуже справляется с оценкой твитов, чем люди, по крайней мере, в некоторых случаях. Так, при выявлении верной информации в постах GPT-3 показал себя хуже, чем люди, а при обнаружении дезинформации ИИ и люди справлялись примерно одинаково.

Возможно, дальнейшее совершенствование механизмов безопасности языковых моделей помешает создавать вредоносный контент с их помощью. Так, GPT-3 иногда отказывалась генерировать недостоверные материалы по заданию учёных, в частности, о вакцинах и аутизме. Вероятно, дело в том, что при тренировке использовалось много данных, посвящённых разоблачению конспирологических теорий. Впрочем, по мнению исследователей, лучшим инструментом распознавания ложной информации пока по-прежнему остаётся человеческие здравый смысл и критическое отношение к любой предлагаемой информации.

OpenAI обновила GPT-3.5-turbo и GPT-4 новыми функциями и снизила стоимость их использования

По мере роста конкуренции в сфере генеративных нейросетей один из лидеров направления в лице OpenAI представил обновлённые версии алгоритмов генерации текста, а также снизил стоимость их использования. Компания выпустила обновлённые версии языковых моделей GPT-3.5-turbo и GPT-4, которые обеспечат ещё больше возможностей для создания контента по сравнению с предыдущими версиями языковых моделей стартапа.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Одним из любопытных нововведений стало появление инструмента, позволяющего разработчикам описывать программные функции естественным языком и получать полноценный код для их выполнения. Например, данный инструмент подходит для создания чат-ботов, которые отвечают на вопросы, вызывая внешние инструменты, преобразовывая естественный язык в запросы к базам данных и извлекая структурированные данные из текста. Обе модели способны определять, когда функция должна быть вызвана и отвечать в формате JSON, который соответствует сигнатуре функции. Это нововведение также позволит разработчикам получать более точные и структурированные данные.

Вместе с этим модель GPR-3.5-turbo получила расширенное контекстное окно (количество текста, учитываемое в процессе генерации). Увеличение контекстного окна позволяет модели лучше понимать смысл запросов и выдавать более соответствующие им ответы, не отклоняясь от темы. Модель GPR-3.5-turbo имеет контекстное окно в 16 тыс. токенов, что в четыре раза больше по сравнению с аналогичным показателем GPT-3.5. Также было объявлено, что в настоящее время OpenAI тестирует модель GPT-4 с контекстным окном в 32 тыс. токенов.

Стоимость использования стандартной версии GPT-3.5-turbo (без расширенного контекстного окна) снижена на 25 % до $0,0015 за 1 тыс. входных токенов и $0,002 за 1 тыс. выходных токенов, что соответствует примерно 700 страницам текста за $1. Стоимость использования модели text-embedding-ada-002, которая позволяет измерить сходство текстов, снижена на 75 % до $0,0001 за 1 тыс. токенов.

OpenAI поделится с разработчиками своими ИИ-моделями за $264 тысячи в год

OpenAI анонсировала платформу Foundry, позволяющую сторонним компаниям и разработчикам использовать новейшие модели машинного обучения, включая GPT-3.5 (модель, лежащая в основе ИИ-бота ChatGPT), на выделенных мощностях, и создавать собственные решения с использованием технологий искусственного интеллекта.

 Источник изображения: rawpixel.com / freepik.com

Источник изображения: rawpixel.com / freepik.com

Foundry позволит выполнять мониторинг конкретных процессов, используя те же инструменты и информационные панели, что OpenAI применяет для создания и оптимизации ИИ-моделей. Кроме того, платформа обеспечит управление обновлениями версий ПО и позволит пользователям решать, обновляться ли до более современных версий моделей от OpenAI.

Аренда мощностей будет доступна на срок 3 месяца или на год, использование каждой отдельной модели потребует определённого количества вычислительных блоков. Как сообщает TechCrunch, сервис обойдётся довольно дорого. Например, использование «лёгкой» версии GPT-3.5 будет стоить $78 тыс. за три месяца или $264 тыс. за год. Пользователи заметили, что одна из генеративных языковых моделей имеет ряд специфичных настроек, не свойственных GPT-3.5. Это позволяет предположить, что клиентам будет предложена долгожданная модель GPT-4 или какое-либо промежуточное решение.

Сегодня OpenAI находится под давлением со стороны инвесторов, ожидающих отдачи от многомиллиардных вложений, в частности, со стороны Microsoft. В 2023 году разработчик намерен заработать $200 млн. Известно, что Microsoft потратила уже $1 млрд и пообещала инвестировать ещё больше. Не последнюю роль в этом бизнесе играет высокая стоимость вычислений. Тренировка ИИ-моделей стоит миллионы долларов, а дальнейшее их обслуживание обходится не дешевле. Так, по данным одного из основателей и главы OpenAI Сэма Альтмана (Sam Altman), каждая сессия общения с чат-ботом ChatGPT стоит несколько центов, а с учётом того, что число пользователей перевалило за миллион ещё в декабре, проект получается довольно дорогим.

Пытаясь монетизировать разработки, OpenAI недавно запустила Pro-версию ChatGPT Plus, использование которой обходится подписчикам в $20 ежемесячно. Также компания интегрировала своего бота в поисковик Bing и планирует включить свои разработки в приложения Microsoft вроде Word, PowerPoint или Outlook. Дополнительно OpenAI участвует в других ИИ-проектах, в первую очередь — связанных с Microsoft и её дочерними структурами.


window-new
Soft
Hard
Тренды 🔥
Количество загрузок, планы на релиз и ограничения Steam: разработчики российской стратегии «Передний край» подвели итоги 2024 года 55 мин.
В Windows 11 обнаружена ошибка, которая мешает установке обновления безопасности 7 ч.
Разработчики Assetto Corsa Evo подтвердили, с каким контентом игра выйдет на старт раннего доступа и чего ждать от полноценного релиза 13 ч.
Российский аниме-хоррор MiSide внезапно оказался хитом Steam — восторженные отзывы игроков, сотни тысяч проданных копий 14 ч.
Киберпанковый слешер Ghostrunner 2 стал новой бесплатной игрой в Epic Games Store — раздача доступна в России и продлится всего 24 часа 16 ч.
Activision сыграет в кальмара: новый трейлер раскрыл, когда в Call of Duty: Black Ops 6 стартует кроссовер со Squid Game 2 17 ч.
«К чёрту Embracer Group»: неизвестный устроил утечку исходного кода Saints Row IV 18 ч.
Отечественная платформа Tantor повысит производительность и удобство работы с СУБД на базе PostgreSQL 21 ч.
В Steam вышла новая демоверсия голливудской стратегии Hollywood Animal от авторов This is the Police 21 ч.
IT-холдинг Т1 подал иск к «Марвел-Дистрибуции» в связи с уходом Fortinet из России 22 ч.