Сегодня 04 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → сканирование

Разработчиков ИИ уличили в сборе данных с сайтов СМИ вопреки прямым запретам

Несколько компаний, занимающихся разработкой систем искусственного интеллекта, игнорируют принятый отраслью веб-стандарт, который позволяет издателям блокировать сбор своего контента с целью его последующего включения в массивы для обучения генеративного ИИ. Об этом сообщает Reuters.

 Источник изображений: Gerd Altmann / pixabay.com

Источник изображений: Gerd Altmann / pixabay.com

Информация о неправомерных действиях разработчиков ИИ в отношении сайтов СМИ появилась в рамках публичного разбирательства ИИ-стартапа Perplexity и ресурса Forbes, при этом компании, предположительно оказавшиеся правонарушителями и пострадавшими, не называются. Деловое издание публично обвинило Perplexity в плагиате материалов своих расследований — в составляемых генеративным ИИ сводках оказываются материалы Forbes без запросов разрешения и ссылок на авторов. Поисковый веб-сканер Perplexity, вероятно, игнорирует директивы, которые указываются издателями в файле robots.txt — распространённый стандарт помогает администраторам сайтов определять, какие разделы разрешено сканировать поисковым роботам.

О проблеме сообщила компания TollBit — стартап, выступающий посредником между испытывающими потребность в обучающих материалах ИИ-компаниями и открытыми для заключения лицензионных соглашений издателями. Perplexity — не единственный нарушитель, который предположительно игнорирует директивы robots.txt, считают в TollBit. Сейчас в базе посредника значатся 50 издателей, и «чем больше журналов издателей мы принимаем, тем больше проявляется эта закономерность».

Протокол robots.txt был создан в середине девяностых годов, чтобы защитить сайты от перегрузок из-за поисковых роботов. Чёткого механизма правового принуждения соблюдать директивы файла не существует, но исторически они соблюдались добровольно. Недавно robots.txt стал основным инструментом, который издатели использовали, чтобы не допустить бесплатного включения их контента в массив данных для генеративного ИИ. Этот контент используется как для обучения ИИ, так и для создания сводок информации на его основе в режиме реального времени.

Некоторые издатели, включая New York Times, пытаются засудить разработчиков ИИ за нарушение авторских прав в связи с использованием материалов для этих целей. Другие подписывают с создателями ИИ лицензионные соглашения. Стороны часто расходятся во мнениях относительно ценности материалов — некоторые разработчики даже утверждают, что не нарушают законов, получая доступ к материалам СМИ бесплатно.

Android будет предварительно проверять все устанавливаемые приложения на наличие угроз

Чтобы защитить пользователей от потенциально опасных и явно вредоносных мобильных приложений под Android, Google разработала механизм их предварительной проверки прямо на этапе установки. И пока непонятно, можно ли будет отключить эту проверку.

 Источник изображения: security.googleblog.com

Источник изображения: security.googleblog.com

Система обнаружения вредоносного ПО Google Play Protect, входящая в магазин приложений «Play Маркет», всегда имела возможность проверять устанавливаемые из сторонних источников приложения на наличие угроз, только ранее такая проверка осуществлялась в фоновом режиме. Теперь этот процесс будет производиться с полноэкранным интерфейсом и глубоким сканированием кода. Google Play Protect станет предлагать такое сканирование не при каждой установке приложения из стороннего источника, а лишь в тех случаях, когда система ранее не была с ним знакома. По результатам сканирования она сообщит пользователю, какова оценка приложения: является ли оно безобидным или содержит потенциальную угрозу.

Google даже опубликовала скриншоты интерфейса механизма сканирования, и, если верить картинкам, у пользователя будут лишь два варианта: «Сканировать приложение» или «Не устанавливать приложение». Хотя ещё есть пункт «Подробнее» (More details), под которым может скрываться опция «Пропустить». Функция сканирования приложений из сторонних источников дебютирует в Индии — эта страна лидировала в распространении вредоносного мобильного ПО в 2018 году, гласят отчёты Google.

Ранее стало известно, что механизм проверки безопасности на смартфонах Xiaomi блокирует в Китае установку приложений, которые заблокировали местные власти — в частности, установить Telegram не получится.

Маск против чужих нейросетей: X полностью запретила сканирование и парсинг, чтобы на данных соцсети не обучали ИИ

X (ранее Twitter) обновила свои условия использования, полностью запретив парсинг и сканирование — вероятно, чтобы предотвратить обучение любых моделей искусственного интеллекта на её данных. Новые условия, вступающие в силу 29 сентября, запрещают любые виды парсинга или сканирования без «предварительного письменного согласия». Предыдущая версия условий разрешала сканирование в соответствии с файлом robots.txt, содержащим инструкции для поисковых роботов.

 Источник изображения: X

Источник изображения: X

За последние несколько месяцев X изменила свой файл robots.txt, который содержит инструкции для сканирующих ботов о том, какие части сайта им разрешено посещать, удалив инструкции для всех роботов-сканеров, кроме Google. В 2015 году Twitter заключила соглашение с Google об отображении твитов в результатах поиска. Неясно, изменились ли характер или условия этой сделки при новом руководстве. Комментариев от обеих компаний пока получить не удалось

Теперь настройки файла robots.txt запрещают сканерам получать информацию о лайках и ретвитах (или теперь их стоит называть «реиксами»?), относящихся к конкретным сообщениям. Он также запрещает поисковым роботам просматривать лайки, медиафайлы и фотографии аккаунта.

В июне соцсеть на короткое время запретила не вошедшим в систему пользователям просматривать публикации. Несколько дней спустя компания всё же убрала требование входа в систему для просмотра твитов. Илон Маск (Elon Musk) объяснял эту временную меру «разворовыванием данных сайта, что ухудшает качество обслуживания обычных пользователей».

Маск решительно протестует против компаний, собирающих данные X для обучения моделей ИИ. В апреле он пригрозил подать в суд на Microsoft за незаконное использование данных соцсети для обучения моделей ИИ. В июле он подал иск по этому поводу против нескольких неназванных компаний.

Ранее в этом месяце X изменила свою политику конфиденциальности, заявив, что может использовать общедоступные данные для обучения моделей ИИ. Маск ранее отмечал в своём аккаунте X, что компания xAI, основанная им в июле, будет использовать общедоступные данные, такие как публикации в X, для обучения своих моделей. Новая политика конфиденциальности X также содержит положения о сборе биометрических данных пользователей, об их образовании и истории трудовой деятельности.


window-new
Soft
Hard
Тренды 🔥
Инвесторы потребовали от Ubisoft пересмотреть условия сделки с Tencent и готовы добиваться своего через суд 4 ч.
Microsoft запустила собственный ИИ-поисковик Copilot Search 4 ч.
Спустя почти пять лет после дебюта на консолях The Last of Us Part II наконец вышла на ПК 4 ч.
ЕС оштрафует TikTok на €500 млн за передачу данных европейцев в Китай 6 ч.
Представлена ранняя ПК-версия российской ОС «Аврора» — на ней уже запускается Telegram и не только 7 ч.
«РТК ИТ Плюс» пополнила ИТ-экосистему «Лукоморье» тремя новыми продуктами 7 ч.
Microsoft подтвердила дату выхода GTA V в PC Game Pass — подписчики получат доступ к GTA V Enhanced 7 ч.
Новый контент в Elden Ring: Tarnished Edition для Nintendo Switch 2 появится и на других платформах 8 ч.
Лавкрафтианский хоррор Stygian: Outer Gods готовится к старту открытой «беты» — новый геймплейный трейлер 9 ч.
Nintendo создала гибридный эмулятор Switch, но работать он будет только на Switch 2 10 ч.
Intel и TSMC почти договорились работать вместе 3 ч.
Новая статья: Обзор блока питания Formula V Line APMM-1000GM 3 ч.
Большой адронный коллайдер собрал базу для выхода за пределы известной физики 6 ч.
Восьмиядерные CPU стали самыми популярными в мире по статистике CPU-Z — AMD стремительно отбирает рынок у Intel и Nvidia 6 ч.
Apple потеряла $250 млрд стоимости за день — пошлины Трампа обвалили акции техногигантов 7 ч.
Nintendo Switch 2 получила поддержку трассировки лучей и DLSS, но их появление в играх зависит от разработчиков 7 ч.
Nikon представила полнокадровую камеру Z5 II с улучшенным автофокусом и повышенной скоростью съёмки за $1700 8 ч.
«Акустическое совершенство»: Bang & Olufsen представила каменную колонку Beosound Balance Natura 8 ч.
У россиян вырос интерес к планшетам — продажи подскочили на 15 % в первом квартале 9 ч.
Samsung выпустила 20-метровые телевизоры для кинотеатров Onyx 9 ч.