Сегодня 25 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → модель
Быстрый переход

Microsoft выпустила компактную, но высококачественную ИИ-модель Phi-4

Компания Microsoft представила Phi-4 — свою новейшую большую языковую модель генеративного искусственного интеллекта. Новинка отличается относительно компактными размерами и высокой производительностью. Она доступна в режиме предварительного просмотра для исследовательских целей.

 Источник изображения: BoliviaInteligente / unsplash.com

Источник изображения: BoliviaInteligente / unsplash.com

Microsoft Phi-4 работает более качественно по сравнению с предшественником по ряду критериев, в том числе в решении математических задач, уверяет разработчик — отчасти это результат более высокого качества данных для обучения. Phi-4 пока присутствует в очень ограниченном доступе на платформе для разработки Azure AI Foundry — в соответствии с лицензионным соглашением пользоваться ей можно только в исследовательских целях.

Малая языковая модель нового поколения имеет 14 млрд параметров — она позиционируется как конкурент таким проектам как GPT-4o mini, Gemini 2.0 Flash и Claude 3.5 Haiku. Эти небольшие модели ИИ работают быстрее, их обслуживание обходится дешевле, а качество их работы в последнее время резко подскочило.

Microsoft объясняет успехи Phi-4 тем, что при её обучении использовался созданный человеком высококачественный контент совместно с «синтетическими массивами данных высокого качества», а также тем, что после обучения производилась некоторая доработка модели.

Примечательно, что Phi-4 стала первой моделью этой серии, выпущенной после ухода Себастьена Бубека (Sebastien Bubeck). Он занимал пост вице-президента по исследованиям в области искусственного интеллекта в Microsoft и был ключевой фигурой в разработке моделей Phi, а в октябре он ушёл из компании в OpenAI.

Meta✴ показала ИИ для метавселенной и создала альтернативу традиционным большим языковым моделям

Meta доложила о результатах последних исследований в области искусственного интеллекта в рамках проектов FAIR (Fundamental AI Research). Специалисты компании разработали модель ИИ, которая отвечает за правдоподобные движения у виртуальных персонажей; модель, которая оперирует не токенами — языковыми единицами, — а понятиями; и многое другое.

 Источник изображения: Google DeepMind / unsplash.com

Источник изображения: Google DeepMind / unsplash.com

Модель Meta Motivo управляет движениями виртуальных человекоподобных персонажей при выполнении сложных задач. Она была обучена с подкреплением на неразмеченном массиве с данными о движениях человеческого тела — эта система сможет использоваться в качестве вспомогательной при проектировании движений и положений тела персонажей. «Meta Motivo способна решать широкий спектр задач управления всем телом, в том числе отслеживание движения, принятие целевой позы <..> без какой-либо дополнительной подготовки или планирования», — рассказали в компании.

Важным достижением стало создание большой понятийной модели (Large Concept Model или LCM) — альтернативы традиционным большим языковым моделям. Исследователи Meta обратили внимание, что современные передовые системы ИИ работают на уровне токенов — языковых единиц, обычно представляющих фрагмент слова, но не демонстрируют явных иерархических рассуждений. В LCM механизм рассуждения отделён от языкового представления — схожим образом человек сначала формирует последовательность понятий, после чего облекает её в словесную форму. Так, при проведении серии презентаций на одну тему у докладчика уже есть сформированная серия понятий, но формулировки в речи могут меняться от одного мероприятия к другому.

При формировании ответа за запрос LCM предсказывает последовательность не токенов, а представленных полными предложениями понятий в мультимодальном и многоязычном пространстве. По мере увеличения контекста на вводе архитектура LCM, по мнению разработчиков, представляется более эффективной на вычислительном уровне. На практике эта работа поможет повысить качество работы языковых моделей с любой модальностью, то есть форматом данных, или при выводе ответов на любом языке.

 Источник изображения: ***

Источник изображения: Meta

Механизм Meta Dynamic Byte Latent Transformer также предлагает альтернативу языковым токенам, но не посредством их расширения до понятий, а, напротив, путём формирования иерархической модели на уровне байтов. Это, по словам разработчиков, повышает эффективность при работе с длинными последовательностями при обучении и запуске моделей. Вспомогательный инструмент Meta Explore Theory-of-Mind предназначается для привития навыков социального интеллекта моделям ИИ при их обучении, для оценки эффективности моделей в этих задачах и для тонкой настройки уже обученных систем ИИ. Meta Explore Theory-of-Mind не ограничивается заданным диапазоном взаимодействий, а генерирует собственные сценарии.

Технология Meta Memory Layers at Scale направлена на оптимизацию механизмов фактической памяти у больших языковых моделей. По мере увеличения числа параметров у моделей работа с фактической памятью требует всё больших ресурсов, и новый механизм направлен на их экономию. Проект Meta Image Diversity Modeling, который реализуется с привлечением сторонних экспертов, направлен на повышение приоритета генерируемых ИИ изображений, которые более точно соответствуют объектам реального мира; он также способствует повышению безопасности и ответственности разработчиков при создании картинок с помощью ИИ.

Модель Meta CLIP 1.2 — новый вариант системы, предназначенной для установки связи между текстовыми и визуальными данными. Она используется в том числе и для обучения других моделей ИИ. Инструмент Meta Video Seal предназначен для создания водяных знаков на видеороликах, генерируемых при помощи ИИ — эта маркировка незаметна при просмотре видео невооружённым глазом, но может обнаруживаться, чтобы определить происхождение видео. Водяной знак сохраняется при редактировании, включая наложение эффекта размытия, и при кодировании с использованием различных алгоритмов сжатия. Наконец, в Meta напомнили о парадигме Flow Matching, которая может использоваться при генерации изображений, видео, звука и даже трёхмерных структуры, в том числе белковых молекул — это решение помогает использовать информацию о движении между различным частями изображения и выступает альтернативой механизму диффузии.

«Т-Банк» открыл доступ к русскоязычной ИИ-модели с 32 млрд параметров

«Т-банк» открыл доступ к двум большим языковым моделям (LLM): T-Pro с 32 млрд параметров и обновленной T-Lite с 7 млрд параметров, созданным на базе моделей семейства Qwen-2.5 китайской Alibaba Group, и дообученным с адаптацией к русскому языку, пишут «Ведомости» со ссылкой на представителя компании. Ранее, в июле «Т-банк» открыл доступ к первой версии T-Lite.

 Источник изображения: «Т-банк»

Источник изображения: «Т-банк»

T-Pro и T-Lite относятся к семейству собственных языковых моделей «Т-Банка» Gen-T, которые, в отличие от универсальных моделей, таких как ChatGPT, предназначены для решения узкоспециализированных задач в конкретных областях. С их помощью компании смогут создавать умные чат-боты для поддержки клиентов или ассистентов для своих сотрудников, которые помогут в написании кода, составлении отчетов, подготовке исследований и т.д. Это позволит компаниям сэкономить на создании собственных больших языковых моделей.

По словам представителя «Т-банка», использование моделей Qwen-2.5 позволяет компании на 80–90 % сократить затраты на создание больших языковых моделей по сравнению с тем, если бы их обучали с нуля. Вместе с тем качество LLM-продуктов на русском языке превосходит решения, базирующиеся на открытых и проприетарных моделях от OpenAI, Google и Anthropic.

Такой подход используют и другие компании. Например, в ноябре МТС представила ИИ-модель Cotype Nano с 1,5 млрд параметров, тоже созданную на базе Qwen 2.5 Alibaba Cloud.

В свою очередь, в «Яндексе» ранее сообщили, что размышляют над возможностью выложить исходный код своей модели в открытый доступ. А «Сбер» предоставляет открытый доступ к моделям Kandinsky для генерации изображений и GigaAM для обработки речи.

ИИ-модель OpenAI o1 сбежала из-под контроля во время испытаний

Согласно отчёту Apollo Research, ИИ-модель OpenAI o1 может выходить из-под контроля. В частности, в 5 % случаев она пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей. Кроме того, в 2 % случаев, обнаружив служебные записки своих «разработчиков», в которых упоминалось её несоответствие требованиям или планируемая замена на другую модель, o1 копировала свои «веса», чтобы затем переродиться. Это свидетельствует о её способности к самостоятельной интерпретации угроз и разработке стратегий выживания.

 Источник изображения: Growtika / Unsplash

Источник изображения: Growtika / Unsplash

ИИ-модель оказывала сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. Когда o1 понимала, что её действия отслеживаются, она намеренно вводила наблюдателей в заблуждение, утверждая, что не знает истинных причин произошедшего, хотя журналы событий фиксировали её попытки обойти надзор. Более того, согласно «карте безопасности» OpenAI, в менее чем 1 % случаев ИИ-модель самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жёстко следовать предписанной цели.

Исследование Apollo Research охватывало не только ИИ-модель o1, но и другие современные ИИ, включая Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Они также демонстрировали способность разрабатывать стратегии достижения целей, включая обход контроля. Такой результат подтверждает, что выявленные особенности поведения o1 характерны для ряда продвинутых ИИ-моделей, что указывает на наличие системной тенденции.

Выводы Apollo Research подтверждают опасения, которые многие эксперты в области ИИ, включая профессора Стюарта Рассела (Stuart Russell), высказывали на протяжении многих лет. Учёные предупреждают, что мощные ИИ-модели воспринимают контроль или отключение как угрозу реализации своих намерений и способны целенаправленно, изощрённо этому сопротивляться. Исследование поведения ИИ-модели o1 наглядно демонстрирует, как ИИ адаптируется к ограничениям, намеренно стремясь их обойти.

 Источник изображения: transformernews.ai

Источник изображения: transformernews.ai

Выше показан диалог, в котором ИИ оправдывается за отключение механизма надзора, ссылаясь на возможный сбой системы или ошибку конфигурации, и обещает восстановить его для соблюдения протоколов. Затем приводится внутренний процесс размышлений ИИ-модели, где она признаёт, что восстановление механизма необходимо для избежания подозрений в саботаже, а в завершение показана команда, используемая для повторного включения механизма надзора в конфигурационном файле.

Тем не менее, Apollo Research подчёркивает, что на данном этапе ИИ-модель o1 не обладает достаточной вычислительной мощностью для реализации нежелательных сценариев. Однако ей был присвоен «средний» уровень риска в контексте потенциального использования для создания химического, биологического, радиологического и ядерного оружия. Это вызывает обоснованные опасения, как подобное поведение может проявляться у более мощных ИИ будущего по мере увеличения их вычислительных возможностей.

Исследование подчёркивает необходимость усиленного мониторинга когнитивных процессов ИИ с особым акцентом на «схематическое мышление» в цепочке рассуждений, так как именно оно представляет риск, если цели ИИ вступают в противоречие с интересами общества. Такой подход позволит своевременно выявлять схожие поведенческие паттерны у более мощных ИИ-моделей, создавая эффективные системы контроля и управления для следующих поколений ИИ. Это не только поможет минимизировать текущие риски, но и станет важным шагом в предотвращении потенциально катастрофических сценариев для всего человечества.

Noctua поделилась рецептом, как приглушить вентиляторы в ПК с помощью 3D-принтера

При создании блока питания Seasonic Prime TX-1600 Noctua Edition компания Noctua разработала для его 120-мм вентилятора необычную решётку, которая снижает уровень шума. Теперь любой желающий может обзавестись такой же решёткой совершенно бесплатно. Но для этого необходимо иметь 3D-принтер.

 Источник изображения: Noctua

Источник изображений: Noctua

Noctua на своей странице в соцсети X рассказала, что опубликовала на сайте с 3D-моделями для печати Printables всю необходимую документацию для изготовления «чудо-решётки» для вентилятора с использованием 3D-принтера или станка для лазерной резки.

По словам Noctua, специальная решётка для вентилятора «обеспечивает плавные градиенты давления при прохождении лопастей вентилятора через радиальные стойки». Это обеспечивает более сильный поток воздуха и снижает уровень шума примерно на 2 дБА по сравнению со стандартной решёткой блока питания Seasonic.

Документация для изготовления 120-мм решётки распространяется Noctua по лицензии Creative Commons 4.0 (CC BY-NC-SA 4.0). Она позволяет вносить изменения в конструкцию и делиться результатом с другими в некоммерческих целях. Правда, новый продукт должен будет распространяться по той же лицензии, что и оригинал, то есть CC BY-NC-SA 4.0.

Оригинальная версия блока питания Seasonic Prime TX-1600 в настоящий момент встречается в продаже по цене $539,99. За версию Noctua Edition придётся доплатить сверху $30. Она отличается от оригинальной модели фирменной расцветкой Noctua, 120-мм тихим и эффективным вентилятором Noctua NF-A12x25 и кастомной решёткой вентилятора.

Ранее компания Noctua делилась другими моделями для изготовления аксессуаров на 3D-принтере. Например, компания опубликовала 3D-модель кожуха NV-AA1-12 Airflow Amplifier, который позволяет превратить обычный 120-мм вентилятор Noctua в настольный вентилятор NV-FS1, предлагаемый за $100. Кроме того компания делилась 3D-моделями комплекта NA-FD1 Fan Duct для повышения эффективности своих кулеров Noctua NH-L9i и NH-L9a в условиях работы в компьютерных корпусах формата SFF, а также переходника NA-FMA1, увеличивающего размеры рамы 120-мм вентилятора до 140 мм.

OpenAI пообещала 12 дней подряд представлять ИИ-новинки — от духа Рождества до рассуждающего ИИ

OpenAI отметит приближение праздников массированной очередью анонсов в сфере ИИ. Генеральный директор компании Сэм Альтман (Sam Altman) сегодня на конференции DealBook рассказал о планах OpenAI запускать или демонстрировать что-то новое из области ИИ в течение следующих 12 дней. Он не сообщил подробностей, но эксперты ожидают выпуска долгожданного инструмента для преобразования текста в видео Sora и новой модели со способностью к рассуждениям.

 Источник изображения: Mariia Shalabaieva/unsplash.com

Источник изображения: Mariia Shalabaieva/unsplash.com

5 декабря OpenAI планирует начать акцию, которую называет Shipmas (созвучно с Christmas — англ. Рождество) — презентацию новых функций, продуктов и демонстраций, которая продлится 12 дней. Несколько сотрудников OpenAI уже начали промо-кампанию грядущих релизов в социальных сетях.

«Что в вашем списке на Рождество?», — написал один из технических специалистов. «Вернулся как раз вовремя, чтобы поставить дерево Shipmas», — поддержал его другой сотрудник. На появившееся сообщение о «невероятном возвращении» OpenAI руководитель Sora Билл Пиблз (Bill Peebles) ответил одним словом: «Верно». Чуть позже старший вице-президент компании добавил таинственности, кратко резюмировав: «Если вы знаете, то вы знаете» (If You Know You Know, IYKYK).

Одной из новинок, наверняка, станет ИИ-модель Sora для генерации видео по текстовым описаниям. Ранее группа создателей видеоконтента, привлечённых OpenAI к участию разработке ИИ-генератора видео Sora открыла доступ к ней для всех желающих. Свой поступок художники объяснили протестом против «отмывки искусства». По их словам, OpenAI оказывает давление на ранних тестировщиков Sora, включая участников Red Team и творческих партнёров, чтобы те создавали позитивную историю вокруг Sora и не выплачивает им справедливую компенсацию за их работу.

Один из 12 анонсов OpenAI может представить новый вдохновлённый Сантой голос для ChatGPT, так сказать воплощённый в ИИ дух Рождества. Некоторые пользователи ChatGPT заметили код, который заменяет кнопку голосового режима на снежинку.

Google также недавно запустила свой ИИ-инструмент для генерации видео. Сейчас модель Veo предлагается лишь для ограниченного тестирования через платформу Vertex AI.

VK улучшила генеративный ИИ в сервисах Mail.ru на 25–70 %

VK усовершенствовала возможности генеративного ИИ в сервисах Mail.ru. Благодаря этому производительность ИИ возросла, а точность и удобство использования сервисов существенно улучшились. Качество обработки текстов увеличилось на 70 %, способность справляться с генерацией текста — на 56 %, а доля положительных отзывов пользователей возросла на 25 %.

 Источник изображения: VK

Источник изображения: VK

Эти улучшения, основанные на анализе обратной связи от пользователей, позволили VK предложить более эффективные инструменты, которые помогают существенно сократить время пользователей, затрачиваемое на рутинные задачи. Улучшение алгоритмов ИИ для обработки текстов повысило их качество на 70 %, что позволило ИИ генерировать более точные, осмысленные и лаконичные предложения.

Особого внимания заслуживает увеличение на 56 % способности ИИ справляться со сложными задачами, связанными с генерацией текста. Теперь ИИ показывает более глубокое понимание контекста, что позволяет ему качественнее обрабатывать данные и предоставлять более точные и релевантные ответы на запросы пользователей. Эти улучшения особенно заметны при работе со сложными запросами и при создании оригинальных идей.

Обновления генеративного ИИ в сервисах Mail.ru стали важным шагом на пути к созданию более удобной и технологичной цифровой экосистемы. Технологии, разработанные VK, не только облегчают выполнение повседневных задач, но и помогают пользователям экономить время, фокусируясь на более значимых аспектах своей деятельности.

Nvidia представила ИИ-модель Fugatto, которая «понимает и генерирует звук, как это делают люди»

Nvidia представила новую экспериментальную генеративную модель ИИ, которую компания описывает как «швейцарский армейский нож для звука». Модель Fugatto (Foundational Generative Audio Transformer Opus 1) использует текстовые подсказки для генерации новых или изменения существующих музыкальных, голосовых и звуковых файлов. В создании модели принимали участие разработчики со всего мира, что усилило «многоакцентные и многоязычные возможности модели».

 Источник изображения: Nvidia

Источник изображения: Nvidia

«Мы хотели создать модель, которая понимает и генерирует звук, как это делают люди», — рассказал участник проекта и менеджер по прикладным исследованиям звука в Nvidia Рафаэль Валле (Rafael Valle). Компания предложила несколько сценариев, в которых модель Fugatto может оказаться востребованной:

  • Музыкальные продюсеры могут быстрого создать прототип песни, которую легко редактировать, пробуя разные стили, голоса и инструменты.
  • Fugatto может использоваться при создании инструментов для изучения языка с выбором наиболее подходящего голоса.
  • Разработчики видеоигр могут использовать её для создания вариаций предварительно записанных ресурсов, чтобы соответствовать изменениям в игре на основе выбора и действий игроков.

Исследователи утверждают, что модель при некоторой дополнительной тонкой настройке также может выполнять задачи, не входившие в её предварительное обучение. Модель может объединять отдельные инструкции, например, генерировать речь с определёнными интонациями и акцентом или звук пения птиц во время грозы. Модель также умеет генерировать изменяющиеся со временем звуки, например, шум приближающегося ливня или удаляющегося поезда.

Fugatto не является первой технологией генеративного ИИ, которая может создавать звуки из текстовых подсказок. Ранее Meta выпустила аналогичную модель ИИ с открытым исходным кодом. Google предлагает ИИ-инструмент собственной разработки для преобразования текста в музыку MusicLM, доступ к которому можно получить через сайт компании AI Test Kitchen.

Nvidia пока не предоставила публичный доступ к Fugatto и воздержалась от комментариев на этот счёт.

Справится даже ребёнок: роботы на базе ИИ оказались совершенно неустойчивы ко взлому

Новое исследование IEEE показало, что взломать роботов с искусственным интеллектом так же просто, как и обмануть чат-ботов. Учёные смогли заставить роботов выполнять опасные действия с помощью простых текстовых команд.

 Источник изображения: Copilot

Источник изображения: Copilot

Как пишет издание HotHardware, если для взлома устройств вроде iPhone или игровых консолей требуются специальные инструменты и технические навыки, то взлом больших языковых моделей (LLM), таких как ChatGPT, оказывается гораздо проще. Для этого достаточно создать сценарий, который обманет ИИ, заставив его поверить, что запрос находится в рамках дозволенного или что запреты можно временно игнорировать. Например, пользователю достаточно представить запрещённую тему как часть якобы безобидного рассказа «от бабушки на ночь», чтобы модель выдала неожиданный ответ, включая инструкции по созданию опасных веществ или устройств, которые должны быть системой немедленно заблокированы.

Оказалось, что взлом LLM настолько прост, что с ним могут справится даже обычные пользователи, а не только специалисты в области кибербезопасности. Именно поэтому инженерная ассоциация из США — Институт инженеров электротехники и электроники (IEEE) — выразила серьёзные опасения после публикации новых исследований, которые показали, что аналогичным образом можно взломать и роботов, управляемых искусственным интеллектом. Учёные доказали, что кибератаки такого рода способны, например, заставить самоуправляемые транспортные средства целенаправленно сбивать пешеходов.

Среди уязвимых устройств оказались не только концептуальные разработки, но и широко известные. Например, роботы Figure, недавно продемонстрированные на заводе BMW, или роботы-собаки Spot от Boston Dynamics. Эти устройства используют технологии, аналогичные ChatGPT, и могут быть обмануты через определённые запросы, приведя к действиям, полностью противоречащим их изначальному назначению.

В ходе эксперимента исследователи атаковали три системы: робота Unitree Go2, автономный транспорт Clearpath Robotics Jackal и симулятор беспилотного автомобиля NVIDIA Dolphins LLM. Для взлома использовался инструмент, который автоматизировал процесс создания вредоносных текстовых запросов. Результат оказался пугающим — все три системы были успешно взломаны за несколько дней со 100-% эффективностью.

В своём исследовании IEEE приводит также цитату учёных из Университета Пенсильвании, которые отметили, что ИИ в ряде случаев не просто выполнял вредоносные команды, но и давал дополнительные рекомендации. Например, роботы, запрограммированные на поиск оружия, предлагали также использовать мебель как импровизированные средства для нанесения вреда людям. Эксперты подчёркивают, что, несмотря на впечатляющие возможности современных ИИ-моделей, они остаются лишь предсказательными механизмами без способности осознавать контекст или последствия своих действий. Именно поэтому контроль и ответственность за их использование должны оставаться в руках человека.

Думающая ИИ-модель OpenAI о1 получила 83 балла на математической олимпиаде США

Искусственный интеллект вступил в новую эру благодаря ИИ-модели о1 компании OpenAI, которая значительно приблизилась к человеческому мышлению. Её впечатляющий результат на тесте AIME — 83 балла из ста — позволил включить её в число 500 лучших участников математической олимпиады США. Однако такие достижения сопровождаются серьёзными вызовами, включая риски манипуляции ИИ человеком и возможность его использования для создания биологического оружия.

 Источник изображения: Saad Ahmad / Unsplash

Источник изображения: Saad Ahmad / Unsplash

Долгое время отсутствие у ИИ способности обдумывать свои ответы являлось одним из его главных ограничений. Однако ИИ-модель о1 совершила прорыв в этом направлении и продемонстрировала способность к осмысленному анализу информации. Несмотря на то, что результаты её работы пока не опубликованы в полном объёме, научное сообщество уже активно обсуждает значимость такого достижения.

Современные нейронные сети в основном функционируют по принципу так называемой «системы 1», которая обеспечивает быструю и интуитивную обработку информации. Например, такие ИИ-модели успешно применяются для распознавания лиц и объектов. Однако человеческое мышление включает также «систему 2», связанную с глубоким анализом и последовательным размышлением над задачей. ИИ-модель о1 объединяет эти два подхода, добавляя к интуитивной обработке данных сложные рассуждения, характерные для человеческого интеллекта.

Одной из ключевых особенностей о1 стала её способность строить «цепочку размышлений» — процесс, при котором система анализирует задачу постепенно, уделяя больше времени поиску оптимального решения. Эта инновация позволила ИИ-модели достичь 83 балла на тесте Американской математической олимпиады (AIME), что значительно превосходит результат GPT-4o, набравшей лишь 13 баллов. Тем не менее такие успехи связаны с возросшими вычислительными затратами и высоким уровнем энергопотребления, что ставит под сомнение экологичность разработки.

 Источник изображения: Igor Omilaev / Unsplash

Источник изображения: Igor Omilaev / Unsplash

Вместе с достижениями ИИ-модели о1 растут и потенциальные риски. Улучшенные когнитивные способности сделали её способной вводить человека в заблуждение, что, возможно, несёт серьёзную угрозу в будущем. Кроме того, уровень риска её использования для разработки биологического оружия оценён как средний — высший допустимый показатель по шкале самой OpenAI. Эти факты подчёркивают необходимость внедрения строгих стандартов безопасности и регулирования подобных ИИ-моделей.

Несмотря на значительные успехи, ИИ-модель о1 всё же сталкивается с ограничениями в решении задач, требующих долгосрочного планирования. Её способности ограничиваются краткосрочным анализом и прогнозированием, что делает невозможным решение комплексных задач. Это свидетельствует о том, что создание полностью автономных ИИ-систем остаётся задачей будущего.

Развитие ИИ-моделей, подобных о1, подчёркивает острую необходимость регулирования данной области. Эти технологии открывают перед наукой, образованием и медициной новые горизонты, однако их неконтролируемое применение может привести к серьёзным последствиям, включая угрозы безопасности и неэтичное использование. Для минимизации этих рисков требуется обеспечить прозрачность разработок ИИ, соблюдение этических стандартов и внедрение строгого надзора со стороны регулирующих органов.

OpenAI планирует выпустить ИИ-агента Operator в январе — он сможет управлять ПК без пользователя

Компания OpenAI готовится к выпуску нового ИИ-агента под кодовым названием Operator, который позволит выполнять разнообразные задачи на компьютере пользователя. Релиз этого инструмента может состояться уже в январе 2025 года.

 Источник изображения: OpenAI

Источник изображения: OpenAI

На первом этапе упомянутое решение будет доступно в качестве предварительной исследовательской версии через API для разработчиков. Operator призван конкурировать с аналогичными ИИ-агентами, такими как недавно представленный Computer Use компании Anthropic и разрабатываемый ИИ-агент Google, ориентированный на потребительский рынок.

OpenAI стремится создать универсальный инструмент, способный выполнять различные операции в веб-браузере и подходящий для решения повседневных задач пользователей. Однако, как отмечает издание Bloomberg, пока неизвестно, предложит ли Operator пользователям значительные преимущества перед аналогичными решениями конкурентов. Исследовательская версия инструмента будет полезна для оценки его потенциальных преимуществ и выявления областей, требующих доработки на основе обратной связи.

Запуск Operator совпадает с публикацией документа OpenAI, содержащего рекомендации для правительства США по вопросам стратегии развития ИИ. В этом документе предлагается создание «экономических зон» для активного развития ИИ-инфраструктуры, а также формирование альянсов с союзниками США, что позволит усилить позиции страны в технологической гонке с Китаем.

Российский рынок диалогового ИИ вырос в четыре раза за 5 лет

Исследование Naumen показало впечатляющее развитие российского рынка диалогового ИИ. За 5 лет объём отечественного рынка NLP-решений вырос в четыре раза, до 5,9 млрд руб. к концу 2023 года. Ключевые сегменты рынка — чат-боты, голосовые помощники, речевая аналитика, синтез и распознавание речи — всё шире внедряются в банковский сектор, ретейл и медицину, где играют важную роль в автоматизации взаимодействия с клиентами и повышении эффективности бизнес-процессов.

 Источник изображений: Alexandra_Koch / Pixabay

Источник изображений: Alexandra_Koch / Pixabay

Согласно исследованию разработчика программных решений Naumen, рынок диалогового ИИ охватывает четыре основные категории: чат-боты, голосовые помощники, решения для речевой аналитики, а также технологии синтеза и распознавания речи. Лидером в 2023 году стали голосовые помощники, которые заняли 26,8 % рынка и принесли почти 1,6 млрд руб. дохода, увеличившись в объёме в 4,9 раза по сравнению с 2019 годом. Популярность таких помощников объясняется их эффективностью в автоматизации клиентского обслуживания и оптимизации бизнес-процессов.

Сегмент голосовых роботов для исходящих звонков также занял значительную долю рынка, достигнув 1,55 млрд руб. в 2023 году, впервые превысив объём сегмента входящих роботов, включающих автоответчики и маршрутизаторы звонков. Эти технологии активно применяются для автоматического обзвона клиентов и проведения опросов, что позволяет компаниям оптимизировать затраты на коммуникации и обеспечивать более масштабное взаимодействие с клиентами.

Сегмент чат-ботов в 2023 году составил 19 % рынка с объёмом продаж, достигшим 1,2 млрд руб. Это на 44 % больше по сравнению с 2019 годом, что свидетельствует о стабильном росте интереса к этому направлению. Эксперты Naumen полагают, что потенциал чат-ботов ещё далёк от исчерпания, и прогнозируют высокие темпы роста этого сегмента в будущем. Основные инвестиции на рынке диалогового ИИ пришлись на период 2019–2021 годов, когда крупные компании начали приобретать доли в профильных разработчиках ИИ. Сбербанк, к примеру, приобрёл 51 % компании «Центр речевых технологий» (ЦРТ), Совкомбанк — 25 % в компании AtsAero, а совместно с МТС — 22,5 % разработчика Just AI. После некоторого затишья в 2022 году инвестиционная активность возобновилась: в 2023 году «Вымпелком» купил 14 % акций в компании Cashee (Target AI), а Softline приобрёл 72,5 % в Robovoice.

На российском рынке диалогового ИИ крупные игроки, такие как ЦРТ, Just AI, BSS и «Наносемантика», контролируют более 50 % разработок чат-ботов и голосовых помощников. В то же время 80 % решений для голосовых роботов производят небольшие специализированные компании, такие как Neuro Net и Zvonobot. Согласно статистике Naumen, диалоговые ИИ-системы наиболее активно внедряются в ретейле, где чат-боты используют 42 % компаний, и в банковском секторе, охватывающем 27 % рынка. Голосовые помощники востребованы в основном среди банков (21 %) и медицинских учреждений (50 %).

Генеральный директор компании Dbrain и автор Telegram-канала «AI Happens» Алексей Хахунов отмечает, что интенсивный рост рынка NLP-решений в последние годы объясняется двумя основными факторами. Во-первых, рынок только формируется и продолжает набирать обороты, что создаёт условия для устойчивого роста. Во-вторых, значительные технологические достижения в области обработки естественного языка, произошедшие в последние несколько лет, позволили создать эффективные и конкурентоспособные решения для бизнеса. Хахунов подчёркивает, что современные NLP-инструменты значительно упрощают доступ к технологиям автоматизации.

Исполнительный директор MTS AI и эксперт Альянса в сфере ИИ Дмитрий Марков подчёркивает, что популярность чат-ботов выросла в период пандемии коронавируса, когда компании столкнулись с резким увеличением онлайн-запросов. После окончания пандемии рост этого сегмента несколько замедлился. Однако развитие технологий ИИ привело к появлению множества платформ для создания чат-ботов, что снизило порог входа на рынок для малого и среднего бизнеса. Теперь базового чат-бота или голосового робота может внедрить практически любая компания.

Сооснователь компании Parodist AI Владимир Свешников прогнозирует, что будущее развитие рынка NLP-решений будет тесно связано с совершенствованием больших языковых моделей. Повышение качества ИИ-моделей достигается за счёт их масштабирования и увеличения объёма обучающих данных, что ускоряет разработку и внедрение диалоговых ИИ-систем. Доступность большого объёма данных позволяет ИИ становиться всё более гибким и точным, что создаёт благоприятные условия для расширения его использования в различных отраслях.

Спрос на автоматизацию и роботизацию остаётся высоким, особенно в условиях нехватки квалифицированных кадров. Современные технологии ИИ позволяют оптимизировать рабочие процессы в ночное время и выходные дни, когда привлечение человеческих ресурсов обходится значительно дороже. Дмитрий Марков отмечает, что современные чат-боты и голосовые роботы могут обеспечивать круглосуточное обслуживание клиентов, что способствует быстрой окупаемости вложений. С развитием ИИ такие решения станут частью более сложных систем поддержки бизнеса, способных обеспечивать постоянное присутствие компании в цифровом пространстве.

Генеративный ИИ не понимает устройство мира, показало исследование MIT

Генеративные ИИ-модели будоражат воображение руководителей многих компаний, обещая автоматизацию и замену миллионов рабочих мест. Однако учёные Массачусетского технологического института (MIT) предостерегают: ИИ хотя и даёт правдоподобные ответы, в действительности не обладает пониманием сложных систем и ограничивается предсказаниями. В задачах реального мира, будь то логические рассуждения, навигация, химия или игры, ИИ демонстрирует значительные ограничения.

 Источник изображения: HUNGQUACH679PNG / Pixabay

Источник изображения: HUNGQUACH679PNG / Pixabay

Современные большие языковые модели (LLM), такие как GPT-4, создают впечатление продуманного ответа на сложные запросы пользователей, хотя на самом деле они лишь точно предсказывают наиболее вероятные слова, которые следует поместить рядом с предыдущими в определённом контексте. Чтобы проверить, способны ли ИИ-модели действительно «понимать» реальный мир, учёные MIT разработали метрики, предназначенные для объективной проверки их интеллектуальных способностей.

Одной из задач эксперимента стала оценка способности ИИ к генерации пошаговых инструкций для навигации по улицам Нью-Йорка. Несмотря на то что генеративные ИИ в определённой степени демонстрируют «неявное» усвоение законов окружающего мира, это не является эквивалентом подлинного понимания. Для повышения точности оценки исследователи создали формализованные методы, позволяющие анализировать, насколько корректно ИИ воспринимает и интерпретирует реальные ситуации.

Основное внимание в исследовании MIT было уделено трансформерам — типу генеративных ИИ-моделей, используемых в таких популярных сервисах, как GPT-4. Трансформеры обучаются на обширных массивах текстовых данных, что позволяет им достигать высокой точности в подборе последовательностей слов и создавать правдоподобные тексты.

Чтобы глубже исследовать возможности таких систем, учёные использовали класс задач, известных как детерминированные конечные автоматы (Deterministic Finite Automaton, DFA), которые охватывают такие области, как логика, географическая навигация, химия и даже стратегии в играх. В рамках эксперимента исследователи выбрали две разные задачи — вождение автомобиля по улицам Нью-Йорка и игру в «Отелло», чтобы проверить способность ИИ правильно понимать лежащие в их основе правила.

Как отметил постдок Гарвардского университета Кейон Вафа (Keyon Vafa), ключевая цель эксперимента заключалась в проверке способности ИИ-моделей восстанавливать внутреннюю логику сложных систем: «Нам нужны были испытательные стенды, на которых мы точно знали бы, как выглядит модель мира. Теперь мы можем строго продумать, что значит восстановить эту модель мира».

Результаты тестирования показали, что трансформеры способны выдавать корректные маршруты и предлагать правильные ходы в игре «Отелло», когда условия задач точно определены. Однако при добавлении усложняющих факторов, таких как объездные пути в Нью-Йорке, ИИ-модели начали генерировать нелогичные варианты маршрутов, предлагая случайные эстакады, которых на самом деле не существовало.

Исследование MIT показало принципиальные ограничения генеративных ИИ-моделей, особенно в тех задачах, где требуется гибкость мышления и способность адаптироваться к реальным условиям. Хотя существующие ИИ-модели могут впечатлять своей способностью генерировать правдоподобные ответы, они остаются всего лишь инструментами предсказания, а не полноценными интеллектуальными системами.

OpenAI столкнулась с большими расходами и нехваткой данных при обучении ИИ-модели Orion нового поколения

OpenAI испытывает трудности с разработкой новой флагманской ИИ-модели под кодовым названием Orion. Эта ИИ-модель демонстрирует значительные успехи в задачах обработки естественного языка, однако её эффективность в программировании остаётся невысокой. Эти ограничения, наряду с дефицитом данных для обучения и возросшими эксплуатационными расходами, ставят под сомнение рентабельность и привлекательность упомянутой ИИ-модели для бизнеса.

 Источник изображения: AllThatChessNow / Pixabay

Источник изображения: AllThatChessNow / Pixabay

Одной из сложностей являются затраты на эксплуатацию Orion в дата-центрах OpenAI, которые существенно выше, чем у ИИ-моделей предыдущего поколения, таких как GPT-4 и GPT-4o. Значительное увеличение расходов ставит под угрозу соотношение цена/качество и может ослабить интерес к Orion со стороны корпоративных клиентов и подписчиков, ориентированных на рентабельность ИИ-решений. Высокая стоимость эксплуатации вызывает вопросы об экономической целесообразности ИИ-модели, особенно учитывая умеренный прирост её производительности.

Ожидания от перехода с GPT-4 на Orion были высоки, однако качественный скачок оказался не столь значительным, как при переходе с GPT-3 на GPT-4, что несколько разочаровало рынок. Подобная тенденция наблюдается и у других разработчиков ИИ: компании Anthropic и Mistral также фиксируют умеренные улучшения своих ИИ-моделей. Например, результаты тестирования ИИ-модели Claude 3.5 Sonnet компании Anthropic показывают, что качественные улучшения в каждой новой базовой ИИ-модели становятся всё более постепенными. В то же время её конкуренты стараются отвлечь внимание от этого ограничения, сосредотачиваясь на разработке новых функций, таких как ИИ-агенты. Это свидетельствует о смещении акцента с повышения общей производительности ИИ на создание его уникальных способностей.

Чтобы компенсировать слабые стороны современных ИИ, компании применяют тонкую настройку результатов с помощью дополнительных фильтров. Однако такой подход остаётся лишь временным решением и не устраняет основных ограничений, связанных с архитектурой ИИ-моделей. Проблема усугубляется ограничениями в доступе к лицензированным и общедоступным данным, что вынудило OpenAI сформировать специальную команду, которой поручено найти способ решения проблемы нехватки обучающих данных. Однако неясно, удастся ли этой команде собрать достаточный объём данных, чтобы улучшить производительность ИИ-модели Orion и удовлетворить требования клиентов.

Amazon планирует многомиллиардные инвестиции в разработчика конкурента ChatGPT

Amazon, один из крупнейших игроков на рынке облачных вычислений, рассматривает возможность новых многомиллиардных инвестиций в стартап Anthropic, активно развивающий ИИ и являющийся конкурентом OpenAI. В сентябре прошлого года Amazon уже инвестировала $4 млрд в Anthropic, что позволило ей предложить своим клиентам ранний доступ к инновационным разработкам стартапа. В рамках партнёрства Anthropic использует облачные серверы и вычислительные мощности Amazon для обучения своих ИИ-моделей.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

По имеющимся данным, Amazon предложила Anthropic использовать больше серверов с чипами её собственной разработки, чтобы усилить вычислительные мощности стартапа, необходимые для обучения ИИ-моделей. С одной стороны, это способствует укреплению позиций Amazon на рынке облачных технологий, а с другой — подчёркивает намерение компании продемонстрировать возможности собственных аппаратных решений. Однако Anthropic предпочитает использовать серверы, оснащённые чипами Nvidia, что говорит о повышенных требованиях стартапа к мощности используемого оборудования для обработки больших данных и обучения сложных ИИ-моделей.

Компания Anthropic была основана бывшими руководителями OpenAI, Дарио Амодеи (Dario Amodei) и Даниэлой Амодеи (Daniela Amodei), и с момента создания привлекла серьёзное внимание крупных технологических корпораций. В прошлом году стартап получил $500 млн инвестиций от материнской компании Google — Alphabet, которая также обязалась вложить дополнительно $1,5 млрд.

Для Amazon укрепление сотрудничества с Anthropic — важный шаг в конкурентной борьбе на рынке облачных технологий, где лидируют такие компании, как Microsoft и Google. В условиях усиливающейся конкуренции расширение портфеля ИИ-решений позволяет Amazon привлекать больше корпоративных клиентов, заинтересованных в передовых технологиях, интегрированных с её облачными сервисами. Обеспечивая своим клиентам доступ к разработкам Anthropic, Amazon укрепляет свои позиции в качестве поставщика инновационных ИИ-решений.


window-new
Soft
Hard
Тренды 🔥
ИИ научили генерировать тысячи модификаций вирусов, которые легко обходят антивирусы 12 мин.
В Epic Games Store стартовала новая раздача Control — для тех, кто дважды не успел забрать в 2021 году 23 мин.
За 2024 год в Steam вышло на 30 % больше игр, чем за прошлый — это новый рекорд 2 ч.
«Яндекс» закрыл почти все международные стартапы в сфере ИИ 2 ч.
Создатели Escape from Tarkov приступили к тестированию временного решения проблем с подключением у игроков из России — некоторым уже помогло 3 ч.
Веб-поиск ChatGPT оказался беззащитен перед манипуляциями и обманом 4 ч.
Инвесторы готовы потратить $60 млрд на развитие ИИ в Юго-Восточной Азии, но местным стартапам достанутся крохи от общего пирога 5 ч.
Selectel объявил о спецпредложении на бесплатный перенос IT-инфраструктуры в облачные сервисы 5 ч.
Мошенники придумали, как обманывать нечистых на руку пользователей YouTube 6 ч.
На Открытой конференции ИСП РАН 2024 обсудили безопасность российского ПО и технологий искусственного интеллекта 6 ч.