Сегодня 28 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → mllm

Microsoft представила Kosmos-1 — ИИ, который понимает текст с картинками и решает головоломки

Microsoft представила мультимодальную ИИ-модель Kosmos-1, способную анализировать содержание изображений, решать графические головоломки, распознавать текст, проходить визуальные тесты на IQ и понимать команды на естественном языке. Учёные считают, что создание мультимодального ИИ, способного работать в текстовом, аудио- и графическом режимах (включая видео), — ключевой шаг на пути формирования «общего искусственного интеллекта» (AGI), готового справляться с многопрофильными задачами не хуже людей.

 Источник изображения: 0fjd125gk87/pixabay.com

Источник изображения: 0fjd125gk87 / pixabay.com

По мнению исследователей, мультимодальное восприятие является необходимым элементом для создания AGI в контексте получения знаний и связи с реальным миром. Подробности концепции изложены в работе Language Is Not All You Need: Aligning Perception with Language Models, посвящённой структуре нового искусственного интеллекта. В работе рассказывается о том, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к иллюстрациям и проходит визуальный тест на IQ.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач — именно это является конечной целью OpenAI, ключевого партнёра Microsoft в сфере ИИ. Впрочем, Kosmos-1, похоже, является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Известно, что Microsoft тренировала Kosmos-1, используя информацию из глобальной сети. После обучения возможности системы были проверены с помощью серии тестов, включающих оценку понимания языка, генерации текстов, классификации текстов без оптического распознавания символов. Проверялась возможность описания изображений, ответов на «визуальные» вопросы и выполнения других задач. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Наибольший интерес представляет способность модели пройти тест британского психолога Джона К. Рейвена (John C. Raven), позволяющего измерить IQ, демонстрируя испытуемому последовательность форм с предложением продолжить её. Правда, пока Kosmos-1 может пройти тест Рейвена с точностью только 22‒26 %.

 Источник изображения: Microsoft

Источник изображения: Microsoft

В настоящий момент модель делает только первые шаги в сфере мультимодальной обработки данных, но нетрудно предположить, что дальнейшие улучшения позволят добиться намного более впечатляющих результатов, позволяя ИИ взаимодействовать с любыми формами информации, что невероятно расширит возможности цифровых ассистентов. В будущем учёные обещают масштабировать модель и добавить ей возможность вести беседы.

В Microsoft сообщили, что планируют сделать Kosmos-1 доступным сторонним разработчикам.


window-new
Soft
Hard
Тренды 🔥
Китайские хакеры взломали девять американских телекоммуникационных компаний 3 ч.
Данные 800 тысяч владельцев электромобилей Volkswagen оказались в открытом доступе 3 ч.
Роскомнадзор зарегистрировал более 49 тыс. каналов и страниц в соцсетях с аудиторией свыше 10 тыс. человек 13 ч.
Соучредителя Terraform Labs, из-за банкротства которой инвесторы потеряли более $40 млрд, экстрадируют в США 13 ч.
В Windows 11 появятся расширенные настройки камеры — с их помощью можно менять качество съёмки и частоту кадров 14 ч.
FTC подозревает Microsoft в монополизации госзаказов США 16 ч.
Дональд Трамп просит Верховный суд поставить на паузу действие закона, угрожающего запретом TikTok в США 17 ч.
Хакеры взломали ряд расширений для Chrome для кражи паролей и личных данных пользователей 21 ч.
«Взорвёт вам мозг»: энтузиасты показали трейлер мода, который добавит в Marvel's Spider-Man мультиплеер на 16 игроков 22 ч.
Разработчики Hades II раскрыли, когда выйдет второе крупное обновление, и чего ждать дальше 23 ч.
Пара виноградин вдвое усилила магнитное поле, и открыла путь к лучшим квантовым датчикам 3 ч.
В ремешках популярных смарт-часов нашли токсичную и опасную для здоровья химию 3 ч.
МТС распродала первую партию своих консолей для облачного гейминга всего за 14 часов 5 ч.
Китайские компании лидируют в гонке по снижению времени заряда электромобиля до пяти минут 6 ч.
В России заблокировали возможность использования IP-телефонии для звонков на мобильные и стационарные телефоны 7 ч.
Minisforum представила миниатюрные материнские платы с встроенными 16-ядерными Ryzen 9 8 ч.
Китай засекретил новые суперкомпьютеры и делает вид, что не развивается в этой сфере 8 ч.
Тяжёлая ракета New Glenn Blue Origin прожгла маршевые двигатели и допущена к первому запуску 8 ч.
Итальянская нефтегазовая компания Eni запустила суперкомпьютер HPC6 с производительностью 478 Пфлопс 9 ч.
Xiaomi создаст ИИ-кластер с 10 тыс. GPU 9 ч.