«Яндекс» разрабатывает нейросеть SpeechGPT для задач на стыке текста и звука, но она вряд ли дотянет до уровня ChatGPT

«Яндекс» занимается разработкой новой нейросетевой модели SpeechGPT и для этого нанимает в свою команду специалиста в области машинного обучения, пишет «Коммерсантъ» со ссылкой на раздел вакансий компании. Согласно описанию вакансии, новая модель «умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука», то есть, относится к категории мультимодальных ИИ-систем.

Источник изображения: geralt/Pixabay

В «Яндексе» не стали отвечать на вопрос о модели SpeechGPT, пояснив, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах.

Как полагает эксперт в области ИИ и продвинутой аналитики компании Axenix Владимир Кравцев, MVP (минимально жизнеспособный продукт) SpeechGPT, вероятно, появится в ближайшие месяцы, «дальше пойдёт процесс непрерывных улучшений». По его мнению, SpeechGPT прежде всего будут встраивать в «уже существующие сервисы, связанные с каналами коммуникации с клиентами, партнёрами “Яндекса”, то есть, будет происходить постепенная замена текущих более простых моделей на современные».

Директор по продукту Hybrid Светлана Другова считает, что новая модель «Яндекса» вряд ли будет сопоставима по возможностям с мультимодальными моделями Google семейства Gemini или OpenAI, поскольку на создание подобных им требуются миллиарды долларов. Тем не менее, с учётом того, что у «“Яндекса” уже есть наработки, затраты будут несколько меньше», говорит она.