Сегодня 19 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Сфера ИИ заинтересовалась малыми языковыми моделями — они дешевле и эффективнее больших в конкретных задачах

На рынке ИИ сейчас наблюдается тренд на использование малых языковых моделей (SLM), которые имеют меньше параметров, чем большие языковые модели (LLM), и лучше подходят для более узкого круга задач, пишет журнал Wired.

 Источник изображения: Luke Jones/unsplash.com

Источник изображения: Luke Jones/unsplash.com

Новейшие версии LLM компаний OpenAI, Meta и DeepSeek имеют сотни миллиардов параметров, благодаря чему могут лучше определять закономерности и связи, что делает их более мощными и точными. Однако их обучение и использование требуют огромных вычислительных и финансовых ресурсов. Например, обучение модели Gemini 1.0 Ultra обошлось Google в 191 миллион долларов. По данным Института исследований электроэнергетики, выполнение одного запроса в ChatGPT требует примерно в 10 раз больше энергии, чем один поиск в Google.

IBM, Google, Microsoft и OpenAI недавно выпустили SLM, имеющие всего несколько миллиардов параметров. Их нельзя использовать в качестве универсальных инструментов, как LLM, но они отлично справляются с более узко определёнными задачами, такими как подведение итогов разговоров, ответы на вопросы пациентов в качестве чат-бота по вопросам здравоохранения и сбор данных на интеллектуальных устройствах. «Они также могут работать на ноутбуке или мобильном телефоне, а не в огромном ЦОД», — отметил Зико Колтер (Zico Kolter), учёный-компьютерщик из Университета Карнеги — Меллона.

Для обучения малых моделей исследователи используют несколько методов, например дистилляцию знаний, при которой LLM генерирует высококачественный набор данных, передавая знания SLM, как учитель даёт уроки ученику. Также малые модели создаются из больших путём «обрезки» — удаления ненужных или неэффективных частей нейронной сети.

Поскольку у SLM меньше параметров, чем у больших моделей, их рассуждения могут быть более прозрачными. Небольшая целевая модель будет работать так же хорошо, как большая, при выполнении конкретных задач, но её будет проще разрабатывать и обучать. «Эти эффективные модели могут сэкономить деньги, время и вычислительные ресурсы», — сообщил Лешем Чошен (Leshem Choshen), научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: South of Midnight — соткана по лекалам. Рецензия 2 ч.
Спустя восемь лет «беты» Escape from Tarkov взяла курс на версию 1.0 — план обновлений игры на 2025 год 4 ч.
ChatGPT научился использовать воспоминания о пользователе для персонализации веб-поиска 5 ч.
Создатели следующей Battlefield рассказали о новом «языке разрушения» и показали его в деле 6 ч.
Глава Microsoft Gaming Фил Спенсер намекнул на продолжение Indiana Jones and the Great Circle 7 ч.
Разработчики Everspace 2 решили снизить цену на дополнение Wrath of the Ancients, потому что «вокруг дорожает буквально всё» 8 ч.
Google обжалует «неблагоприятное» решение суда о признании её монополистом в интернет-рекламе 8 ч.
84 % россиян выходят в интернет каждый день, подсчитал Mediascope 9 ч.
Cloud.ru представил первый в России управляемый облачный сервис для инференса ИИ-моделей — Evolution ML Inference 11 ч.
Автор Loretta раскрыл дату выхода новой игры — хоррор-стратегии Anoxia Station про погоню за нефтью в недрах умирающей Земли 13 ч.
Western Digital начала добывать редкоземельные и драгоценные металлы из жёстких дисков 5 ч.
HP отделалась выплатой $4 млн по иску о завышенных ценах и фиктивных скидках 8 ч.
Xiaomi представила компактный домашний проектор Redmi 3 Lite за $100 8 ч.
Nintendo Switch 2 избежала подорожания, несмотря на новые пошлины США — аксессуары тем же похвастаться не могут 8 ч.
Western Digital запустила в США масштабную программу извлечения редкоземельных элементов из HDD — уже переработано почти 23 т дисков Microsoft 9 ч.
Физики обнаружили аномальный эффект Холла в неожиданном месте 10 ч.
Из-за политики США европейские пользователи задумались об уходе из американских облаков 11 ч.
Продажи российского электромобиля Lada e-Largus выросли до одного экземпляра в первом квартале 11 ч.
Intel расследует падение производительности видеокарт Arc при работе со старыми CPU 11 ч.
Китайская EHang пообещала запустить сервис летающих такси по разумной цене до конца года 12 ч.