Сегодня 04 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

 Структура датасета ruGPT-3.5. Источник изображения: habr.com

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Визг шин, рёв двигателей и атмосфера 90-х: гоночная игра #Drive Rally устремилась к выходу из раннего доступа 2 ч.
«Буду плакать слезами счастья»: датамайнеры Apex Legends заявили, что Titanfall 3 жива и выйдет в 2026 году 4 ч.
ИИ впервые стал студентом вуза — Венский университет прикладного искусства зачислил систему Flynn 4 ч.
Бенчмарк MLPerf показал, что ускорители AMD Instinct не уступают NVIDIA H200 4 ч.
Россия заняла четвёртое место по размеру аудитории в Kingdom Come: Deliverance 2, хотя игра в стране даже не продаётся 5 ч.
Трамп заявил, что сделка с TikTok близка к заключению, и тарифы могут пригодиться в переговорах с Китаем 8 ч.
Amazon добавила ИИ-функцию кратких обзоров книг Kindle, но предупредила о спойлерах 10 ч.
Инвесторы потребовали от Ubisoft пересмотреть условия сделки с Tencent и готовы добиваться своего через суд 16 ч.
Microsoft запустила собственный ИИ-поисковик Copilot Search 16 ч.
Спустя почти пять лет после дебюта на консолях The Last of Us Part II наконец вышла на ПК 16 ч.
Российские операторы получат низкие частоты для 5G не раньше 2029 года — сейчас диапазон занят телевещателями 3 мин.
Рост российского рынка IT встал на паузу — заказчики ждут возвращения зарубежных разработчиков 50 мин.
G.Skill представила самые быстрые в мире 64-Гбайт модули памяти для ПК 54 мин.
Учёные разработали техпроцесс для массового производства перовскитных солнечных панелей на Луне 60 мин.
Многие контрактные производители электроники не знают, где им строить фабрики после введения новых тарифов США 2 ч.
Parasail привлекла $10 млн стартового капитала и выступила «агрегатором ускорителей» с парком чипов больше, чем у Oracle 2 ч.
У российских производителей электроники простаивает половина цехов из-за бурного роста дешёвого контрактного производства 3 ч.
Богатейшие люди мира за день потеряли $208 млрд из-за новых пошлин США 3 ч.
Cyclotech начала тесты проворного летающего автомобиля с роторными «бочонками» вместо пропеллеров 3 ч.
NVIDIA может переключиться на выполнение заказов только из Китая в преддверии усиления санкций США 3 ч.