Сегодня 20 сентября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google представила компактную языковую модель Gemma 2 2B, которая превосходит GPT 3.5 Turbo

Компания Google представила Gemma 2 2B — компактную, но мощную языковую модель искусственного интеллекта (LLM), которая может составить конкуренцию лидерам отрасли, несмотря на свой значительно меньший размер. Новая языковая модель, содержащая всего 2,6 миллиарда параметров, демонстрирует производительность не хуже гораздо более крупных аналогов, включая OpenAI GPT-3.5 и Mistral AI Mixtral 8x7B.

 Источник изображений: Google

Источник изображений: Google

В тесте LMSYS Chatbot Arena, популярной онлайн-платформы для сравнительного тестирования и оценки качества моделей искусственного интеллекта, Gemma 2 2B набрала 1130 баллов. Этот результат немного опережает результаты GPT-3.5-Turbo-0613 (1117 баллов) и Mixtral-8x7B (1114 баллов) — моделей, обладающих в десять раз большим количеством параметров.

Google сообщает, что Gemma 2 2B также набрала 56,1 балла в тесте MMLU (Massive Multitask Language Understanding) и 36,6 балла в тесте MBPP (Mostly Basic Python Programming), что является значительным улучшением по сравнению с предыдущей версией.

Gemma 2 2B бросает вызов общепринятому мнению, что более крупные языковые модели изначально работают лучше компактных. Производительность Gemma 2 2B показывает, что сложные методы обучения, эффективность архитектуры и высококачественные наборы данных могут компенсировать недостаток в числе параметров. Разработка Gemma 2 2B также подчеркивает растущую важность методов сжатия и дистилляции моделей ИИ. Возможность эффективно компилировать информацию из более крупных моделей в более мелкие открывает возможности к созданию более доступных инструментов ИИ, при этом не жертвуя их производительностью.

Google обучила Gemma 2 2B на огромном наборе данных из 2 триллионов токенов, используя системы на базе своих фирменных ИИ-ускорителей TPU v5e. Поддержка нескольких языков расширяют её потенциал для применения в глобальных приложениях. Модель Gemma 2 2B имеет открытый исходный код. Исследователи и разработчики могут получить доступ к модели через платформу Hugging Face. Она также поддерживает различные фреймворки, включая PyTorch и TensorFlow.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Apple Intelligence стал доступен обычным пользователям в свежих бета-версиях iOS 18.1, iPadOS 18.1 и macOS Sequoia 15.1 9 мин.
Netflix впечатлила фанатов новым отрывком из второго сезона «Аркейн» и наконец раскрыла дату релиза шоу 28 мин.
Регулирование ЕС в технологической сфере угрожает подавить бум ИИ 3 ч.
Социальные сети собирают больше личной информации пользователей, чем заявляют, выяснил регулятор США 4 ч.
В YouTube появится ещё больше рекламы — её будут показывать при постановке видео на паузу 6 ч.
Amazon запустила собственный ИИ-генератор видео — он будет создавать рекламу 10 ч.
По мотивам романа Ника Перумова «Алмазный меч, деревянный меч» выйдет «высокобюджетная» приключенческая игра 12 ч.
Microsoft: массового развёртывания Windows 11 24H2 в октябре не будет 13 ч.
Google вводит кроссплатформенную синхронизацию ключей доступа с помощью PIN-кодов 13 ч.
«Кинопоиск» анонсировал экранизацию Atomic Heart — первые подробности 13 ч.
Раскрыта ёмкость аккумуляторов смартфонов iPhone 16 — прирост на 5,5–9,4 % по сравнению с прошлым поколением 2 мин.
Акции техногигантов подскочили после снижения ставки ФРС США — больше других прибавила Tesla 10 мин.
NASA собрало ядро космического телескопа «Нэнси Грейс Роман» — задержек с запуском не предвидится 21 мин.
Logitech представила алюминиевую мышь G502 X Plus AL Edition, но продавать её не будет 31 мин.
Контрактное производство чипов в следующем году вырастет на 20 % в денежном выражении 2 ч.
В iKS-Consulting назвали основные тренды российского рынка ЦОД 2 ч.
Астрономы в панике: свежие спутники Starlink создают в 32 раз больше помех радиотелескопам, чем старые 2 ч.
Основанный выходцем из Intel стартап Ampere Computing ищет новых владельцев 4 ч.
SpaceX пожаловалась Конгрессу США на FAA: регулятор ужасно контролирует запуски ракет 4 ч.
Ampere отказалась от IPO и может быть продана крупному игроку отрасли 11 ч.