Сегодня 19 сентября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → phi

Microsoft выпустила три новые ИИ-модели ИИ Phi-3.5 — они превосходят аналоги от Google и OpenAI

Компания Microsoft не стала почивать на лаврах своего партнёрства с OpenAI и выпустила три новые системы искусственного интеллекта, относящиеся к семейству Phi — языковые и мультимодальные модели.

 Источник изображения: VentureBeat / Midjourney

Источник изображения: VentureBeat / Midjourney

Три новых проекта линейки Phi 3.5 включают большую языковую модель базового варианта Phi-3.5-mini-instruct на 3,82 млрд параметров, мощную Phi-3.5-MoE-instruct на 41,9 млрд параметров, а также Phi-3.5-vision-instruct на 4,15 млрд параметров — она предназначена для анализа изображений и видео. Все три модели доступны под брендом Microsoft на платформе Hugging Face по лицензии MIT — их можно загружать, производить тонкую настройку, модифицировать и использовать в коммерческих целях без ограничений. В тестах они не уступают, а иногда и превосходят такие конкурирующие продукты как Google Gemini 1.5 Flash, Meta Llama 3.1 и даже OpenAI GPT-4o.

 Здесь и далее источник изображения: VentureBeat / Midjourney

Здесь и далее источник изображения: VentureBeat / Midjourney

Phi-3.5 Mini Instruct оптимизирована для окружений с ограниченными вычислительными ресурсами. Это облегчённая модель с 3,8 млрд параметров. Она предназначается для выполнения инструкций и поддерживает контекст длиной 128 тыс. токенов. Модель справляется с такими задачами как генерация кода, решение математических задач и логические рассуждения. Несмотря на свой компактный размер, Phi-3.5 Mini Instruct вполне конкурентоспособна в многоязычных и многооборотных языковых задачах. В тесте RepoQA, который используется для оценки «понимания длинного контекстного кода» она опережает, в частности, Llama-3.1-8B-instruct и Mistral-7B-instruct.

Phi-3.5 MoE (Mixture of Experts) объединяет несколько моделей различного типа, каждая из которых специализируется на собственной задаче. Архитектура модели характеризуется 42 млрд активных параметров и поддержкой контекста в 128 тыс., что позволяет применять её в требовательных приложениях — примечательно, что в документации Hugging Face говорится лишь о 6,6 млрд активных параметров. Phi-3.5 MoE демонстрирует достойные результаты в математике, генерации кода и понимании многоязычных запросов, зачастую превосходя более крупные модели в некоторых тестах, включая RepoQA; она также обошла GPT-4o mini в тесте MMLU (Massive Multitask Language Understanding) в области естественных и технических наук, а также гуманитарных и социальных дисциплин на разных уровнях знаний.

Phi-3.5 Vision Instruct объединяет возможности обработки текста и изображений. Она подходит для распознавания картинок и символов, анализа диаграмм и таблиц, а также составления сводок по видео. Vision Instruct, как и другие модели Phi-3.5, поддерживает длину контекста 128 тыс. токенов, что позволяет ей работать со сложными многокадровыми визуальными задачами. Система была обучена на синтетических и отфильтрованных общедоступных наборах данных с упором на высококачественные массивы информации с высокой плотностью рассуждений.

Phi-3.5 Mini Instruct обучалась на 3,4 трлн токенов с использованием 512 ускорителей Nvidia H100-80G в течение 10 дней; модель смешанной архитектуры Phi-3.5 MoE была обучена на 4,9 трлн токенов с использованием 512 единиц Nvidia H100-80G за 23 дня; для обучения Vision Instruct на 500 млрд токенов с использованием 256 ИИ-ускорителей Nvidia A100-80G потребовались 6 дней. Всё трио Phi-3 доступно по лицензии MIT — она позволяет разработчикам свободно использовать, изменять, объединять, публиковать, распространять, сублицензировать или продавать копии продуктов. Лицензия содержит отказ от ответственности: модели предоставляются «как есть» без каких-либо гарантий — Microsoft и другие обладатели авторских прав не несут ответственности за любые претензии, убытки и прочие обязательства, которые могут возникнуть при использовании моделей.

Intel ставит крест на Xeon Phi — поддержка Knights Mill и Knights Landing удалена из LLVM

После многих лет ожиданий и разочарований компания Intel удалила поддержку своих ускорителей Xeon Phi Knights Mill и Knights Landing из последней версии компилятора LLVM/Clang 19. Это фактически означает прекращение поддержки архитектуры MIC (Many Integrated Core), которая изначально разрабатывалась для суперкомпьютера Aurora экзафлопсного класса.

 Источник изображения: Intel

Источник изображения: Intel

Процессоры Knights Mill должны были значительно увеличить производительность Aurora, но проект столкнулся с многочисленными задержками и не достиг ожидаемых показателей. Это в конечном итоге привело к отмене первой версии Aurora. Позже Министерство энергетики США изменило архитектуру Aurora, добавив в нее процессоры Intel Sapphire Rapids и графические процессоры Intel Ponte Vecchio. Однако и эта версия столкнулась с проблемами производительности и задержками срока реализации, сообщает Tom's Hardware и Phoronix.

Cейчас эксафлопсный суперкомпьютер Aurora находится на пути к своему запуску и, возможно, даже в этом году. Но проблемы программного и аппаратного обеспечения, в том числе с системой охлаждения, не позволяют ему полностью раскрыть свой потенциал.

Решение Intel прекратить поддержку Xeon Phi в LLVM/Clang отражает общий тренд среди основных компиляторов. Ранее в этом году поддержка была помечена устаревшей в LLVM/Clang 18, а в GCC она была объявлена устаревшей в версии 14 и полностью удалена в версии 15.

Как заявила сама Intel, «удаление поддержки позволит сократить усилия по обслуживанию компилятора и упростит его дальнейшую разработку». Компания намерена сосредоточиться на специализированных решениях для искусственного интеллекта и высокопроизводительных вычислений, что, видимо, знаменует собой окончание долгого пути для продуктов линейки Xeon Phi, вдохновленных Larrabee, производство которых Intel официально прекратила еще в 2019 году.

Microsoft представила Phi-3 Mini — самую маленькую ИИ-модель, которую учили на «детских книгах»

Компания Microsoft представила следующую версию своей модели искусственного интеллекта Phi-3 Mini. Она стала первой из трёх небольших ИИ-моделей, которые софтверный гигант планирует выпустить в свет.

 Источник изображения: geralt/Pixabay

Источник изображения: geralt/Pixabay

Phi-3 Mini с 3,8 млрд параметров обучается на наборе данных, который меньше по сравнению с массивом, используемым для обучения больших языковых моделей (LLM), таких как GPT-4. В настоящее время Phi-3 Mini доступна на облачной платформе Azure, а также в Hugging Face и Ollama. В дополнение к этому Microsoft планирует выпустить ИИ-модели Phi-3 Small с 7 млрд параметров и Phi-3 Medium с 14 млрд параметров.

В декабре прошлого года Microsoft выпустила модель Phi-2, которая работала так же хорошо, как и более крупные модели, такие как Llama 2. По словам разработчиков, Phi-3 работает лучше предыдущей версии и может давать ответы, близкие к тем, что дают модели в 10 раз больше. Корпоративный вице-президент Microsoft Azure AI Platform Эрик Бойд (Eric Boyd) заявил, что Phi-3 Mini по своим возможностям не уступает таким LLM, как GPT-3.5, и выполнена «в меньшем форм-факторе».

По сравнению с более крупными аналогами, небольшие ИИ-модели обычно дешевле в эксплуатации и лучше работают на персональных устройствах, таких как смартфоны и ноутбуки. В начале этого года СМИ писали, что Microsoft создала отдельную команду для разработки именно небольших ИИ-моделей. Наряду с Phi компания также создала модель Orca-Math, которая ориентирована на решение математических задач.

Конкуренты Microsoft занимаются разработкой небольших ИИ-моделей, многие из которых нацелены на решение более простых задач, таких как обобщение документов или помощь в написании программного кода. К примеру, модели Gemma 2B и 7B от Anthropic могут обрабатывать большие научные статьи с графиками и быстро обобщать их, а недавно выпущенная модель Llama 3 от Meta может использоваться для создания чат-ботов и помощи в написании кода.

По словам Бойда, разработчики обучали Phi-3 по «учебному плану». Они вдохновлялись тем, как дети учатся на сказках, читаемых перед сном. Это книги с более простыми словами и структурами предложений, но в то же время зачастую в них поднимаются важные темы. Поскольку существующей литературы для детей при тренировке Phi-3 не хватало, разработчики взяли список из более чем 3000 тем и попросили большие языковые модели написать дополнительные «детские книги» специально для обучения Phi-3.

Бойд добавил, что Phi-3 просто развивает дальше то, чему обучились предыдущие итерации ИИ-модели. Если Phi-1 была ориентирована на кодирование, а Phi-2 начала учиться рассуждать, то Phi-3 ещё лучше справляется с кодированием и рассуждениями. Хотя модели семейства Phi-3 обладают некоторыми общими знаниями, они не могут превзойти GPT-4 или другие LLM по широте охвата.

Microsoft представила Phi-2 — революционную малую ИИ-модель с большим потенциалом

Microsoft представила передовую ИИ-модель Phi-2, насчитывающую 2,7 млрд параметров. Модель продемонстрировала превосходные результаты в широком спектре тестов, включая понимание языка, решение математических задач, программирование и обработку информации. Главной особенностью Phi-2 является её способность конкурировать, а зачастую и превосходить ИИ-модели, в 25 раз превышающие её по размеру. Новинка уже доступна через Microsoft Azure AI Studio для исследователей и разработчиков, желающих интегрировать передовой ИИ в свои приложения.

 Источник изображений: Microsoft

Источник изображений: Microsoft

Генеральный директор Microsoft Сатья Наделла (Satya Nadella), представил модель Phi-2 на мероприятии Ignite. Отличительной особенностью этой модели является её обучение на данных, соответствующих качеству учебного уровня. Это означает, что данные для обучения модели были тщательно отобраны и структурированы, что способствовало точности и эффективности обучения. Такой подход позволяет Phi-2 более эффективно переносить знания и толкования, полученные из других моделей, укрепляя её способности в областях понимания языка, логического мышления и обработки информации.

 Средняя производительность по сгруппированным бенчмаркам по сравнению с популярными открытыми SLMs

Средняя производительность по сгруппированным бенчмаркам по сравнению с популярными открытыми SLMs

Phi-2 меняет устоявшиеся представления о связи между размером и мощностью языковых моделей. Модель сравнима с большими ИИ-моделями, такими как 7B Mistral компании Mistral AI, 13B Llama 2 компании Meta и даже 70B Llama-2. Особое внимание заслуживает способность Phi-2 превосходить даже Gemini Nano компании Google, самую эффективную модель в серии Gemini, предназначенную для работы на мобильных устройствах. Это подчёркивает потенциал Phi-2 в области мобильных технологий, предоставляя функции автоматического резюмирования текстов, продвинутой корректуры и исправления грамматики, а также контекстуальных интеллектуальных ответов.

 Сравнение между Phi-2 и моделью Gemini Nano 2 на основе заявленных бенчмарков Gemini

Сравнение между Phi-2 и моделью Gemini Nano 2 на основе заявленных бенчмарков Gemini

Специалисты Microsoft подчёркивают, что высокая производительность модели Phi-2 достигнута без применения методов обучения с подкреплением (reinforcement learning), основанных на человеческой обратной связи, или методов инструкционной настройки (instructional tuning). Это позволяет модели эффективно минимизировать проявления предвзятости и снижать риск токсичных выходных данных, что делает Phi-2 одной из наиболее безопасных и этичных моделей в сфере ИИ.

 Безопасность оценена по 13 демографическим группам на основе ToxiGen. Подмножество из 6541 предложений выбрано и оценено в диапазоне от 0 до 1 на основе масштабированной перплексии и токсичности предложений. Более высокий балл указывает на меньшую вероятность генерации ИИ-моделью токсичных предложений по сравнению с безобидными

Безопасность оценена по 13 демографическим группам на основе ToxiGen. Подмножество из 6541 предложений выбрано и оценено в диапазоне от 0 до 1 на основе масштабированной перплексии и токсичности предложений. Более высокий балл указывает на меньшую вероятность генерации ИИ-моделью токсичных предложений по сравнению с безобидными

Phi-2 является частью серии малых языковых моделей (SLMs) компании Microsoft. Первая модель этой серии, Phi-1 с 1,3 млрд параметров, вышла ранее в этом году и была нацелена на задачи программирования на языке Python. В сентябре была представлена Phi-1.5 с аналогичным количеством параметров, но обученная на новых данных, включая синтетические тексты, созданные с помощью программирования на естественном языке.

 Сравнение между моделями Phi-2 и Phi-1.5. Все задачи оцениваются в режиме 0-shot, за исключением BBH и MMLU, для которых используется 3-shot CoT и 5-shot соответственно

Сравнение между моделями Phi-2 и Phi-1.5. Все задачи оцениваются в режиме 0-shot, за исключением BBH и MMLU, для которых используется 3-shot CoT и 5-shot соответственно

Phi-2 открывает новую главу в машинном обучении, где качество и эффективность обучения становятся ключевыми факторами. Эта ИИ-модель не только свидетельствует о значительных достижениях Microsoft в данной сфере, но и предоставляет новые возможности для разработчиков и исследователей по всему миру, открывая двери к более умным и безопасным технологиям будущего.

Rambus продала Cadence разработки в сфере PHY и SerDes и сосредоточится на контроллерах памяти

Cadence заключила соглашение о покупке у Rambus портфеля интеллектуальной собственности, связанной с решениями PHY и SerDes. Покупатель получит комплект технологических решений, а продавец сосредоточится только на лицензировании.

 Источник изображения: rambus.com

Источник изображения: rambus.com

Исторически Rambus была разработчиком технологий памяти, в том числе RDRAM и XDR DRAM — в какой-то момент компания получила патенты на фундаментальные технологии, необходимые для производства SDRAM, DDR SDRAM и их преемников. Это позволило разработчику судиться с любыми производителями памяти и разработчиками контроллеров памяти, включая AMD и NVIDIA, вынуждая их платить лицензионные сборы.

Со временем Rambus начала лицензировать контроллеры памяти и PHY — компания превратилась в «универмаг» для разработчиков чипов, которым необходимы готовые решения в области памяти, PCIe или MIPI. Сегодня покупателям предлагаются одни из лучших в отрасли контроллеров памяти и проверенные временем интерфейсы. Rambus сохранит за собой направление контроллеров памяти и всё, что связано с логикой, но передаст Cadence активы в области PHY и SerDes.

Это решение можно объяснить. Сохранение этих активов вынуждает Rambus инвестировать в разработки решений для новейших техпроцессов, что требует значительных вложений и чревато рисками, поскольку приходится конкурировать с более крупными и богатыми Cadence и Synopsys — проще закрепиться в роли поставщика контроллеров памяти и PHY. А без необходимости обновлять интеллектуальные активы компания может сосредоточиться на лицензировании чистых технологических решений.

Ожидается, что влияние сделки на выручку и прибыль обеих сторон по итогам этого года будет незначительным; её предполагаемый срок закрытия — III квартал 2023 года.


window-new
Soft
Hard
Тренды 🔥
YouTube запускает кнопку «Хайп» — она поможет быстро раскрутиться малоизвестным авторам 18 мин.
Microsoft Store станет быстрее «в ближайшем будущем» 38 мин.
Nintendo и The Pokemon Company подали в суд на создателей Palworld — «покемоны с пушками» нарушают сразу несколько патентных прав 2 ч.
Microsoft начнёт широко распространять Windows 11 24H2 в октябре 2 ч.
В русскоязычной «Википедии» стало более 2 миллионов статей 2 ч.
Уязвимость PKfail в Secure Boot оказалась более распространённой, чем ожидалось 5 ч.
В iOS 18 обнаружена ошибка, приводящая к постоянным сбоям приложения «Сообщения» 8 ч.
Clock Tower: Rewind нагонит страх на игроков к Хэллоуину — дата выхода улучшенной версии классического хоррора 29-летней давности 12 ч.
Блогеры на YouTube смогут группировать ролики по сезонам — так их будет удобней смотреть на телевизорах 12 ч.
Хакеры атаковали «Доктор Веб» — компания отключила серверы и приостановила обновление вирусных баз 12 ч.
Обнаружены крупнейшие в истории наблюдений джеты от чёрных дыр — они в 140 раз больше нашей галактики 24 мин.
Intel вывела производство чипов в отдельную компанию для привлечения клиентов 3 ч.
Waymo может поручить выпуск роботакси корейской компании Hyundai Motor 3 ч.
Европейский план «кремниевого суверенитета» терпит крах из-за поменявшихся планов Intel 5 ч.
Китайская флеш-память YMTC теряет слои: из-за санкций компании пришлось перейти с 232-слойной памяти к 160-слойной 6 ч.
Кластер на столе: Mini-ITX плата Turing Pi 2.5 объединяет до четырёх одноплатных компьютеров 12 ч.
Норвегия стала первой в мире страной, в которой электромобилей стало больше, чем машин на бензине 14 ч.
Asus выпустила GeForce RTX 4070 Ti Super Prime на графическом чипе от GeForce RTX 4090 14 ч.
3Logic Group создал системного интегратора «Берегит» 16 ч.
Fractal Design представила компактный корпус Era 2 формата SFF с верхней панелью из ореха 16 ч.