Сегодня 03 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → pdf

Mistral AI представила инструмент, который превратит любой PDF-документ в текстовый файл для ИИ

Французский разработчик больших языковых моделей (LLM) Mistral AI объявил о выпуске нового API, который предназначен для обработки сложных PDF-документов. Mistral OCR — это API оптического распознавания символов (OCR), с помощью которого любой PDF-документ можно превратить в текстовый файл, чтобы облегчить его обработку алгоритмами на основе искусственного интеллекта.

 Источник изображения: Scott Graham / Unsplash

Источник изображения: Scott Graham / Unsplash

Языковые модели, лежащие в основе популярных генеративных алгоритмов, таких как ChatGPT от OpenAI, особенно хорошо работают с необработанным текстом. Поэтому компании, которые намерены вводить собственные рабочие ИИ-процессы, знают о важности хранения и индексации данных в чистом формате, чтобы эту информацию можно было повторно использовать в процессе обработки ИИ-алгоритмами.

В отличие от многих API OCR, разработка Mistral представляет собой мультимодальный API, который способен распознавать не только текст, но также иллюстрации и фотографии, размещённые между текстовыми блоками. API OCR формирует ограничительные рамки вокруг обнаруженных графических элементов и включает их в вывод. В результате обработки PDF-документа с помощью Mistral OCR формируется отформатированный в Markdown текст, который ИИ-алгоритмы обрабатывают более эффективно.

 Источник изображения: Mistral

Источник изображения: Mistral

«С годами в организациях накапливается множество документов, часто в формате PDF или в виде слайдов, которые недоступны для обработки LLM, особенно для систем RAG [Retrieval-Augmented Generation — техника получения и использования данных в качестве контекста для генеративных ИИ-алгоритмов]. Благодаря Mistral OCR наши клиенты могут преобразовывать сложные документы в читаемый контент на всех языках. Это важнейший шаг на пути к широкому внедрению ассистентов с искусственным интеллектом в компаниях, которым необходимо упростить доступ к обширной внутренней документации», — считает соучредитель и научный руководитель Mistral Гийом Лэмпл (Guillaume Lample).

Mistral OCR доступен на собственной платформе компании, а также в инфраструктуре облачных партнёров Mistral, таких как AWS, Azure и др. Для компаний, которые работают с конфиденциальными или секретными данными, Mistral предлагает версию API для локального развёртывания. В компании заявили, что Mistral OCR работает лучше, чем аналогичные API от Google, Microsoft или OpenAI. Компания протестировала свой API на сложных PDF-документах, в том числе содержащих математические выражения, сложные макеты и таблицы.

Старшеклассник запустил Linux прямо внутри PDF-файла

Старшеклассник Аллен Динг (Allen Ding), который ранее отметился запуском классической стрелялки Doom в файле PDF, усовершенствовал свой проект и встроил в файл PDF возможность запуска Linux.

 Источник изображения: youtube.com/@vk6_

Источник изображения: youtube.com/@vk6_

Этот проект — переосмысление возможностей JavaScript при работе с PDF. Его исходный код доступен на странице разработчика на GitHub, а опробовать LinuxPDF можно по этому адресу — потребуется браузер на базе Chromuim, такой как Chrome, Edge или Opera. LinuxPDF работает в эмуляторе RISC-V на базе TinyEMU; внутренние механизмы проекта имеют много общего с DoomPDF за авторством того же разработчика. Управление системой производится при помощи виртуальной клавиатуры под главным экраном.

Формат PDF разрабатывался для вывода текста и изображений, но поддерживается и запуск кода JavaScript. Программа Adobe Acrobat включает полную спецификацию JavaScript, в том числе функции 3D-рендеринга, обнаружения монитора и HTTP-запросов. Запускаемые через браузеры PDF-файлы несколько ограничены в возможностях, но и их хватает для запуска игр и операционных систем.

Запущенная через PDF система Linux отличается катастрофически низкой производительностью — загрузка ядра занимает около минуты, и исправить это не получится, потому что в Chromium встроена версия движка V8 без поддержки JIT-компилятора. По умолчанию система 32-битная, но на GitHub можно сделать форк проекта и создать 64-битный вариант, который, однако, будет работать ещё медленнее.

Copilot в Microsoft Edge научился обрабатывать PDF-файлы, и это может стать причиной утечки данных

Microsoft стремится интегрировать максимальное количество ИИ-функций в свой веб-обозреватель. Новую порцию ИИ-улучшений получил и встроенный в Microsoft Edge инструмент для чтения документов PDF. ИИ-функция, добавленная в Copilot, сканирует документ, выделяя ключевые слова и фразы, а затем предоставляет пользователю дополнительную информацию. Обработка, вероятно, производится на серверах Microsoft, что может нарушить конфиденциальность.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Новый инструмент доступен при нажатии кнопки, появившейся рядом с существующей кнопкой «Спросить Copilot» в интерфейсе PDF-ридера. Она запускает сканирование всего PDF-документа для генерации соответствующих ключевых слов и фраз. Затем пользователь может выбрать любое из них, чтобы открыть боковую панель Copilot в браузере и получить больше контекста или информации, связанной с этим ключевым словом.

Содержимое PDF-файла, вероятно, обрабатывается и анализируется серверами Microsoft, что потенциально может привести к утечке конфиденциальной информации. Скорее всего, при обработке документов также будет производиться масштабный сбор данных для улучшения модели ИИ и изучения пользовательского опыта. Стоит дважды подумать, прежде чем использовать новую функцию для обработки документов с чувствительной информацией, например, налоговых форм или финансовых договоров.

Весьма вероятно, что в ближайшее время Microsoft расширит область применения новой ИИ-функции, добавив в список обрабатываемых файлов документы Word, электронные таблицы Excel и презентации PowerPoint.

Эта функция — лишь одна из нескольких возможностей на базе ИИ, которые были добавлены в Edge. Ранее обозреватель получил функцию интеллектуального поиска, которая обнаруживает связанные совпадения и слова, что упрощает поиск информации на странице. «Генератор тем» на базе ИИ преобразует текстовые подсказки в визуальные дизайны. ИИ даже научился автоматически присваивать названия группам вкладок для эффективного просмотра.

Сейчас, если судить по предварительной сборке Canary, Microsoft работает над улучшением способности ИИ в Edge предлагать пользователю сайты для просмотра. Точная природа и функциональность этих нововведений пока не известна, но, учитывая стремление Microsoft к массированному внедрению ИИ везде, где только можно, рано или поздно они появятся.

Google Chrome скоро научится преобразовывать PDF-файлы в текст для чтения их вслух

Google в скором времени обещает упростить взаимодействие с PDF-файлами для людей с плохим зрением. Компания добавляет в свой браузер Chrome технологию OCR (оптическое распознавание символов), которая будет преобразовывать PDF-файлы в текст, что сделает их более доступными, особенно для программ чтения с экрана. Видимо, имеются в виду PDF-файлы, в которых текст представлен в виде изображения. Инструмент также будет предоставлять текстовые описания изображений.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Google обещает, что функция преобразования PDF-файлов в текст станет доступна в «ближайшие месяцы». Компания также планирует расширить подобную функциональность за пределы Chrome в конце этого года, хотя и не сообщила, какие платформы могут получить обновление.

Нововведение от Google является частью более широкой образовательной инициативы, которая включает в себя лицензирование приложений для школьных Chromebook и бесплатный доступ к Adobe Express в США. Администраторы получат более жёсткий контроль над контентом, к которому учащиеся и преподаватели смогут получить доступ на своих Chromebook — они могут запретить учащимся копировать и вставлять текст с определённых сайтов, где используются генеративные инструменты искусственного интеллекта, которые могут помочь учащимся обмануть тесты. Также пользователям станет проще отключить камеру или микрофон независимо от того, где они находятся в Chrome OS.

Функция чтения PDF-файлов вслух в основном предназначена для образовательных заведений, где учащимся с проблемами зрения будет легче читать отсканированные учебные материалы или необходимые исследовательские статьи. Тем не менее, это также сделает интернет более доступным для широкой публики. Веб-сайты нередко помещают условия обслуживания или другую важную информацию в PDF-файлы без текстового слоя. Обновление сделает эту информацию доступной для большего числа пользователей.


window-new
Soft
Hard
Тренды 🔥
Спустя почти пять лет после дебюта на консолях The Last of Us Part II наконец вышла на ПК 20 мин.
ЕС оштрафует TikTok на €500 млн за передачу данных европейцев в Китай 2 ч.
40 кадров/с и «местами даже хорошая» графика за $70: первые подробности Cyberpunk 2077 для Nintendo Switch 2 3 ч.
Представлена ранняя ПК-версия российской ОС «Аврора» — на ней уже запускается Telegram и не только 3 ч.
«РТК ИТ Плюс» пополнила ИТ-экосистему «Лукоморье» тремя новыми продуктами 4 ч.
Microsoft подтвердила дату выхода GTA V в PC Game Pass — подписчики получат доступ к GTA V Enhanced 4 ч.
Новый контент в Elden Ring: Tarnished Edition для Nintendo Switch 2 появится и на других платформах 5 ч.
Лавкрафтианский хоррор Stygian: Outer Gods готовится к старту открытой «беты» — новый геймплейный трейлер 6 ч.
Nintendo создала гибридный эмулятор Switch, но работать он будет только на Switch 2 7 ч.
Новая статья: Обзор системы резервного копирования и восстановления данных «Кибер Бэкап Малый Бизнес» 9 ч.
Большой адронный коллайдер собрал базу для выхода за пределы известной физики 2 ч.
Восьмиядерные CPU стали самыми популярными в мире по статистике CPU-Z — AMD стремительно отбирает рынок у Intel и Nvidia 2 ч.
Apple потеряла $250 млрд стоимости за день — пошлины Трампа обвалили акции техногигантов 4 ч.
Nintendo Switch 2 получила поддержку трассировки лучей и DLSS, но их появление в играх зависит от разработчиков 4 ч.
Nikon представила полнокадровую камеру Z5 II с улучшенным автофокусом и повышенной скоростью съёмки за $1700 4 ч.
«Акустическое совершенство»: Bang & Olufsen представила каменную колонку Beosound Balance Natura 4 ч.
У россиян вырос интерес к планшетам — продажи подскочили на 15 % в первом квартале 5 ч.
Samsung выпустила 20-метровые телевизоры для кинотеатров Onyx 6 ч.
Intel переосмыслила свой главный слоган и обновила фирменный стиль, чтобы вернуть пользователей 6 ч.
Google готовится к аренде серверов на базе ускорителей NVIDIA у CoreWeave 7 ч.