У «Яндекса» украли и опубликовали 45 Гбайт исходных кодов — в компании взлом отрицают

В Сети появились архивы с исходными кодами проектов «Яндекса». В компании признали их подлинность — материалы действительно были похищены из внутреннего репозитория, — но отвергли предположения, что это произошло в результате взлома.

Источник изображения: yandex.ru/company

Общий объём опубликованных злоумышленниками архивов (.tar.bz2) составил более 44,7 Гбайт — хакеры утверждают, что им удалось получить доступ к исходным кодам проектов «Яндекса» за исключением правил антиспама. Произошло это, по версии похитителей данных, в июле 2022 года. В архивах представлены материалы на языках Python, C++, Go и TypeScript, а также методы работы с данными Protocol Buffers, YAML и JSON, говорится в публикации на «Хабре». К странным особенностям информации в архивах относятся большое количество вспомогательного кода на Python 2.7 и единая дата всех файлов и папок — «2022-02-24», что расходится с заявлениями хакеров.

Представители «Яндекса» признали подлинность опубликованных материалов, но заявили, что взлома не было: «Служба безопасности "Яндекса" обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. Однако, их содержимое отличается от текущей версии репозитория, которая используется в сервисах "Яндекса"».

В компании также подчеркнули, что репозитории не предназначены для хранения персональных данных пользователей, так что угрозы им нет, но всё же проводят по факту инцидента расследование: «Мы проводим внутреннее расследование о причинах попадания фрагментов исходного кода в открытый доступ, но не видим какой-либо угрозы для данных наших пользователей или работоспособности платформы». Знакомый с ситуацией источник сообщил, что исходные коды проектов «Яндекса» попали в Сеть по вине одного из сотрудников.

Стоит отметить, что утекшие исходные коды в большей степени интересны для изучения, но напрямую использовать и запустить на их основе «собственный «Яндекс» вряд ли получится. Здесь задействовано множество специфичных решений, в том числе заточенных под инфраструктуру самого «Яндекса». А для ИИ-проектов нет самого главного — натренированных нейросетей и набора данных для обучения тоже нет.