Утечка исходников Яндекса

ciso_on_fire

26.01.2023

25 января 2023 в сети появились исходные коды и сопутствующие им данные множества сервисов и программ компании Яндекс. Раздача содержит отдельные архивы (.tar.bz2), по названиям которых можно идентифицировать соответствующие сервисы Яндекса. Общий объем архивов (в сжатом виде) составляет более 44.7 ГБ.

Утекли исходники почти всех продуктов. Там есть и Почта, и Такси, и Диск, и Алиса. Врядли эти исходники кто-то сможет использовать напрямую, этого точно не стоит бояться. Пользовательских данных, в первом приближении, там нет. В том смысле, что это именно исходники, конфигурации, но не базы данных.

Часто утечка исходников сильно вредит безопасности продукта, потому что там бывают захардкоженные секреты и простые уязвимости. На первый взгляд, здесь этого тоже нет, по крайней мере в сравнении с масштабом утечки. Секреты не хранятся в коде напрямую, а подтягиваются откуда-то еще - это очень правильно, так и нужно всегда делать.
Очень много самописных внутренних инструментов, много документации. Интересно для изучения, чтобы понимать, как работают большие компании и их ИТ-инфраструктура. Кажется, что в Яндексе есть сильный перевес в пользу "напишем сами" даже тогда, когда другие компании обошлись бы опенсорсом.
Конечно, интересен репозиторий security. Там тоже внутренние инструменты, всевозможные сканеры, разбиралки тикетов, все на достаточно продвинутом уровне.
Яндекс массово использует Telegram в качестве рабочего мессенджера. В файлах есть куча ссылок на чатики в телеграме, по которым можно было прийти и вступить. Сразу после новости о сливе большую часть из них подчистили, но не все. Использование Telegram - большая проблема и боль для безопасности. Правильный выход - это конечно использование корпоративного мессенджера с полным запретом личных. Но у них тоже есть недостатки, телеграм просто очень удобный. В Яндексе используют специального телеграм-бота, которого добавляют в чатики и он следит, чтобы там не было чужаков. Но понятно, что работает это только в тех чатиках, куда бота не забыли добавить.

В репозитории Алисы тоже много интересного. Именно самой говорящей модели Алисы вроде нет, но есть много разных скриптов для ее обучения, фрагментов обучающих данных и т.п. Есть выборки реальных (анонимных) запросов пользователей к Алисе, очень интересные. На скриншоте фрагмент файла с реальными призывами к Алисе замолчать. Его можно растащить на мемы буквально целиком, В репозитории Почты есть код, который занимается разметкой данных из писем. В том числе анализируются письма с подписками на разные онлайн-сервисы, письма с чеками. Зачем именно - неясно, возможно Яндекс так мониторит конкурентов по рынку?
Подход с "монорепой", когда весь код большой компании лежит в одном большом репозитории имеет и свои плюсы и минусы. Когда много сотрудников имеют доступ сразу ко всему - с одной стороны это очень удобно, а с другой, утечка становится вопросом времени. Надо быть к ней готовыми.
Данных очень много, это все еще только предстоит изучать. Что делать Яндексу? Да ничего, выпустить пресс-релиз, что исходники старые, данные пользователей в безопасности, взлома не было, виноват инсайдер. Ну и старательно найти и инвалидировать все секреты.
Можно еще сделать красивый жест, выложить официально в опенсорс часть внутренних инструментов и библиотек. Хуже уже точно не будет, а лучше будет.

Утечка исходников Яндекса

Новости из связанных рубрик

Информационная безопасность

Отрасль подписала стандарт защиты данных

В России на 30% вырос спрос на ИБ-специалистов, умеющих работать с искусственным интеллектом

Особо значимые проекты пойдут на экспорт

Претендующие на гранты ИТ-проекты должны обладать экспортным потенциалом

Использование ЦФА в международных расчетах станет законным осенью 2024 г.

Отрасль подписала стандарт защиты данных

"ПИК-Комфорт" внедрила голосового помощника

"Детский мир" переходит на систему управления распродажами на базе ИИ

ОДК подключит 600 станков к промышленному интернету вещей в 2024 году

"Ростех" разработал разведывательный комплекс с интеллектуальной видеоаналитикой для поиска объектов

"Авантелеком" запустил коробочное решение для медучреждений

ПРОТЕЙ-ВКС — системы для металлургической отрасли

ЭАД: от хаоса к цифровому комфорту

АРПП "Отечественный софт" - 15 лет за плечами

Экономика данных: что она дает промышленным предприятиям

Корпоративные стартап-программы заместили классический венчур

Президентская академия перевела 250 000 сотрудников и студентов на российское ПО

Выручка КИФА выросла на 75%, компания является прибыльной уже четвертый год подряд

В России на 30% вырос спрос на ИБ-специалистов, умеющих работать с искусственным интеллектом

Первая гидравлическая компания использует виртуальные ресурсы для быстрого охвата рынка

Компания "Мосты и тоннели" завершила внедрение СЭД

Момент истины: импортозамещение "под нагрузкой"

Naumen Contact Center — российская платформа контакт-центра enterprise-уровня для миграции с иностранных решений

Президентская академия перевела 250 000 сотрудников и студентов на российское ПО