• XSS.stack #1 – первый литературный журнал от юзеров форума

Утечка исходных кодов сервисов Яндекс

Rehub

LARVA-466
Забанен
Регистрация
01.11.2020
Сообщения
3 957
Решения
1
Реакции
3 544
Пожалуйста, обратите внимание, что пользователь заблокирован
25 января 2023 в сети появились исходные коды и сопутствующие им данные множества сервисов и программ компании Яндекс. Раздача содержит отдельные архивы (.tar.bz2), по названиям которых можно идентифицировать соответствующие сервисы Яндекса.
Общий объём архивов (в сжатом виде) составляет более 44.7 ГБ.

26 января 2023 «Яндекс» подтвердил Хабру публикацию исходных кодов части проектов из внутреннего репозитория.

Ранее, в 2022 году, в свободном доступе были выложены архивы сервиса «Яндекс.Еда» с данными заказов клиентов.

Краткая статистика

ТОП-5 самых больших архивов

Название архива
Размер
frontend
18.26 ГБ
classfields
4.67 ГБ
market
4.00 ГБ
taxi
3.30 ГБ
portal
2.35 ГБ

ТОП-35 забавных названий

Огласите весь список!
Сначала был ТОП-5 забавных названий папок и модулей. По мере изучения исходников, возник уже ТОП-10, потом ТОП-20 и ТОП-30, но… в какой-то момент остроумие авторов несколько утомило и я перестал фиксировать названия, которые уже не казались такими забавными.

  1. nirvana
  2. skynet
  3. samogon
  4. testopithecus
  5. scrooge (Скрудж, разумеется, часть payplatform)
  6. emily (видимо, конкурентка alice)
  7. dolbilka
  8. matrixnet
  9. spaniel
  10. collie
  11. begemot
  12. beholder
  13. catmachine
  14. tractor
  15. cocaine
  16. tikaite
  17. libblackbox2
  18. mystery-mailer
  19. ciao
  20. morty
  21. plutonium
  22. jurassic
  23. shiftinator
  24. perforator
  25. woland
  26. iconostasis
  27. priemka
  28. pumpkin
  29. zephyr
  30. panther
  31. bert
  32. hamster
  33. whitespirit / darkspirit
  34. oops
  35. razladki_suggest

Языки программирования и описания данных

  • Python
  • C++
  • Go
  • TypeScript
  • Protocol Buffers
  • Yaml, JSON etc

Список папок

Общее количество папок: 83

Полный список папок

  1. aapi
  2. admins
  3. ads
  4. alice
  5. analytics
  6. antiadblock
  7. antirobot
  8. autocheck
  9. balancer
  10. billing
  11. bindings
  12. captcha
  13. cdn
  14. certs
  15. ci
  16. classifieds
  17. client_analytics
  18. client_method
  19. cloud
  20. commerce
  21. config
  22. connect
  23. crm
  24. crypta
  25. customer_service
  26. datacloud
  27. delivery
  28. direct
  29. disk
  30. docs
  31. drive
  32. extsearch
  33. frontend
  34. fuzzing
  35. gencfg
  36. groups
  37. helpdesk
  38. infra
  39. intranet
  40. investors
  41. it-office
  42. jupytercloud
  43. kernel
  44. library
  45. load
  46. mail
  47. maps
  48. maps_2
  49. maps_adv
  50. market
  51. metrika
  52. mobile-WARNING-notfull
  53. nginx
  54. noc
  55. partner
  56. passport
  57. pay
  58. payplatform
  59. paysys
  60. portal
  61. privacy_office
  62. products
  63. robot
  64. rt-research
  65. saas
  66. sandbox
  67. search
  68. security
  69. skynet
  70. smart_devices
  71. smarttv
  72. solomon
  73. stocks
  74. switch
  75. tasklet
  76. taxi
  77. tools
  78. travel
  79. wmconsole
  80. yandex360
  81. yandex_io
  82. yaphone
  83. yawe

Странные особенности

Даты файлов
  • Единая дата всех файлов и папок во всех архивах
  • Дата всех файлов: 2022-02-24

Версии Python

  • Относительное большое количество вспомогательного кода на Python 2.7

Source: habr.com/ru/news/t/712888
 
Пожалуйста, обратите внимание, что пользователь заблокирован

«Яндекс» подтвердил публикацию старых исходных кодов части проектов из внутреннего репозитория


wlu66iycuuphh3y75djdi0j3dlc.jpeg


«Яндекс» подтвердил Хабру публикацию старых исходных кодов части проектов из внутреннего репозитория. Хакеры выложили архив в открытый доступ и утверждают, что в июле 2022 года скачали исходные коды проектов компании, кроме правил антиспама.

«Никакого взлома Яндекса не было. Служба безопасности Яндекса обнаружила в открытом доступе фрагменты кода из внутреннего репозитория. Однако их содержимое отличается от текущей версии репозитория, которая используется в сервисах Яндекса.

Репозиторий – это один из инструментов для разработки внутри большинства компаний, который доступен их разработчикам. Репозитории нужны для работы с кодом и не предназначены для хранения персональных данных пользователей. Мы проводим внутреннее расследование о причинах попадания фрагментов исходного кода в открытый доступ, но не видим какой-либо угрозы для данных наших пользователей или работоспособности платформы»,

— сообщили Хабру в пресс-службе компании.
В «Яндекс» не увидели какой-либо угрозы для данных пользователей или работоспособности платформы после утечки исходного кода из внутреннего репозитория компании. Источник из «Яндекса» пояснил Хабру, что фрагменты исходного кода попали в открытый доступ по вине одного из сотрудников компании.

26 января 2023 в сети появились исходные коды и сопутствующие им данные множества сервисов и программ компании «Яндекс». Раздача содержит отдельные архивы (.tar.bz2), по названиям которых можно идентифицировать соответствующие сервисы «Яндекса». Общий объём архивов (в сжатом виде) составляет более 44,7 ГБ.

swc2ggnfnhm8etvca_yge-zauls.png

ie81o8x408izdlllztqbh2nnaq8.png

nsybqazsff520q8jwvnu1uv8xzk.png


Разработчик Арсений Шестаков пояснил, что в архиве есть только содержимое репозиториев git, персональные данные отсутствуют. Там несколько ключей API, но они, скорее всего, использовались только для тестового развёртывания. Некоторые из архивов содержат исходный код для части сервисов компании, а также документацию, указывающую на реальные URL-адреса интрасети.
 
Код:
magnet:?xt=urn:btih:7e0ac90b489baee8a823381792ec67d465488fef&dn=yandexarc&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80%2Fannounce&tr=udp%3A%2F%2F9.rarbg.to%3A2920&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fexodus.desync.com%3A6969&tr=udp%3A%2F%2Fbt1.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fbt2.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce
 
Вообще для код ревью интересно поглазеть - благодарю за ссылку. Мне мозгов не хватило, как применить это. Но интересно посмотреть что-то связанное с яндекс.картами - отзывами для мест/компаний - корректировкой рекламной выдачи и т.д. Для маркетологов, сео и ррс специалистов такое бы пригодилось.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Бывший директор по технология яндекса, он же бобук:
Новость вчерашняя, но я вежливый и не стал писать, пока все не стало публичным.
В общем, кто-то очень недобрый выложил в открытый доступ полное дерево исходных текстов всех сервисов из
репозиториия Яндекса. Там и поиск, и Алиса, и даже Такси есть (по ссылке обзор контента).

Важно понимать: по сути это довольно бесполезно, подходит для изучения кода, но запустить из этого свой яндекс не выйдет.
Во-первых, попробуйте хоть что-то оттуда собрать, это очень неочевидно и часто требует внутренней инфраструктуры Яндекса.
Во-вторых, для ИИ-проектов нет самого главного — натренированных весов, т.е. модель, которая у вас получится после сборки, просто не обучена.
Датасета для обучения тоже нет.

Это безусловно не взлом, а слив кого-то из сотрудников.
И код не свежий, это срез репозитория на символическую дату 24 февраля прошлого года.

Тем не менее, 40+ гигабайт сорцов — прецедент серьезный и явно политический.
И даже не спросишь «а что случилось».
 
а никто не перезаливал эти архивы по отдельности? мне очень интересно глянуть пару проектов, но выкачивать 40+ гигов в лом ))
детский сад на проводе ?
там ясно видно что проекты все по отдельным архивам
каждый в торренте качается отдельно
 
Там инфа, которая была доступна в режиме read-only для всех кодеров компании.
Копировалось одной командой.
Как и сказали выше - практической пользы для обывателя чуть больше нуля.
 
Боюсь что эта история будет иметь продолжение, ибо искать дыры с сорцами намного проще, а все большие корпы слишком неповоротливые в апдейтах работающего ПО.
 
Там инфа, которая была доступна в режиме read-only для всех кодеров компании.
Копировалось одной командой.
Как и сказали выше - практической пользы для обывателя чуть больше нуля.
Возможно, для СЕО будет полезно.
Как-то Яндекс уже обсирался и отдавал в xml-фиде вес сайта в виде числа. Около полугода специалисты это юзали и польза была огромной. Можно было оценить влияние каждого действия на увеличение или уменьшение веса сайта.
Потом кто-то спалил тему в Яндекс и ее прикрыли.
Уверен, технические специалисты сео-контор уже разбирают "формулу выдачи", чтобы представить основные факторы ранжирования маркетологам.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Боюсь что эта история будет иметь продолжение, ибо искать дыры с сорцами намного проще, а все большие корпы слишком неповоротливые в апдейтах работающего ПО.
Возможно эта утечка сорцов сподвигло не давнему сливу юзеров яндекс.еда
 
Возможно, для СЕО будет полезно.
Как-то Яндекс уже обсирался и отдавал в xml-фиде вес сайта в виде числа. Около полугода специалисты это юзали и польза была огромной. Можно было оценить влияние каждого действия на увеличение или уменьшение веса сайта.
Потом кто-то спалил тему в Яндекс и ее прикрыли.
Уверен, технические специалисты сео-контор уже разбирают "формулу выдачи", чтобы представить основные факторы ранжирования маркетологам.
Польза для сео мала. Все что есть и так известно. Влияние конкретных факторов не понятно так как все обрабатывает нейронка по итогу.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх