• XSS.stack #1 – первый литературный журнал от юзеров форума

Статья Говнокодим вместе - парсим сайты - статья 1

FreeWar

ripper
КИДАЛА
Регистрация
12.11.2018
Сообщения
244
Реакции
122
Пожалуйста, обратите внимание, что пользователь заблокирован
В общем я сидел, и решил запилить цикл статьей. Один хер сижу делаю для себя что-то и иногда требуются какие-то решениея на скорую руку или еще что. Вот буду делиться опытом с вами.

Всегда человеком двигает лень. Мне в админку нужно было накидать иконок приложений. Но мля выкачивать их это же просто ..... короче я сразу понял что это не мое. И мне пришла в голову идея, а почему бы и не попарсить.
Это все в продолжение темы https://xssforum7mmh3n56inuf2h73hvhnzobi7h2ytb3gvklrfqm7ut3xdnyd.onion/threads/27905/

И тут меня осенило. Почему мы не тырить эти картинки с главного стора. Защиты там нет. Бегай по странице не хочу. и я отправился на поиски. Идем на https://play.google.com/store
Выбираем там любое приложение. https://play.google.com/store/apps/details?id=com.google.android.youtube Ну к примеру ютуб он в топ 1. Ахаха.

2820


Видим что главной иконки, как уже потом выяснилось каждого приложения есть

alt="Cover art"

И больше его ни где нет.

Немного обдумав высраиваем план
  1. Открываем страницу https://play.google.com/store/apps/details?id=PKG где PKG имя пакета
  2. Находим все картинки и выбираем тег где есть наш альт
  3. Получаем src и сохраняем его

Ну что? По говнокодим? ^_^

Нам понадобится быдло php

$url="https://play.google.com/store/apps/details?id=".$pkg;
$html = file_get_contents($url);

$doc = new DOMDocument();
@$doc->loadHTML($html);

$tags = $doc->getElementsByTagName('img');

foreach ($tags as $tag) {
if($tag->getAttribute('alt')=="Cover art"){
$cu = $tag->getAttribute('src');
if(strlen($cu)>0){
$icon = file_get_contents($cu);
file_put_contents($img_path,$icon);

}
break;
}
}

Вот собственно и все :) всем бобра

P.S. вынаверное поняли что getElementsByTagName можно выбрать любую группу тегов а потом с помощью getAttribute отсортировать их. Так к примеру парсятся сайты на мыльники и так далее. Ни чго сложного и заумного нет. Все это стандартные библиотеки.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
C# , Selenium и в путь)
Делается за 5-10 минут всё, что надо)
не вопрос, только пока ты развернешь свой селениум на сервере? или си шарп я вообще не знаю как ты на линукс поставишь. это всего лишь пример. конечно можно хоть с bat файлов парсить :)
 
не вопрос, только пока ты развернешь свой селениум на сервере? или си шарп я вообще не знаю как ты на линукс поставишь. это всего лишь пример. конечно можно хоть с bat файлов парсить :)
честно, не проверял. Но моно не держит селениум?
 
Пожалуйста, обратите внимание, что пользователь заблокирован
без понятия, я его видел только со стороны
 
Selenium избыточен для такой задачи. Потеряешь время на запуске браузера и рендеринге страницы. Если ссылок на приложения много, то по итогу потеряем много времени. Зачем это всё, если можно отправить один запрос и отпарсить, даже тупо регуляркой.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх