Нужно спарсить миллион страниц - советы?

plikhwbl · 29.01.2021

Есть один сайт и нужно сохранить с него много однотипных страниц.
Какие будут советы чтобы не подтянулись администраторы и не спалили процесс?

Собираюсь использовать tor и python.

Конкретные вопросы:
1.Есть какие-то готовые проги, которые просто сохранят страницы с URL по маске через прокси?
2.Как быстро можно слать запросы и как выяснить примерное посещение сайта?
(На все входящего трафика ожидается под 100 гигов если брать чистый текст, полный трафик со всем содержимым под 1ТБ)
3.Как защитить цепочку от меня до сайта чтобы не палилась характерным поведением запросов и постоянной работой ?
("форма трафика" во времени).

4.Сайт работает на php и mysql, самописный, известны таблица базы и пользователь.
Как это можно эксплуатировать чтобы просто скачать базу?

5.Есть ли вообще вариант форсировать события, или сервак пошлет нах с таким числом запросов за короткое время?

N9XDZ · 29.01.2021

wget не?
Не совсем понимаю что конкретно надо, страницы с базами или страницы формата html ? Или полностью выгрузить все с сервера?

plikhwbl · 29.01.2021

N9XDZ сказал(а):

wget не?
Не совсем понимаю что конкретно надо, страницы с базами или страницы формата html ? Или полностью выгрузить все с сервера?

wget пойдет, с небольшим скриптом управится
В идеале нужна база mysql.
Как можно до нее добраться? Есть имя таблицы и имя пользователя.
Порт 1433 закрыт.
Чем можно сканировать под виндой?
Какие особенности подключения к базе, если стоит cdn?
Только через тор.

DrSleep · 29.01.2021

plikhwbl сказал(а):

wget пойдет, с небольшим скриптом управится
В идеале нужна база mysql.
Как можно до нее добраться? Есть имя таблицы и имя пользователя.
Порт 1433 закрыт.
Чем можно сканировать под виндой?
Какие особенности подключения к базе, если стоит cdn?
Только через тор.

Учи матчасть, твои вопросы мягко говоря некорректны.

plikhwbl · 29.01.2021

Подскажите пожалуйста.
Есть большой список директорий с robots.txt
Вытянуты некоторые запросы через archive.org
Сам сайт с mod_rewrite и не все можно написать вот так просто в адресной строке (выдает 404 или автоматически редиректит одним http заголовком на исправленный).
Есть два запроса от которых возвращает просто plaintext строку что запрос выполнен удачно и нули, которые не меняются от изменения запроса.
И вот ошибка mysql c раскрытием базы и таблицы.
nmap ничего не дает, там cdn.
Я знаю что иногда можно найти sql файл в директориях, где почитать куда обычно могут кинуть бекап?

admin · 01.02.2021

DrSleep сказал(а):

Учи матчасть, твои вопросы мягко говоря некорректны.

Блин, ну не дружелюбно это как-то. Человек задавал вопрос явно не для того, чтобы получить такой ответ =) Давайте более юзерфрендли и идти навстречу друг другу. Даже (особенно) новичкам. Мы же для этого здесь собрались.

Постараюсь очень коротко ответить

plikhwbl сказал(а):

Собираюсь использовать tor

Не лучший вариант, тор очень часто забанен на некоторых сайтах сам по себе.

plikhwbl сказал(а):

4.Сайт работает на php и mysql, самописный, известны таблица базы и пользователь.

В целом, никак. Если нет sql-inj или еще и пароля (+рядом phpmyadmin).

plikhwbl сказал(а):

3.Как защитить цепочку от меня до сайта чтобы не палилась характерным поведением запросов и постоянной работой ?

При скачивании желательно использовать (подключить) соксы или прокси. А запросы отправлять рандомные, с разными юзерагентами, ip и таймаутами.

plikhwbl сказал(а):

Какие особенности подключения к базе, если стоит cdn?

Никаких, если речь не о sql-inj, но для нее нужно найти саму уязвимость для начала.

plikhwbl сказал(а):

И вот ошибка mysql c раскрытием базы и таблицы.

Ну это может звучать, как sql-inj, но не совсем понятно, какая ошибка. Если бы выложили ее, возможно, люди бы помогли вам ее раскрутить и скачать базу. Если она, конечно, есть и "крутится".

plikhwbl сказал(а):

nmap ничего не дает, там cdn.

Клаудфлаер? Если он, можно попробовать обойти.

plikhwbl сказал(а):

Я знаю что иногда можно найти sql файл в директориях, где почитать куда обычно могут кинуть бекап?

Вообще есть сканеры. Можно вручную (/backup/, /backupX(здесь даты).zip и так далее). Но лучше пройти авто сканером по заранее вбитым директориям.

DrSleep · 02.02.2021

admin сказал(а):

Блин, ну не дружелюбно это как-то. Человек задавал вопрос явно не для того, чтобы получить такой ответ =) Давайте более юзерфрендли и идти навстречу друг другу. Даже (особенно) новичкам. Мы же для этого здесь собрались.

Постараюсь очень коротко ответить

Не лучший вариант, тор очень часто забанен на некоторых сайтах сам по себе.

В целом, никак. Если нет sql-inj или еще и пароля (+рядом phpmyadmin).

При скачивании желательно использовать (подключить) соксы или прокси. А запросы отправлять рандомные, с разными юзерагентами, ip и таймаутами.

Никаких, если речь не о sql-inj, но для нее нужно найти саму уязвимость для начала.

Ну это может звучать, как sql-inj, но не совсем понятно, какая ошибка. Если бы выложили ее, возможно, люди бы помогли вам ее раскрутить и скачать базу. Если она, конечно, есть и "крутится".

Клаудфлаер? Если он, можно попробовать обойти.

Вообще есть сканеры. Можно вручную (/backup/, /backupX(здесь даты).zip и так далее). Но лучше пройти авто сканером по заранее вбитым директориям.

Такие вопросы вызывают когнитивный диссонанс.Одно дело помочь человеку, а другое когда кому-то неохото гуглить и ждет готовые ответы =)

Код:

nmap ничего не дает, там cdn.

Мой мозг ушел в BSOD.

corax · 02.02.2021

plikhwbl сказал(а):

1.Есть какие-то готовые проги, которые просто сохранят страницы с URL по маске через прокси?

wget, curl, httrack.

plikhwbl сказал(а):

2.Как быстро можно слать запросы и как выяснить примерное посещение сайта?

Откуда нам знать? Обычно администратору сайта насрать, на любой сайт в день заходят тысячи ботов, никто их не блокирует потому что ПОХРЕН.

plikhwbl сказал(а):

3.Как защитить цепочку от меня до сайта чтобы не палилась характерным поведением запросов и постоянной работой ?

Ты его дидосить собрался или всё же скрапить? Напиши себе скрипт который будет проверять страницы и если отдалась заглушка, то подставлять качалке другую проксю.
А вообще ты проблемы ищешь на пустом месте, начни выкачивать и посмотришь с чем столкнёшься.

badcapper · 02.02.2021

plikhwbl сказал(а):

Есть один сайт и нужно сохранить с него много однотипных страниц.

софт a-parser в нем парсер Net::HTTP

Нужно спарсить миллион страниц - советы?

plikhwbl

floppy-диск

N9XDZ

(L1) cache

plikhwbl

floppy-диск

DrSleep

(L2) cache

plikhwbl

floppy-диск

admin

#root

DrSleep

(L2) cache

corax

Премиум

badcapper

(L1) cache