Нужно спарсить миллион страниц - советы?

plikhwbl

floppy-диск
Пользователь
Регистрация
29.01.2021
Сообщения
6
Реакции
0
Есть один сайт и нужно сохранить с него много однотипных страниц.
Какие будут советы чтобы не подтянулись администраторы и не спалили процесс?

Собираюсь использовать tor и python.

Конкретные вопросы:
1.Есть какие-то готовые проги, которые просто сохранят страницы с URL по маске через прокси?
2.Как быстро можно слать запросы и как выяснить примерное посещение сайта?
(На все входящего трафика ожидается под 100 гигов если брать чистый текст, полный трафик со всем содержимым под 1ТБ)
3.Как защитить цепочку от меня до сайта чтобы не палилась характерным поведением запросов и постоянной работой ?
("форма трафика" во времени).

4.Сайт работает на php и mysql, самописный, известны таблица базы и пользователь.
Как это можно эксплуатировать чтобы просто скачать базу?

5.Есть ли вообще вариант форсировать события, или сервак пошлет нах с таким числом запросов за короткое время?
 
wget не?
Не совсем понимаю что конкретно надо, страницы с базами или страницы формата html ? Или полностью выгрузить все с сервера?
 
wget не?
Не совсем понимаю что конкретно надо, страницы с базами или страницы формата html ? Или полностью выгрузить все с сервера?
wget пойдет, с небольшим скриптом управится
В идеале нужна база mysql.
Как можно до нее добраться? Есть имя таблицы и имя пользователя.
Порт 1433 закрыт.
Чем можно сканировать под виндой?
Какие особенности подключения к базе, если стоит cdn?
Только через тор.
 
wget пойдет, с небольшим скриптом управится
В идеале нужна база mysql.
Как можно до нее добраться? Есть имя таблицы и имя пользователя.
Порт 1433 закрыт.
Чем можно сканировать под виндой?
Какие особенности подключения к базе, если стоит cdn?
Только через тор.
Учи матчасть, твои вопросы мягко говоря некорректны.
 
Подскажите пожалуйста.
Есть большой список директорий с robots.txt
Вытянуты некоторые запросы через archive.org
Сам сайт с mod_rewrite и не все можно написать вот так просто в адресной строке (выдает 404 или автоматически редиректит одним http заголовком на исправленный).
Есть два запроса от которых возвращает просто plaintext строку что запрос выполнен удачно и нули, которые не меняются от изменения запроса.
И вот ошибка mysql c раскрытием базы и таблицы.
nmap ничего не дает, там cdn.
Я знаю что иногда можно найти sql файл в директориях, где почитать куда обычно могут кинуть бекап?
 
Учи матчасть, твои вопросы мягко говоря некорректны.
Блин, ну не дружелюбно это как-то. Человек задавал вопрос явно не для того, чтобы получить такой ответ =) Давайте более юзерфрендли и идти навстречу друг другу. Даже (особенно) новичкам. Мы же для этого здесь собрались.

Постараюсь очень коротко ответить
Собираюсь использовать tor
Не лучший вариант, тор очень часто забанен на некоторых сайтах сам по себе.
4.Сайт работает на php и mysql, самописный, известны таблица базы и пользователь.
В целом, никак. Если нет sql-inj или еще и пароля (+рядом phpmyadmin).
3.Как защитить цепочку от меня до сайта чтобы не палилась характерным поведением запросов и постоянной работой ?
При скачивании желательно использовать (подключить) соксы или прокси. А запросы отправлять рандомные, с разными юзерагентами, ip и таймаутами.
Какие особенности подключения к базе, если стоит cdn?
Никаких, если речь не о sql-inj, но для нее нужно найти саму уязвимость для начала.
И вот ошибка mysql c раскрытием базы и таблицы.
Ну это может звучать, как sql-inj, но не совсем понятно, какая ошибка. Если бы выложили ее, возможно, люди бы помогли вам ее раскрутить и скачать базу. Если она, конечно, есть и "крутится".
nmap ничего не дает, там cdn.
Клаудфлаер? Если он, можно попробовать обойти.
Я знаю что иногда можно найти sql файл в директориях, где почитать куда обычно могут кинуть бекап?
Вообще есть сканеры. Можно вручную (/backup/, /backupX(здесь даты).zip и так далее). Но лучше пройти авто сканером по заранее вбитым директориям.
 
Блин, ну не дружелюбно это как-то. Человек задавал вопрос явно не для того, чтобы получить такой ответ =) Давайте более юзерфрендли и идти навстречу друг другу. Даже (особенно) новичкам. Мы же для этого здесь собрались.

Постараюсь очень коротко ответить

Не лучший вариант, тор очень часто забанен на некоторых сайтах сам по себе.

В целом, никак. Если нет sql-inj или еще и пароля (+рядом phpmyadmin).

При скачивании желательно использовать (подключить) соксы или прокси. А запросы отправлять рандомные, с разными юзерагентами, ip и таймаутами.

Никаких, если речь не о sql-inj, но для нее нужно найти саму уязвимость для начала.

Ну это может звучать, как sql-inj, но не совсем понятно, какая ошибка. Если бы выложили ее, возможно, люди бы помогли вам ее раскрутить и скачать базу. Если она, конечно, есть и "крутится".

Клаудфлаер? Если он, можно попробовать обойти.

Вообще есть сканеры. Можно вручную (/backup/, /backupX(здесь даты).zip и так далее). Но лучше пройти авто сканером по заранее вбитым директориям.
Такие вопросы вызывают когнитивный диссонанс.Одно дело помочь человеку, а другое когда кому-то неохото гуглить и ждет готовые ответы =)

Код:
nmap ничего не дает, там cdn.
Мой мозг ушел в BSOD.
 
1.Есть какие-то готовые проги, которые просто сохранят страницы с URL по маске через прокси?
wget, curl, httrack.
2.Как быстро можно слать запросы и как выяснить примерное посещение сайта?
Откуда нам знать? Обычно администратору сайта насрать, на любой сайт в день заходят тысячи ботов, никто их не блокирует потому что ПОХРЕН.
3.Как защитить цепочку от меня до сайта чтобы не палилась характерным поведением запросов и постоянной работой ?
Ты его дидосить собрался или всё же скрапить? Напиши себе скрипт который будет проверять страницы и если отдалась заглушка, то подставлять качалке другую проксю.
А вообще ты проблемы ищешь на пустом месте, начни выкачивать и посмотришь с чем столкнёшься.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх