• XSS.stack #1 – первый литературный журнал от юзеров форума

[General] Парсинг гугла

Aels

(L3) cache
Забанен
Регистрация
04.04.2012
Сообщения
281
Решения
1
Реакции
328
Пожалуйста, обратите внимание, что пользователь заблокирован
Оставлю это здесь, т.к. проблема насущная.

Чтобы спарсить нашу выдачу есть следующие варианты:
1) прикручивать антигейт и решать капчу,
2) скакать между серверами, как только предлагают капчу.
*и не забыть включить по 100 результатов на страницу, чтобы парсить выдачу за 5 запросов.

Диапазоны ip-адресов в гугле не лежат, увы, поэтому список пришлось составлять самому:
173.194.32.[0-127]
173.194.33.[0-63]
173.194.34.[0-255]
173.194.35.[0-191]
173.194.71.[152-167]
173.194.71.[17-19]
74.125.232.[0-255]
Это не всё, а лишь то что насканил я. В штучном исчислении >650ip, на каждом из которых висит главная гугла. Надеюсь этого достаточно, чтобы успеть спарсить до бана все что угодно)
Собственно, соседние сети тоже числятся за ним, и на них тоже можно найти морды google.com.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Apocalypse
mail.ru использует движек яндекса, насколько мне известно.
Aol.com, в свою очередь, так же умеет показывать гугло-капчу, после серии сложных запросов.
По-этому, при наличии должного количества ипов у гугла, я не вижу смысла пользоваться посредниками.

rtkm
можно даже через cURL. т.к. гугл до сих пор выдает упрощенную версию своих страниц для неизвестных ему user-agent-ов. Там почти отсутствует js на странице, и очень простая разметка.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Apocalypse твоя правда)
 
Пожалуйста, обратите внимание, что пользователь заблокирован
rtkm
где там? давай колись рассказывай)
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх