• XSS.stack #1 – первый литературный журнал от юзеров форума

Парсинг. Обход Cloudflare

Добрый день. Есть такая страница https://upbit.com/service_center/notice
парсил заголовки через селениум с дефолтными настройками, перестало работать
помогите плз починить эту штуку, накидаю в карму или заплатить немного могу
Python:
import time
from datetime import datetime
from bs4 import BeautifulSoup
from random import randint
from selenium.webdriver import Firefox
import re


def main():
    browser = Firefox(executable_path='utils/geckodriver')
    try:
        page = fetch_page(browser)
        initial_title = get_last_article_title(page)
        print(initial_title)
        while True:
            page2 = fetch_page2(browser)
            title = get_last_article_title(page2)
            print(title)

def fetch_page(browser):
    url = 'https://upbit.com/service_center/notice'
    browser.get(url)
    time.sleep(15)
    return browser.page_source


def fetch_page2(browser):
    url = 'https://upbit.com/service_center/notice'
    browser.get(url)
    time.sleep(randint(1, 4))
    return browser.page_source


def get_last_article_title(page):
    soup = BeautifulSoup(page, features="lxml")
    all_articles = soup.find_all("td", {"class": "lAlign"})[5]
    title = all_articles.contents[0].contents[0]
    return title

if name == "main":
    print('bot started.')
    main()
 
Это не обход cloudflare обход клоудфларе используется модуль cloudscraper
Это самый первый и самый медленный метод и это тоже парсинг и решенеие задания.
Обход можно сделать зная ip или другими хитрыми методами вроде:
свежая методика

Скрытое содержимое
 
в копилку
Скрытый контент для зарегистрированных пользователей.


увы, не Python и даже не готовый продукт - так, больше рассуждения,
но кто постоянно - пригодится, по-моему и в целом полезно для undetect случаев
 
Пожалуйста, обратите внимание, что пользователь заблокирован
https://xss.pro/threads/123462/

Главная диллема CF, что он сам тебя авторизует и не просит никуда кликаться если ты не делаешь его целевой страницей, вот и решение всех проблем, но в любом случае, это не особо приятно, хоть потом ты и просто достаешь нужный кук, сохраняешь идентичный User-Agent и так же прокси, и можешь переходить на использование уже запросов, но вот мне интерес бьет именно решение на запросах, без браузерной эмуляции (у меня пока ничего не вышло =), я не подразумеваю сервисы, которые решат за меня). Кстати, почитал тред, почему-то не увидел использование selenium_undetectedv2, так же стоит обратить и на него внимание - https://github.com/ultrafunkamsterdam/undetected-chromedriver
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх