Парсинг. Обход Cloudflare

_Gasol_ · 28.03.2021

Kohan сказал(а):

свежая методика

Скрытое содержимое

Круто бро. Спасибо. Заюзаю как понадобится

katala · 02.04.2021

Добрый день. Есть такая страница https://upbit.com/service_center/notice
парсил заголовки через селениум с дефолтными настройками, перестало работать
помогите плз починить эту штуку, накидаю в карму или заплатить немного могу

Python:

import time
from datetime import datetime
from bs4 import BeautifulSoup
from random import randint
from selenium.webdriver import Firefox
import re


def main():
    browser = Firefox(executable_path='utils/geckodriver')
    try:
        page = fetch_page(browser)
        initial_title = get_last_article_title(page)
        print(initial_title)
        while True:
            page2 = fetch_page2(browser)
            title = get_last_article_title(page2)
            print(title)

def fetch_page(browser):
    url = 'https://upbit.com/service_center/notice'
    browser.get(url)
    time.sleep(15)
    return browser.page_source


def fetch_page2(browser):
    url = 'https://upbit.com/service_center/notice'
    browser.get(url)
    time.sleep(randint(1, 4))
    return browser.page_source


def get_last_article_title(page):
    soup = BeautifulSoup(page, features="lxml")
    all_articles = soup.find_all("td", {"class": "lAlign"})[5]
    title = all_articles.contents[0].contents[0]
    return title

if name == "main":
    print('bot started.')
    main()

RpcSecurity · 02.04.2021

Это не обход cloudflare обход клоудфларе используется модуль cloudscraper

Eject · 03.04.2021

RpcSecurity сказал(а):

Это не обход cloudflare обход клоудфларе используется модуль cloudscraper

Это самый первый и самый медленный метод и это тоже парсинг и решенеие задания.
Обход можно сделать зная ip или другими хитрыми методами вроде:

Kohan сказал(а):

свежая методика

Скрытое содержимое

nieckz · 12.08.2021

_Gasol_ сказал(а):

渲染器获取使用 JS 显示的文本。我把它花在了它。非常适合云火焰背后的网站。

excuse me.does it works now?

Gagarin61 · 30.08.2021

GitHub - VeNoMouS/cloudscraper: A Python module to bypass Cloudflare's anti-bot page.

A Python module to bypass Cloudflare's anti-bot page. - VeNoMouS/cloudscraper

github.com

Это хорошо работает.

Kohan · 11.02.2024

в копилку

увы, не Python и даже не готовый продукт - так, больше рассуждения,
но кто постоянно - пригодится, по-моему и в целом полезно для undetect случаев

Kohan · 06.04.2024

относительно свежий, от 01.02.24

Kohan · 22.12.2024

вот еще + сама библиотека продвинутая

chiefchain · 07.01.2025

https://xss.pro/threads/123462/

Главная диллема CF, что он сам тебя авторизует и не просит никуда кликаться если ты не делаешь его целевой страницей, вот и решение всех проблем, но в любом случае, это не особо приятно, хоть потом ты и просто достаешь нужный кук, сохраняешь идентичный User-Agent и так же прокси, и можешь переходить на использование уже запросов, но вот мне интерес бьет именно решение на запросах, без браузерной эмуляции (у меня пока ничего не вышло =), я не подразумеваю сервисы, которые решат за меня). Кстати, почитал тред, почему-то не увидел использование selenium_undetectedv2, так же стоит обратить и на него внимание - https://github.com/ultrafunkamsterdam/undetected-chromedriver

n73 · 09.01.2025

Это решит задачу. Прокся должна быть прогрета.
undetected это просто надстройка на драйвером, самостоятельная поможет лучше.

Парсинг. Обход Cloudflare

_Gasol_

RAID-массив

katala

floppy-диск

RpcSecurity

ripper

Eject

(L1) cache

nieckz

HDD-drive

Gagarin61

HDD-drive

GitHub - VeNoMouS/cloudscraper: A Python module to bypass Cloudflare's anti-bot page.

Kohan

RAID-массив

Kohan

RAID-массив

GitHub - sarperavci/CloudflareBypassForScraping: A cloudflare verification bypass script for webscraping

Kohan

RAID-массив

SeleniumBase/examples/cdp_mode/raw_gitlab.py at master · seleniumbase/SeleniumBase

chiefchain

ripper

n73

floppy-диск