Все статьи
Парсинг2026-01-0810 мин

Обход Cloudflare в 2026: Как парсить защищенные сайты Python'ом

TLS Fingerprinting, решение капчи через AI и Stealth-браузеры. Разбираем методы, которые реально работают против Cloudflare Turnstile и WAF.

Главное за 30 секунд

  • Selenium мертв. Его детектят по переменным среды navigator.webdriver.
  • Playwright + Stealth — это база. Но одного плагина мало, нужно менять TLS-отпечатки.
  • TLS Fingerprint: Сервер видит, что handshake инициирует Python, а не Chrome. Используйте curl_cffi или специальные прокси.
  • AI-решатели капч: Turnstile можно пройти, эмулируя движения мыши (GhostCursor) или через API сервисов (2Captcha/CapSolver).

Вы написали идеальный парсер, протестировали локально — всё работает. Деплоите на сервер, запускаете... и видите бесконечную страницу "Just a moment..." или "Checking your browser". Добро пожаловать в клуб любителей Cloudflare.

Cloudflare защищает 80% интернета не от хакеров, а от нас — сборщиков данных. В 2026 году их защита стала умнее: они анализируют не просто IP, а то, как ваш браузер "дрожит" курсором и какие криптографические шифры он предлагает при соединении.

В этой статье мы разберем стек, который используется для обхода защиты уровня Enterprise.

Уровни защиты Cloudflare

Чтобы победить врага, нужно его знать. Cloudflare проверяет вас слоями:

  1. Network Layer: IP-адрес. Дата-центры (AWS, DigitalOcean) в бане по умолчанию.
  2. TLS Layer: Порядок полей в ClientHello пакете.
  3. Browser Layer: Canvas Fingerprint, WebGL, шрифты.
  4. Behavior Layer: Движения мыши, скорость кликов.

Cloudflare блокирует ваши запросы?

Устали бороться с капчами? Мы настроим прозрачный прокси-шлюз, который сам решает проблемы с защитой. Вы получаете просто JSON.

Решение 1: Python с "правильным" TLS

Обычный requests палится мгновенно. Его TLS-отпечаток (JA3) известен всем WAF.

Используйте curl_cffi — это библиотека, которая подменяет TLS-отпечаток Python на отпечаток реального Chrome 120+.

from curl_cffi import requests

# Эмулируем Chrome 120
response = requests.get(
    "https://autotrader.co.uk",
    impersonate="chrome120", 
    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)..."
    }
)

print(response.status_code) # 200 OK

Это решение работает для сайтов со слабой защитой (режим "Low/Medium").

Решение 2: Heavy Artillery (Playwright + Stealth)

Если сайт использует JS-челленджи (калькуляция хешей), без браузера не обойтись.

Наш стек для "тяжелых" целей: Playwright (браузер) + plugin-stealth (скрытие автоматизации) + GhostCursor (эмуляция мыши).

Архитектура Headless-парсера

Код инициализации (Python)

from playwright.sync_api import sync_playwright
# Важно: используйте аргументы для скрытия автоматизации
ARGS = [
    "--disable-blink-features=AutomationControlled",
    "--no-sandbox"
]

def run():
    with sync_playwright() as p:
        browser = p.chromium.launch(
            headless=True, # В 2026 headless детектится хуже, чем раньше
            args=ARGS
        )
        context = browser.new_context(
            user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...",
            viewport={"width": 1920, "height": 1080}
        )
        
        # Инъекция скриптов для подмены navigator.webdriver
        context.add_init_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
        
        page = context.new_page()
        page.goto("https://nowsecure.nl") # Тестовый сайт
        page.screenshot(path="bypass.png")
        browser.close()

Типичные ошибки (Грабли)

  1. Игнорирование Canvas Fingerprint: Многие сайты рисуют невидимую картинку, чтобы узнать вашу видеокарту. Если у всех ваших ботов одинаковый хеш канваса — бан.
  2. Одинаковый размер окна: Не используйте дефолтные 800x600. Рандомизируйте Viewport.
  3. Отсутствие Cookies: Если вы каждый раз приходите "пустым", Cloudflare считает вас подозрительным. Сохраняйте куки после успешного прохода челленджа.

Заключение

Обход Cloudflare — это не разовая задача, а процесс. Защита обновляется, и методы обхода тоже. Для бизнеса оптимально строить гибридную систему: легкие запросы через curl_cffi для скорости, и Playwright-воркеры для сложных задач.

Нужно спарсить сложный сайт?

Наши боты умеют обходить Cloudflare, Akamai, Datadome и Kasada. Получите данные, которые конкуренты не могут собрать.

FAQ

Selenium — старая технология. Она оставляет слишком много "хвостов" в браузере (CDC-переменные), по которым антибот системы легко вычисляют автоматизацию. Playwright — современный стандарт.

Сам по себе обход технических средств защиты не является преступлением, если цель — сбор общедоступных данных. Однако вы должны соблюдать Terms of Service сайта и не создавать DDoS-нагрузку.

Только Mobile 4G/5G или Residential. Серверные (Datacenter) IP находятся в черных списках Cloudflare.


Понравилась статья?

Поделитесь ей с коллегами или обсудите с нами