Обход Cloudflare в 2026: Как парсить защищенные сайты Python'ом
TLS Fingerprinting, решение капчи через AI и Stealth-браузеры. Разбираем методы, которые реально работают против Cloudflare Turnstile и WAF.
Главное за 30 секунд
- Selenium мертв. Его детектят по переменным среды
navigator.webdriver. - Playwright + Stealth — это база. Но одного плагина мало, нужно менять TLS-отпечатки.
- TLS Fingerprint: Сервер видит, что handshake инициирует Python, а не Chrome. Используйте curl_cffi или специальные прокси.
- AI-решатели капч: Turnstile можно пройти, эмулируя движения мыши (GhostCursor) или через API сервисов (2Captcha/CapSolver).
Вы написали идеальный парсер, протестировали локально — всё работает. Деплоите на сервер, запускаете... и видите бесконечную страницу "Just a moment..." или "Checking your browser". Добро пожаловать в клуб любителей Cloudflare.
Cloudflare защищает 80% интернета не от хакеров, а от нас — сборщиков данных. В 2026 году их защита стала умнее: они анализируют не просто IP, а то, как ваш браузер "дрожит" курсором и какие криптографические шифры он предлагает при соединении.
В этой статье мы разберем стек, который используется для обхода защиты уровня Enterprise.
Уровни защиты Cloudflare
Чтобы победить врага, нужно его знать. Cloudflare проверяет вас слоями:
- Network Layer: IP-адрес. Дата-центры (AWS, DigitalOcean) в бане по умолчанию.
- TLS Layer: Порядок полей в ClientHello пакете.
- Browser Layer: Canvas Fingerprint, WebGL, шрифты.
- Behavior Layer: Движения мыши, скорость кликов.
Cloudflare блокирует ваши запросы?
Устали бороться с капчами? Мы настроим прозрачный прокси-шлюз, который сам решает проблемы с защитой. Вы получаете просто JSON.
Решение 1: Python с "правильным" TLS
Обычный requests палится мгновенно. Его TLS-отпечаток (JA3) известен всем WAF.
Используйте curl_cffi — это библиотека, которая подменяет TLS-отпечаток Python на отпечаток реального Chrome 120+.
from curl_cffi import requests
# Эмулируем Chrome 120
response = requests.get(
"https://autotrader.co.uk",
impersonate="chrome120",
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)..."
}
)
print(response.status_code) # 200 OK
Это решение работает для сайтов со слабой защитой (режим "Low/Medium").
Решение 2: Heavy Artillery (Playwright + Stealth)
Если сайт использует JS-челленджи (калькуляция хешей), без браузера не обойтись.
Наш стек для "тяжелых" целей: Playwright (браузер) + plugin-stealth (скрытие автоматизации) + GhostCursor (эмуляция мыши).
Архитектура Headless-парсера
Код инициализации (Python)
from playwright.sync_api import sync_playwright
# Важно: используйте аргументы для скрытия автоматизации
ARGS = [
"--disable-blink-features=AutomationControlled",
"--no-sandbox"
]
def run():
with sync_playwright() as p:
browser = p.chromium.launch(
headless=True, # В 2026 headless детектится хуже, чем раньше
args=ARGS
)
context = browser.new_context(
user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...",
viewport={"width": 1920, "height": 1080}
)
# Инъекция скриптов для подмены navigator.webdriver
context.add_init_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
page = context.new_page()
page.goto("https://nowsecure.nl") # Тестовый сайт
page.screenshot(path="bypass.png")
browser.close()
Типичные ошибки (Грабли)
- ❌ Игнорирование Canvas Fingerprint: Многие сайты рисуют невидимую картинку, чтобы узнать вашу видеокарту. Если у всех ваших ботов одинаковый хеш канваса — бан.
- ❌ Одинаковый размер окна: Не используйте дефолтные 800x600. Рандомизируйте Viewport.
- ❌ Отсутствие Cookies: Если вы каждый раз приходите "пустым", Cloudflare считает вас подозрительным. Сохраняйте куки после успешного прохода челленджа.
Заключение
Обход Cloudflare — это не разовая задача, а процесс. Защита обновляется, и методы обхода тоже. Для бизнеса оптимально строить гибридную систему: легкие запросы через curl_cffi для скорости, и Playwright-воркеры для сложных задач.
Нужно спарсить сложный сайт?
Наши боты умеют обходить Cloudflare, Akamai, Datadome и Kasada. Получите данные, которые конкуренты не могут собрать.
FAQ
Selenium — старая технология. Она оставляет слишком много "хвостов" в браузере (CDC-переменные), по которым антибот системы легко вычисляют автоматизацию. Playwright — современный стандарт.
Сам по себе обход технических средств защиты не является преступлением, если цель — сбор общедоступных данных. Однако вы должны соблюдать Terms of Service сайта и не создавать DDoS-нагрузку.
Только Mobile 4G/5G или Residential. Серверные (Datacenter) IP находятся в черных списках Cloudflare.
Понравилась статья?
Поделитесь ей с коллегами или обсудите с нами