Strona główna›Narzędzia AI›Scrapery›Crawl4AI

Crawl4AI

✦ Polecany

O narzędziu

Crawl4AI to w pełni darmowe narzędzie do pobierania i analizowania stron. v0.8.6 (security hotfix unclecode-litellm). 65.2K+ GitHub stars, 6.7K forks. Anti-Bot Detection w 3 tierach z automatic proxy escalation. Shadow DOM support. Deep Crawl Cancellation. Cloud API w closed beta — early access applications open (limited founding sponsor slots). Apache 2.0. Optymalizacja pod RAG pipeline.

📋

Zastosowanie

•Budowanie pipeline RAG z danymi ze stron internetowych.
•Tworzenie zbiorów danych treningowych dla modeli LLM.
•Ekstrakcja strukturalnych danych z wielu stron jednocześnie.
•Automatyczne zbieranie dokumentacji technicznej.
•Indeksowanie treści do wewnętrznej wyszukiwarki AI.
•Crawling z bypass anti-bot (3-tier escalation).

✨

Funkcje dodatkowe

▶Playwright browser

Headless browser oparty na Playwright — najpotężniejsza technologia automation w 2026 (popularniejsza niż Selenium i Puppeteer). Cross-browser support (Chromium, Firefox, WebKit).

▶HTML → Markdown z BM25 filtering

Konwersja HTML do Markdown z BM25 algorithm filtering — automatic identyfikacja content vs noise. Eliminuje boilerplate (navigation, footer, ads) bez ręcznych selectorów.

▶LLM structured extraction (dowolny model)

Ekstrakcja strukturalnych danych przez dowolny LLM (GPT, Claude, DeepSeek, Llama). Schema-based output (Pydantic, JSON Schema) — gwarantowana struktura odpowiedzi dla downstream processing.

▶Anti-Bot Detection (3-tier z proxy escalation)

3-tier system anti-bot bypass z automatyczną eskalacją: tier 1 (basic), tier 2 (proxy rotation), tier 3 (residential proxy + browser fingerprinting). Eliminuje większość Cloudflare/DataDome blokad.

▶Shadow DOM Support

Pełne wsparcie Shadow DOM (Web Components) — flattening dla extraction z hidden component content. Działa na sites używających Lit, Stencil, custom web components.

▶Deep Crawl Cancellation

Graceful stopping długo działających operacji crawl — pozwala anulować crawler bez utraty pobranych już danych. Krytyczne dla resource management w cloud environments.

▶Link following/crawling

Rekursywne podążanie za linkami z konfigurowalną głębokością, exclude patterns, max URLs. Wspiera respecting robots.txt i rate limiting per domain.

▶Chunking helpers + JSON/Markdown output

Wbudowane chunking helpers (split na sensowne fragmenty dla LLM) + output w JSON lub Markdown. Wszystko ready do feedu RAG pipeline bez własnego preprocessingu.

✓ Zalety

+Całkowicie darmowy (Apache 2.0)

+v0.8.6 — Anti-Bot Detection 3-tier + Shadow DOM

+65.2K+ GitHub stars (z 60K+) — aktywna społeczność

+Structured extraction z dowolnym LLM (GPT, DeepSeek, Llama)

+Cloud API w closed beta (early access)

+Brak per-request kosztów

💰

Cennik

•Całkowicie DARMOWY (Apache 2.0 open-source).
•65.2K+ GitHub stars, 6.7K forks.
•Koszty: własny serwer + proxy (jeśli potrzebne) + LLM API (dla extraction).
•TCO ~$485/mies.
•Przy 100K stron.
•Cloud API w closed beta — early access applications open (limited founding sponsor slots, dramatically lower costs vs alternatives).

🔗

API i integracje

•Self-hosted Python library.
•Cloud API w closed beta (early access applications).
•Integracja z LangChain, Bright Data Web Unlocker.

📋

Aktualna wersja

•V0.8.6 (security hotfix — replaced litellm dependency z unclecode-litellm ze względu na PyPI supply chain compromise).
•V0.8.5: Anti-Bot Detection (3-tier z automatic proxy escalation), Shadow DOM Support (flattening dla hidden component content), Deep Crawl Cancellation (graceful stopping), 60+ bug fixes (Docker, proxy, extraction, CLI).

Szczegóły

CenaDarmowy (open-source)

KategoriaScrapery

Open-sourcev0.8.6Python65K+ starsCloud API beta

Podobne narzędzia