O narzędziu
Crawl4AI to w pełni darmowe narzędzie do pobierania i analizowania stron. v0.8.6 (security hotfix unclecode-litellm). 65.2K+ GitHub stars, 6.7K forks. Anti-Bot Detection w 3 tierach z automatic proxy escalation. Shadow DOM support. Deep Crawl Cancellation. Cloud API w closed beta — early access applications open (limited founding sponsor slots). Apache 2.0. Optymalizacja pod RAG pipeline.
Zastosowanie
- •Budowanie pipeline RAG z danymi ze stron internetowych.
- •Tworzenie zbiorów danych treningowych dla modeli LLM.
- •Ekstrakcja strukturalnych danych z wielu stron jednocześnie.
- •Automatyczne zbieranie dokumentacji technicznej.
- •Indeksowanie treści do wewnętrznej wyszukiwarki AI.
- •Crawling z bypass anti-bot (3-tier escalation).
Funkcje dodatkowe
▶Playwright browser
Headless browser oparty na Playwright — najpotężniejsza technologia automation w 2026 (popularniejsza niż Selenium i Puppeteer). Cross-browser support (Chromium, Firefox, WebKit).
▶HTML → Markdown z BM25 filtering
Konwersja HTML do Markdown z BM25 algorithm filtering — automatic identyfikacja content vs noise. Eliminuje boilerplate (navigation, footer, ads) bez ręcznych selectorów.
▶LLM structured extraction (dowolny model)
Ekstrakcja strukturalnych danych przez dowolny LLM (GPT, Claude, DeepSeek, Llama). Schema-based output (Pydantic, JSON Schema) — gwarantowana struktura odpowiedzi dla downstream processing.
▶Anti-Bot Detection (3-tier z proxy escalation)
3-tier system anti-bot bypass z automatyczną eskalacją: tier 1 (basic), tier 2 (proxy rotation), tier 3 (residential proxy + browser fingerprinting). Eliminuje większość Cloudflare/DataDome blokad.
▶Shadow DOM Support
Pełne wsparcie Shadow DOM (Web Components) — flattening dla extraction z hidden component content. Działa na sites używających Lit, Stencil, custom web components.
▶Deep Crawl Cancellation
Graceful stopping długo działających operacji crawl — pozwala anulować crawler bez utraty pobranych już danych. Krytyczne dla resource management w cloud environments.
▶Link following/crawling
Rekursywne podążanie za linkami z konfigurowalną głębokością, exclude patterns, max URLs. Wspiera respecting robots.txt i rate limiting per domain.
▶Chunking helpers + JSON/Markdown output
Wbudowane chunking helpers (split na sensowne fragmenty dla LLM) + output w JSON lub Markdown. Wszystko ready do feedu RAG pipeline bez własnego preprocessingu.
✓ Zalety
Cennik
- •Całkowicie DARMOWY (Apache 2.0 open-source).
- •65.2K+ GitHub stars, 6.7K forks.
- •Koszty: własny serwer + proxy (jeśli potrzebne) + LLM API (dla extraction).
- •TCO ~$485/mies.
- •Przy 100K stron.
- •Cloud API w closed beta — early access applications open (limited founding sponsor slots, dramatically lower costs vs alternatives).
API i integracje
- •Self-hosted Python library.
- •Cloud API w closed beta (early access applications).
- •Integracja z LangChain, Bright Data Web Unlocker.
Aktualna wersja
- •V0.8.6 (security hotfix — replaced litellm dependency z unclecode-litellm ze względu na PyPI supply chain compromise).
- •V0.8.5: Anti-Bot Detection (3-tier z automatic proxy escalation), Shadow DOM Support (flattening dla hidden component content), Deep Crawl Cancellation (graceful stopping), 60+ bug fixes (Docker, proxy, extraction, CLI).
