Strona głównaNarzędzia AIScraperyCrawl4AI
Crawl4AI

Crawl4AI

✦ Polecany
0(0)·Scrapery
Darmowy (open-source)Odwiedź stronę →

O narzędziu

Crawl4AI to w pełni darmowe narzędzie do pobierania i analizowania stron. v0.8.6 (security hotfix unclecode-litellm). 65.2K+ GitHub stars, 6.7K forks. Anti-Bot Detection w 3 tierach z automatic proxy escalation. Shadow DOM support. Deep Crawl Cancellation. Cloud API w closed beta — early access applications open (limited founding sponsor slots). Apache 2.0. Optymalizacja pod RAG pipeline.

📋

Zastosowanie

  • Budowanie pipeline RAG z danymi ze stron internetowych.
  • Tworzenie zbiorów danych treningowych dla modeli LLM.
  • Ekstrakcja strukturalnych danych z wielu stron jednocześnie.
  • Automatyczne zbieranie dokumentacji technicznej.
  • Indeksowanie treści do wewnętrznej wyszukiwarki AI.
  • Crawling z bypass anti-bot (3-tier escalation).

Funkcje dodatkowe

Playwright browser

Headless browser oparty na Playwright — najpotężniejsza technologia automation w 2026 (popularniejsza niż Selenium i Puppeteer). Cross-browser support (Chromium, Firefox, WebKit).

HTML → Markdown z BM25 filtering

Konwersja HTML do Markdown z BM25 algorithm filtering — automatic identyfikacja content vs noise. Eliminuje boilerplate (navigation, footer, ads) bez ręcznych selectorów.

LLM structured extraction (dowolny model)

Ekstrakcja strukturalnych danych przez dowolny LLM (GPT, Claude, DeepSeek, Llama). Schema-based output (Pydantic, JSON Schema) — gwarantowana struktura odpowiedzi dla downstream processing.

Anti-Bot Detection (3-tier z proxy escalation)

3-tier system anti-bot bypass z automatyczną eskalacją: tier 1 (basic), tier 2 (proxy rotation), tier 3 (residential proxy + browser fingerprinting). Eliminuje większość Cloudflare/DataDome blokad.

Shadow DOM Support

Pełne wsparcie Shadow DOM (Web Components) — flattening dla extraction z hidden component content. Działa na sites używających Lit, Stencil, custom web components.

Deep Crawl Cancellation

Graceful stopping długo działających operacji crawl — pozwala anulować crawler bez utraty pobranych już danych. Krytyczne dla resource management w cloud environments.

Link following/crawling

Rekursywne podążanie za linkami z konfigurowalną głębokością, exclude patterns, max URLs. Wspiera respecting robots.txt i rate limiting per domain.

Chunking helpers + JSON/Markdown output

Wbudowane chunking helpers (split na sensowne fragmenty dla LLM) + output w JSON lub Markdown. Wszystko ready do feedu RAG pipeline bez własnego preprocessingu.

✓ Zalety

+Całkowicie darmowy (Apache 2.0)
+v0.8.6 — Anti-Bot Detection 3-tier + Shadow DOM
+65.2K+ GitHub stars (z 60K+) — aktywna społeczność
+Structured extraction z dowolnym LLM (GPT, DeepSeek, Llama)
+Cloud API w closed beta (early access)
+Brak per-request kosztów
💰

Cennik

  • Całkowicie DARMOWY (Apache 2.0 open-source).
  • 65.2K+ GitHub stars, 6.7K forks.
  • Koszty: własny serwer + proxy (jeśli potrzebne) + LLM API (dla extraction).
  • TCO ~$485/mies.
  • Przy 100K stron.
  • Cloud API w closed beta — early access applications open (limited founding sponsor slots, dramatically lower costs vs alternatives).
🔗

API i integracje

  • Self-hosted Python library.
  • Cloud API w closed beta (early access applications).
  • Integracja z LangChain, Bright Data Web Unlocker.
📋

Aktualna wersja

  • V0.8.6 (security hotfix — replaced litellm dependency z unclecode-litellm ze względu na PyPI supply chain compromise).
  • V0.8.5: Anti-Bot Detection (3-tier z automatic proxy escalation), Shadow DOM Support (flattening dla hidden component content), Deep Crawl Cancellation (graceful stopping), 60+ bug fixes (Docker, proxy, extraction, CLI).

Szczegóły

CenaDarmowy (open-source)
KategoriaScrapery
Open-sourcev0.8.6Python65K+ starsCloud API beta