O narzędziu
Jina AI Reader to najprostsze narzędzie do pobierania treści ze stron. Wystarczy dodać r.jina.ai/{URL}. ReaderLM-v2 (1.5B parametrów) — 20% wyższa accuracy konwersji HTML→Markdown w 29 językach, dokumenty do 512K tokens. Endpoints: r.jina.ai (Reader), s.jina.ai (Search), mcp.jina.ai (MCP Server). 10M darmowych tokenów na start. EU data residency, SOC 2 compliance.
Zastosowanie
- •Konwersja stron internetowych na Markdown do RAG pipeline.
- •Zasilanie baz wiedzy dla chatbotów AI.
- •Ekstrakcja treści artykułów do analizy.
- •Budowanie korpusów tekstowych do fine-tuningu modeli.
- •Integracja z LLM przez MCP Server.
- •Automatyczne indeksowanie dokumentacji technicznej.
Funkcje dodatkowe
▶Reader API (r.jina.ai/{URL})
Najprostszy w branży scraping API — dodajesz `r.jina.ai/` przed URL i dostajesz Markdown. Zero konfiguracji, zero API key dla podstawowego użycia. Idealny pierwszy krok dla każdego LLM RAG.
▶Search API (s.jina.ai/{query})
Web search API zwracający top 5 wyników jako Markdown (gotowe do feedu LLM). Konkurencja dla Tavily, Serper, Brave Search API — w wyjątkowo prostej składni URL-owej.
▶ReaderLM-v2 (1.5B, 29 języków, 512K tokens)
1.5B-parameter language model z 20% wyższą accuracy konwersji HTML → Markdown vs poprzednia generacja. Obsługa 29 języków, dokumenty do 512K tokens. Najlepszy dedykowany model do tej konwersji.
▶MCP Server (mcp.jina.ai)
Oficjalny MCP Server od Jina — pozwala AI clients (Claude, Cursor) używać Reader API i Search API jako tools. Bez konieczności custom integration z OpenAI Tools czy function calling.
▶CSS selectors + Wait-for elements
Selektywne ekstraktowanie tylko określonych elementów strony przez CSS selectors. Wait-for elements pozwala czekać na dynamic content (SPA loading) przed scrapingiem.
▶JS execution + Shadow DOM extraction
Pełne wykonywanie JavaScript + ekstrakcja z Shadow DOM (Web Components, encapsulated widgets). Działa na nowoczesnych frameworkach (LitElement, Stencil) niedostępnych dla większości scraperów.
▶Native PDF + image captioning
Wbudowane wsparcie PDF (extraction tekstu, tabel) + AI captioning obrazów z alt tags. Pozwala LLM "zobaczyć" treść obrazów bez separate vision API call — wszystko w jednym pipeline.
▶EU data residency + SOC 2
Dane przetwarzane w EU (Niemcy) — krytyczne dla GDPR compliance. SOC 2 Type 1 i Type 2 compliance dostępne. Wymagane przez europejskie korporacje i finance/healthcare US.
✓ Zalety
Dostępne modele
- •ReaderLM-v2 (1.5B parametrów, 20% wyższa accuracy HTML→Markdown, 29 języków, dokumenty do 512K tokens).
- •Native PDF support.
- •Image processing z auto captioning (alt tags dla LLM).
Cennik
- •10 milionów darmowych tokenów na start.
- •Free API Key: 500 RPM, 100K TPM.
- •Paid API Key: 500 RPM, 2M TPM.
- •Premium API Key: 5,000 RPM, 50M TPM.
- •Token-based pricing, skalowalny.
- •SOC 2 Type 1 i 2 compliant.
- •EU data residency.
API i integracje
- •REST API.
- •Endpoints: r.jina.ai/{URL} (Reader), s.jina.ai/{query} (Search), mcp.jina.ai (MCP Server).
- •Parametry: CSS selectors, wait-for, JS execution, strip images, OpenAI citation format.
- •JSON schema dla structured data.
