O narzędziu
Groq — najszybszy LLM inference w 2026 (300-1,000 tok/s na custom LPU hardware, 3-10x faster niż GPU). Pay-per-token: Llama 3.1 8B $0.05/$0.08, Llama 3.3 70B $0.59/$0.79, Llama 4 Scout $0.11/$0.34. Free tier: każdy model bez karty kredytowej. Batch API i prompt caching: -50% każdy (stackable do ~25% on-demand). Llama 3.1 8B 840 tok/s, GPT OSS 20B ~1,000 tok/s, Llama 3.3 70B ~394 tok/s.
Funkcje dodatkowe
▶LPU (Language Processing Unit)
Custom hardware zaprojektowane specjalnie dla LLM inference — 300-1,000 tokens/sekunde. 3-10x faster niz GPU-based providers, dramatically obniza latency dla customer-facing AI.
▶300-1,000 tokens/sekunde
Bezprecedensowa predkosc generowania tokenow — Llama 3.1 8B 840 tok/s, GPT OSS 20B ~1,000 tok/s, Llama 3.3 70B ~394 tok/s. Pozwala na real-time AI experiences niemozliwe na GPU.
▶Llama 3.1 8B (840 tok/s)
Najszybsza inference Llama 3.1 8B w branzy — 840 tokens/sekunde na cene $0.05/$0.08 per M tokens (input/output). Idealne dla chatbotow, code completion i real-time applications.
▶GPT OSS 20B (~1,000 tok/s)
GPT OSS 20B na LPU osiaga ~1,000 tokens/sekunde — niedoscigniona kombinacja modelu jakosci frontier i szybkoosci nieosiagalnej dla GPU-based competitors.
▶Free Tier
Free tier dla wszystkich modeli bez wymagania credit card. Pozwala developerom testowac LPU performance przed commitment do paid plans — najczynsza onboarding w branzy hostingu LLM.
▶Batch API (-50%)
Batch API z 50% rabatem dla non-real-time workloads. Idealne dla bulk content generation, analytics, embedding generation, gdzie latency nie jest krytyczna.
▶Prompt Caching (-50%)
Automatyczne cache podobnych promptow z 50% dyskontem na ponownie uzywanych tokenach. Krytyczne dla RAG aplikacji z duzymi system promptami.
▶Stackable Discounts (~25%)
Mozliwosc laczenia Batch API + Prompt Caching dla efektywnej ceny ~25% on-demand pricing. Najniższe koszty per token w branzy LLM inference, jesli wykorzystywane optymalnie.
▶OpenAI-compatible API
Drop-in replacement dla OpenAI client — istniejace aplikacje uzywajace OpenAI SDK dzialaja po zmianie endpoint URL i API key. Zero koszt migracji do Groq LPU.
▶Python/JS SDK + Streaming
Native Python i JavaScript SDKs z full streaming support. Streaming jest szczegolnie efektowny na LPU — uzytkownik widzi odpowiedz prawie natychmiast po wyslaniu zapytania.
✓ Zalety
Pricing per model
- •Llama 3.1 8B: $0.05/$0.08 input/output per M tokens.
- •Llama 3.3 70B: $0.59/$0.79/M.
- •Llama 4 Scout: $0.11/$0.34/M.
- •Inne open-source models w katalogu.
Cennik
- •Free tier: każdy model, no credit card.
- •Pay-per-token: Llama 3.1 8B $0.05/$0.08/M, Llama 3.3 70B $0.59/$0.79/M, Llama 4 Scout $0.11/$0.34/M.
- •Batch API: -50%.
- •Prompt caching: -50%.
- •Stackable: ~25% on-demand.
- •OpenAI-compatible drop-in.
API i integracje
- •OpenAI-compatible API.
- •Python/JS SDK.
- •REST API.
- •Streaming support.
- •Drop-in replacement dla OpenAI client.
LPU (Language Processing Unit)
- •Custom hardware — 300-1,000 tokens/sekundę.
- •3-10x faster niż GPU-based providers.
- •Llama 3.1 8B: 840 tok/s.
- •GPT OSS 20B: ~1,000 tok/s.
- •Llama 3.3 70B: ~394 tok/s.
- •Llama 4 Scout: 594 tok/s.
Free tier i discounts
- •Free tier — każdy model, no credit card.
- •Batch API: 50% rabatu.
- •Prompt caching: 50% rabatu.
- •Stackable: ~25% on-demand pricing przy obu.
