Strona główna›Narzędzia AI›Hosting Modeli AI›Groq

Groq

✦ Polecany

Pay-per-token (od $0.05/M)Odwiedź stronę →

O narzędziu

Groq — najszybszy LLM inference w 2026 (300-1,000 tok/s na custom LPU hardware, 3-10x faster niż GPU). Pay-per-token: Llama 3.1 8B $0.05/$0.08, Llama 3.3 70B $0.59/$0.79, Llama 4 Scout $0.11/$0.34. Free tier: każdy model bez karty kredytowej. Batch API i prompt caching: -50% każdy (stackable do ~25% on-demand). Llama 3.1 8B 840 tok/s, GPT OSS 20B ~1,000 tok/s, Llama 3.3 70B ~394 tok/s.

✨

Funkcje dodatkowe

▶LPU (Language Processing Unit)

Custom hardware zaprojektowane specjalnie dla LLM inference — 300-1,000 tokens/sekunde. 3-10x faster niz GPU-based providers, dramatically obniza latency dla customer-facing AI.

▶300-1,000 tokens/sekunde

Bezprecedensowa predkosc generowania tokenow — Llama 3.1 8B 840 tok/s, GPT OSS 20B ~1,000 tok/s, Llama 3.3 70B ~394 tok/s. Pozwala na real-time AI experiences niemozliwe na GPU.

▶Llama 3.1 8B (840 tok/s)

Najszybsza inference Llama 3.1 8B w branzy — 840 tokens/sekunde na cene $0.05/$0.08 per M tokens (input/output). Idealne dla chatbotow, code completion i real-time applications.

▶GPT OSS 20B (~1,000 tok/s)

GPT OSS 20B na LPU osiaga ~1,000 tokens/sekunde — niedoscigniona kombinacja modelu jakosci frontier i szybkoosci nieosiagalnej dla GPU-based competitors.

▶Free Tier

Free tier dla wszystkich modeli bez wymagania credit card. Pozwala developerom testowac LPU performance przed commitment do paid plans — najczynsza onboarding w branzy hostingu LLM.

▶Batch API (-50%)

Batch API z 50% rabatem dla non-real-time workloads. Idealne dla bulk content generation, analytics, embedding generation, gdzie latency nie jest krytyczna.

▶Prompt Caching (-50%)

Automatyczne cache podobnych promptow z 50% dyskontem na ponownie uzywanych tokenach. Krytyczne dla RAG aplikacji z duzymi system promptami.

▶Stackable Discounts (~25%)

Mozliwosc laczenia Batch API + Prompt Caching dla efektywnej ceny ~25% on-demand pricing. Najniższe koszty per token w branzy LLM inference, jesli wykorzystywane optymalnie.

▶OpenAI-compatible API

Drop-in replacement dla OpenAI client — istniejace aplikacje uzywajace OpenAI SDK dzialaja po zmianie endpoint URL i API key. Zero koszt migracji do Groq LPU.

▶Python/JS SDK + Streaming

Native Python i JavaScript SDKs z full streaming support. Streaming jest szczegolnie efektowny na LPU — uzytkownik widzi odpowiedz prawie natychmiast po wyslaniu zapytania.

✓ Zalety

+NAJSZYBSZY LLM inference (300-1000 tok/s)

+3-10x faster niż GPU providers

+Llama 3.1 8B tylko $0.05/M (input)

+Free tier — każdy model bez karty

+Batch + caching = ~25% on-demand

+OpenAI-compatible drop-in

🧠

Pricing per model

•Llama 3.1 8B: $0.05/$0.08 input/output per M tokens.
•Llama 3.3 70B: $0.59/$0.79/M.
•Llama 4 Scout: $0.11/$0.34/M.
•Inne open-source models w katalogu.

💰

Cennik

•Free tier: każdy model, no credit card.
•Pay-per-token: Llama 3.1 8B $0.05/$0.08/M, Llama 3.3 70B $0.59/$0.79/M, Llama 4 Scout $0.11/$0.34/M.
•Batch API: -50%.
•Prompt caching: -50%.
•Stackable: ~25% on-demand.
•OpenAI-compatible drop-in.

🔗