O narzędziu
LiteLLM — open-source LLM Gateway (MIT) do zarządzania 100+ LLM APIs w OpenAI format. Free (operational burden Twoje). Production database services: $100-$400/mies. (backups, replication, HA). Enterprise Premium $30K/rok — priority support, ale nadal Twoje infrastruktura. Self-hosted Proxy Server: 2,000+ LLMs unified, spend tracking, budgets per virtual key/user. SSO (Okta, Azure AD, Google), RBAC, audit logs.
Zastosowanie
- •Unified gateway do 2000+ LLMs (self-hosted).
- •Spend tracking i budgets per user/team.
- •Multi-LLM applications z fallback (load balancing).
- •Enterprise deployment z SSO + RBAC.
- •Cost monitoring i guardrails dla LLM calls.
Funkcje główne
- •LLM Gateway (OpenAI Proxy) do 100+ LLMs (Bedrock, Azure, OpenAI, VertexAI, Cohere, Anthropic, Sagemaker, HuggingFace, vLLM, NVIDIA NIM).
- •Self-hosted Proxy Server — 2,000+ LLMs unified interface.
- •Authentication, load balancing, spend tracking.
- •Budgets per virtual key i users.
Funkcje dodatkowe
▶Unified LLM Interface (100+/2000+ LLMs)
Single completion() interface do 100+ LLMs (Bedrock, Azure, OpenAI, VertexAI, Cohere, Anthropic, Sagemaker, HuggingFace, vLLM, NVIDIA NIM). Self-hosted Proxy Server obsluguje 2,000+ LLMs.
▶Self-hosted Proxy Gateway
Centralizowany serwer pozwalajacy zespolom zarzadzac dostepem do LLM z admin dashboard. Mozliwosc self-hostowania calej platformy w wlasnej infrastrukturze dla pelnej kontroli danych.
▶Virtual Keys Management
Generowanie wirtualnych API keys per user, team i project z odrebnymi budzetami i rate limitami. Pozwala dawac dostep zespolom bez wystawiania master kluczy provider'ow.
▶Consistent OpenAI-format Output
Wszystkie modele zwracaja odpowiedzi w standardowym formacie OpenAI Chat Completions, niezaleznie od providera. Eliminuje koniecznosc obslugi roznych response formatow w kodzie aplikacji.
▶Retry & Fallback Logic
Wbudowana resilience z automatic failover across multiple deployments via Router. Gdy primary model jest down lub rate-limited, requesty automatycznie przekierowywane do alternatyw.
▶Load Balancing & Routing
Inteligentna dystrybucja requestow miedzy roznymi deployments tego samego modelu (np. 3 deploymenty GPT-4 w roznych regionach). Zwieksza throughput i obniza latency.
▶Cost Tracking & Spend Management
Monitoring kosztow per key, team, user i model — across all providers w jednym dashboardzie. Pozwala identyfikowac najdrozszych uzytkownikow i optymalizowac wybor modeli pod cost-effectiveness.
▶Observability Integration
Native integracje z Langfuse, MLflow, Helicone i innymi platformami observability. Logi i traces automatycznie wysylane do wybranego narzedzia, bez recznej instrumentacji.
▶Enterprise Security
SSO/SAML dla Admin UI: Okta, Azure AD, Google Workspace, OIDC. JWT-based Authentication, audit logs z retention policies, RBAC, IP-based access control lists. Plan Premium $30K/rok.
▶Agent & MCP Gateway
Unified endpoint dla LLMs, agentow i MCP tools w jednej platformie. LiteLLM rozszerza routing LLM o orchestrację dla agentic AI workflows, z guardrails i logging dla wszystkich tool calls.
✓ Zalety
Cennik
- •Open-source (MIT): $0 — fork, modify, commercial use.
- •Operational costs: $100-$400/mies.
- •(production database, backups, HA).
- •Enterprise Premium: $30,000/rok — priority support (Ty zarządzasz infrastrukturą).
- •AWS Marketplace: dostępny (Private Offer).
API i integracje
- •Python SDK.
- •Proxy Server (AI Gateway).
- •OpenAI-compatible format.
- •Cost tracking, guardrails, load balancing, logging.
Enterprise Features
- •SSO dla Admin UI: Okta, Azure AD, Google Workspace, OIDC/SAML.
- •JWT-based Authentication.
- •Audit Logs z retention policies.
- •Role-Based Access Control (RBAC).
- •IP address-based access control lists.
- •Key rotations.
- •Team-level budgets.
