O narzędziu
Promptfoo to darmowe open-source narzędzie do testowania bezpieczeństwa i jakości promptów. Sprawdza 50+ typów zagrożeń (prompt injection, PII leaks, jailbreaks, toxicity). 21K+ GitHub stars (z 10.8K!). MCP Proxy dostępny w pricingu. Community Free Forever: 10K red-team probes/mies., wszystkie LLM evaluation features, wszystkie model providers. Enterprise: SSO, API, managed cloud, monitoring. On-Premise: complete data isolation. Część OpenAI od marca 2026 ($86M acquisition).
Zastosowanie
- •Testowanie promptów w CI/CD pipeline.
- •Red teaming modeli AI (wykrywanie prompt injection, PII leaks).
- •Porównywanie jakości odpowiedzi wielu modeli.
- •Regression testing po zmianach promptów.
- •Audyt bezpieczeństwa aplikacji LLM.
- •MCP Proxy do bezpiecznego mediowania komunikacji z MCP servers.
Funkcje dodatkowe
▶CLI prompt evaluation
Najprostsze w branży CLI do oceny promptów — `promptfoo eval` uruchamia testy na konfiguracji YAML i zwraca wyniki. CLI-first podejście idealne dla developerów i CI/CD.
▶Red teaming (50+ vulnerability types)
Najobszerniejsze w branży red teaming — 50+ typów podatności: prompt injection, PII exposure, jailbreak, toxicity, hallucinations. Standard dla AI security testing przed deploymentem.
▶MCP Proxy (NEW 2026)
MCP Proxy w pricingu 2026 — pośredniczy między AI clients a MCP servers, dodając security checks i monitoring. Krytyczne dla enterprise deploymentów MCP z compliance requirements.
▶YAML config (repo-stored, version control)
Konfiguracja testów w YAML files commitowanych do repozytorium. Pełna integracja z Git workflow — testy promptów jako kod, code review, branches, history.
▶Multi-model comparison
Porównanie tego samego prompta na wszystkich providers (OpenAI, Anthropic, Google, Mistral, Llama itd.). Pozwala wybrać najlepszy model dla konkretnego use case z metrykami.
▶Regression testing
Automatyczne wykrywanie regression — gdy nowa wersja promptu degraduje jakość względem poprzedniej, testy failują. Wymagane dla production LLM pipelines z continuous deployment.
▶GitHub Actions CI/CD
Pełna integracja z GitHub Actions — testy promptów uruchamiane na każdy pull request. Eliminuje ryzyko mergowania złych promptów do main bez weryfikacji jakości.
▶Custom evaluators (JS/TS)
Możliwość pisania custom evaluators w JavaScript/TypeScript. Dla domain-specific tests które nie pasują do built-in checks — np. validacja JSON schema, semantic similarity z BERT score.
▶Local execution (dane nie opuszczają maszyny)
Testy uruchamiane lokalnie — dane wrażliwe (PII, klientów, IP firmy) nie są wysyłane do trzecich providers. Krytyczne dla compliance (RODO, HIPAA, ITAR).
✓ Zalety
Cennik
- •Community Free Forever: $0 (open-source, all LLM evaluation features, all model providers, 10,000 red-team probes/mies., self-hosted/local).
- •Enterprise: custom (team collaboration, continuous monitoring, centralized security/compliance dashboard, customizable attack profiles, SSO, API access, managed cloud, priority support + SLA).
- •On-Premise: custom (all Enterprise features + complete data isolation + dedicated runner + assigned deployment engineer).
- •UWAGA: OpenAI przejął Promptfoo 9 marca 2026 za $86M.
API i integracje
- •CLI API.
- •YAML config (repo-stored).
- •JavaScript/TypeScript custom providers.
- •GitHub Actions integration.
- •Webhooks.
- •MCP Proxy (NOWY w pricingu 2026).
