O narzędziu
LLaMA-Factory — open-source unified fine-tuning framework dla 100+ LLMs i VLMs (ACL 2024). Day-0/Day-1 support dla najnowszych releases. LlamaBoard web UI (no-code). Najszerszy feature set wśród open-source frameworków: DoRA, LoRA+, PiSSA, KTO, ORPO. Multimodal SFT (LLaVA, Qwen2.5-VL, Qwen3-VL, PaliGemma2, MiniCPM-o-2.6). FlashAttention-2, Unsloth, GaLore optimizations.
Funkcje dodatkowe
▶100+ Modeli
Najszerszy katalog w open-source: LLaMA, Mistral, Mixtral-MoE, Qwen, Yi, Gemma, Baichuan, ChatGLM, Phi i wiele wiecej. Single framework dla wszystkich popularnych open-source LLM.
▶VLMs Support
Multimodal Vision Language Models: LLaVA, Qwen2.5-VL, Qwen3-VL, PaliGemma2, MiniCPM-o-2.6. Najnowsze VLM frontier modele wspierane od day-one releases.
▶Day-0/Day-1 Support
Wsparcie dla najnowszych modeli juz w dniu (Day-0) lub nastepnego dnia (Day-1) po release. Krytyczne dla zespolow chcacych eksperymentowac z frontier models natychmiast.
▶Training Methods (SFT/PPO/DPO/KTO/ORPO)
Pelne spektrum metod: (Incremental) pre-training, (Multimodal) instruction supervision FT, Reward model training, PPO, DPO, KTO, ORPO. Wszystko w jednym frameworku z spojnym interfejsem.
▶DoRA / LoRA+ / PiSSA
Unique support dla DoRA (Weight-Decomposed LoRA), LoRA+ (asymmetric learning rates), PiSSA (Principal Singular values and Singular vectors Adaptation). Cutting-edge research techniques.
▶QLoRA 2/3/4/5/6/8-bit
Quantization w pelnym spektrum: 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, 8-bit. Pozwala dobrac optymalny trade-off pamiec/jakosc dla konkretnego GPU i wielkosci modelu.
▶LlamaBoard Web UI
No-code interface do treningu modeli — wszystkie parametry dostepne przez clickable UI. Idealne dla researchers i non-developers chcacych eksperymentowac z fine-tuningiem.
▶FlashAttention-2 + Unsloth
FlashAttention-2 dla 2-4x szybszego treningu. Integracja z Unsloth dla dalszych speedupow — wszystko in one framework. Pozwala laczyc najlepsze optymalizacje branzy.
▶GaLore (Gradient Low-Rank)
Gradient Low-Rank Projection — alternatywa dla LoRA, ktora modyfikuje gradient zamiast wag. Pozwala na fine-tuning duzych modeli z niskimi wymaganiami pamieciowymi.
▶vLLM/SGLang Workers
Built-in vLLM i SGLang workers dla faster inference po fine-tuningu. Eliminuje koniecznosc separate deployment pipeline — testowanie modeli w high-performance inference engines natychmiast.
✓ Zalety
Modele (100+)
- •LLaMA, Mistral, Mixtral-MoE, Qwen, Yi, Gemma, Baichuan, ChatGLM, Phi i więcej.
- •VLMs: LLaVA, Qwen2.5-VL, Qwen3-VL, PaliGemma2, MiniCPM-o-2.6.
- •Day-0/Day-1 support dla najnowszych modeli.
Cennik
- •Open-source (Apache 2.0).
- •$0.
- •GitHub: hiyouga/LlamaFactory.
API i integracje
- •Python library + LlamaBoard web UI.
- •Native HuggingFace integration.
- •DeepSpeed, Accelerate support.
- •OpenAI-compatible inference API.
Training methods
- •(Incremental) pre-training.
- •(Multimodal) instruction supervision FT.
- •Reward model training.
- •PPO, DPO, KTO, ORPO training.
- •DoRA, LoRA+, PiSSA — unique support.
- •QLoRA z 2/3/4/5/6/8-bit quantization dla low VRAM.
Optymalizacja
- •FlashAttention-2 (faster training).
- •Unsloth integration.
- •GaLore (Gradient Low-Rank Projection).
- •Distributed training.
- •Multi-GPU support.
UI i deployment
- •LlamaBoard web UI — no-code interface.
- •Eksport LoRA adapters do merged model na Hugging Face.
- •OpenAI-compatible API dla inference.
- •VLLM worker i SGLang worker dla faster inference.
