O narzędziu
TRL (Transformer Reinforcement Learning) + PEFT (Parameter-Efficient Fine-Tuning) — open-source biblioteki Hugging Face. PEFT to state-of-the-art parameter-efficient fine-tuning. TRL pełna integracja z PEFT (LoRA, QLoRA, prompt tuning). Wszystkie TRL trainers wspierają PEFT przez peft_config argument. QLoRA z 4-bit quantization dla low VRAM. Aktywnie rozwijane (III-IV 2026).
Zastosowanie
- •LoRA/QLoRA fine-tuning na consumer GPU (RTX 4090, 3090).
- •RLHF training (reward model + PPO/DPO).
- •Memory-efficient fine-tuning dużych modeli (70B+).
- •Multi-GPU distributed training (Accelerate).
- •Production-ready training pipelines.
Funkcje dodatkowe
▶SFTTrainer
Supervised Fine-Tuning trainer dla klasycznego instruction tuning. Najprostszy sposob na adaptacje LLM do specyficznych zadan — podajesz dataset z input/output pairs, SFTTrainer robi reszte.
▶RLHFTrainer (PPO)
Reinforcement Learning from Human Feedback z Proximal Policy Optimization. Klasyczny pipeline RLHF: reward model + PPO — wymagany do treningu modeli typu ChatGPT/Claude.
▶DPOTrainer
Direct Preference Optimization — uproszczona alternatywa dla RLHF bez reward modelu. Trening na parach (preferred/rejected) odpowiedzi, konkurencyjna jakosc do PPO przy znacznie prostszej implementacji.
▶ORPOTrainer
Odds Ratio Preference Optimization — najnowsza technika preferowanego treningu. Laczy SFT i preference optimization w jeden krok, bez wymagania reference model jak w DPO.
▶KTOTrainer
Kahneman-Tversky Optimization — preference training inspirowany psychologia behawioralna (loss aversion). Wymaga tylko binarnych etykiet (good/bad), bez par preferowanych odpowiedzi.
▶GRPO Training
Group Relative Policy Optimization — technika treningu reasoning models (typu DeepSeek R1, o1). Optymalizuje wybor odpowiedzi w grupach kandydatow, kluczowe dla nauki rozumowania step-by-step.
▶PEFT LoRA/QLoRA
Low-Rank Adaptation — trening tylko niewielkiej liczby parametrow (0.1-1% calego modelu). QLoRA dodaje 4-bit quantization, umozliwiajac fine-tuning 70B modeli na consumer GPU (RTX 3090/4090).
▶PEFT AdaLoRA/IA3/OFT
Zaawansowane warianty PEFT: AdaLoRA (adaptive rank allocation), IA3 (multiplicative adaptations), OFT (orthogonal fine-tuning). State-of-the-art techniki parameter-efficient fine-tuning.
▶bitsandbytes Quantization
Natywna integracja z bitsandbytes dla 4-bit i 8-bit quantization. Pozwala mieszczonyc duze modele (70B+) na pojedynczym GPU z minimalnym spadkiem jakosci.
▶FlashAttention + Accelerate
FlashAttention dla 2-4x szybszego treningu (memory-efficient attention). Accelerate dla multi-GPU distributed training z minimalnymi zmianami w kodzie.
✓ Zalety
Cennik
- •Open-source, Apache 2.0 (TRL) i Apache 2.0 (PEFT).
- •Brak kosztów software.
- •Koszty: GPU compute (lokalnie lub cloud) + storage modeli.
API i integracje
- •Python library (pip install peft trl).
- •Native integration z transformers.
- •Hugging Face Hub dla modeli i datasetów.
- •Bitsandbytes dla 4-bit/8-bit quantization.
- •FlashAttention support.
- •Accelerate dla multi-GPU.
TRL — Transformer Reinforcement Learning
- •SFTTrainer (supervised fine-tuning).
- •RLHFTrainer (reward + PPO).
- •DPOTrainer (Direct Preference Optimization).
- •ORPOTrainer (Odds Ratio Preference Optimization).
- •KTOTrainer (Kahneman-Tversky Optimization).
- •GRPO i RLHF training.
- •Pełna integracja z PEFT przez peft_config.
PEFT — Parameter-Efficient Fine-Tuning
- •State-of-the-art parameter-efficient fine-tuning.
- •LoRA (Low-Rank Adaptation).
- •QLoRA (4-bit quantized + LoRA).
- •Prompt tuning, P-tuning, Prefix tuning.
- •AdaLoRA, IA3, OFT i więcej.
- •Active development z najnowszą wersją transformers.
