Strona główna›Narzędzia AI›Dostrajanie Modeli›HF TRL/PEFT

HF TRL/PEFT

O narzędziu

TRL (Transformer Reinforcement Learning) + PEFT (Parameter-Efficient Fine-Tuning) — open-source biblioteki Hugging Face. PEFT to state-of-the-art parameter-efficient fine-tuning. TRL pełna integracja z PEFT (LoRA, QLoRA, prompt tuning). Wszystkie TRL trainers wspierają PEFT przez peft_config argument. QLoRA z 4-bit quantization dla low VRAM. Aktywnie rozwijane (III-IV 2026).

📋

Zastosowanie

•LoRA/QLoRA fine-tuning na consumer GPU (RTX 4090, 3090).
•RLHF training (reward model + PPO/DPO).
•Memory-efficient fine-tuning dużych modeli (70B+).
•Multi-GPU distributed training (Accelerate).
•Production-ready training pipelines.

✨

Funkcje dodatkowe

▶SFTTrainer

Supervised Fine-Tuning trainer dla klasycznego instruction tuning. Najprostszy sposob na adaptacje LLM do specyficznych zadan — podajesz dataset z input/output pairs, SFTTrainer robi reszte.

▶RLHFTrainer (PPO)

Reinforcement Learning from Human Feedback z Proximal Policy Optimization. Klasyczny pipeline RLHF: reward model + PPO — wymagany do treningu modeli typu ChatGPT/Claude.

▶DPOTrainer

Direct Preference Optimization — uproszczona alternatywa dla RLHF bez reward modelu. Trening na parach (preferred/rejected) odpowiedzi, konkurencyjna jakosc do PPO przy znacznie prostszej implementacji.

▶ORPOTrainer

Odds Ratio Preference Optimization — najnowsza technika preferowanego treningu. Laczy SFT i preference optimization w jeden krok, bez wymagania reference model jak w DPO.

▶KTOTrainer

Kahneman-Tversky Optimization — preference training inspirowany psychologia behawioralna (loss aversion). Wymaga tylko binarnych etykiet (good/bad), bez par preferowanych odpowiedzi.

▶GRPO Training

Group Relative Policy Optimization — technika treningu reasoning models (typu DeepSeek R1, o1). Optymalizuje wybor odpowiedzi w grupach kandydatow, kluczowe dla nauki rozumowania step-by-step.

▶PEFT LoRA/QLoRA

Low-Rank Adaptation — trening tylko niewielkiej liczby parametrow (0.1-1% calego modelu). QLoRA dodaje 4-bit quantization, umozliwiajac fine-tuning 70B modeli na consumer GPU (RTX 3090/4090).

▶PEFT AdaLoRA/IA3/OFT

Zaawansowane warianty PEFT: AdaLoRA (adaptive rank allocation), IA3 (multiplicative adaptations), OFT (orthogonal fine-tuning). State-of-the-art techniki parameter-efficient fine-tuning.

▶bitsandbytes Quantization

Natywna integracja z bitsandbytes dla 4-bit i 8-bit quantization. Pozwala mieszczonyc duze modele (70B+) na pojedynczym GPU z minimalnym spadkiem jakosci.

▶FlashAttention + Accelerate

FlashAttention dla 2-4x szybszego treningu (memory-efficient attention). Accelerate dla multi-GPU distributed training z minimalnymi zmianami w kodzie.