Strona głównaNarzędzia AIDostrajanie ModeliHF TRL/PEFT
HF TRL/PEFT

HF TRL/PEFT

0(0)·Dostrajanie Modeli
Darmowy (open-source)Odwiedź stronę →

O narzędziu

TRL (Transformer Reinforcement Learning) + PEFT (Parameter-Efficient Fine-Tuning) — open-source biblioteki Hugging Face. PEFT to state-of-the-art parameter-efficient fine-tuning. TRL pełna integracja z PEFT (LoRA, QLoRA, prompt tuning). Wszystkie TRL trainers wspierają PEFT przez peft_config argument. QLoRA z 4-bit quantization dla low VRAM. Aktywnie rozwijane (III-IV 2026).

📋

Zastosowanie

  • LoRA/QLoRA fine-tuning na consumer GPU (RTX 4090, 3090).
  • RLHF training (reward model + PPO/DPO).
  • Memory-efficient fine-tuning dużych modeli (70B+).
  • Multi-GPU distributed training (Accelerate).
  • Production-ready training pipelines.

Funkcje dodatkowe

SFTTrainer

Supervised Fine-Tuning trainer dla klasycznego instruction tuning. Najprostszy sposob na adaptacje LLM do specyficznych zadan — podajesz dataset z input/output pairs, SFTTrainer robi reszte.

RLHFTrainer (PPO)

Reinforcement Learning from Human Feedback z Proximal Policy Optimization. Klasyczny pipeline RLHF: reward model + PPO — wymagany do treningu modeli typu ChatGPT/Claude.

DPOTrainer

Direct Preference Optimization — uproszczona alternatywa dla RLHF bez reward modelu. Trening na parach (preferred/rejected) odpowiedzi, konkurencyjna jakosc do PPO przy znacznie prostszej implementacji.

ORPOTrainer

Odds Ratio Preference Optimization — najnowsza technika preferowanego treningu. Laczy SFT i preference optimization w jeden krok, bez wymagania reference model jak w DPO.

KTOTrainer

Kahneman-Tversky Optimization — preference training inspirowany psychologia behawioralna (loss aversion). Wymaga tylko binarnych etykiet (good/bad), bez par preferowanych odpowiedzi.

GRPO Training

Group Relative Policy Optimization — technika treningu reasoning models (typu DeepSeek R1, o1). Optymalizuje wybor odpowiedzi w grupach kandydatow, kluczowe dla nauki rozumowania step-by-step.

PEFT LoRA/QLoRA

Low-Rank Adaptation — trening tylko niewielkiej liczby parametrow (0.1-1% calego modelu). QLoRA dodaje 4-bit quantization, umozliwiajac fine-tuning 70B modeli na consumer GPU (RTX 3090/4090).

PEFT AdaLoRA/IA3/OFT

Zaawansowane warianty PEFT: AdaLoRA (adaptive rank allocation), IA3 (multiplicative adaptations), OFT (orthogonal fine-tuning). State-of-the-art techniki parameter-efficient fine-tuning.

bitsandbytes Quantization

Natywna integracja z bitsandbytes dla 4-bit i 8-bit quantization. Pozwala mieszczonyc duze modele (70B+) na pojedynczym GPU z minimalnym spadkiem jakosci.

FlashAttention + Accelerate

FlashAttention dla 2-4x szybszego treningu (memory-efficient attention). Accelerate dla multi-GPU distributed training z minimalnymi zmianami w kodzie.

✓ Zalety

+Open-source state-of-the-art (Apache 2.0)
+Full integration: LoRA, QLoRA, DPO, ORPO, KTO, PPO, RLHF
+Active development (Hugging Face)
+QLoRA: 4-bit quantization dla low VRAM
+Native transformers integration
+FlashAttention + Accelerate (multi-GPU)
💰

Cennik

  • Open-source, Apache 2.0 (TRL) i Apache 2.0 (PEFT).
  • Brak kosztów software.
  • Koszty: GPU compute (lokalnie lub cloud) + storage modeli.
🔗

API i integracje

  • Python library (pip install peft trl).
  • Native integration z transformers.
  • Hugging Face Hub dla modeli i datasetów.
  • Bitsandbytes dla 4-bit/8-bit quantization.
  • FlashAttention support.
  • Accelerate dla multi-GPU.
📋

TRL — Transformer Reinforcement Learning

  • SFTTrainer (supervised fine-tuning).
  • RLHFTrainer (reward + PPO).
  • DPOTrainer (Direct Preference Optimization).
  • ORPOTrainer (Odds Ratio Preference Optimization).
  • KTOTrainer (Kahneman-Tversky Optimization).
  • GRPO i RLHF training.
  • Pełna integracja z PEFT przez peft_config.
📋

PEFT — Parameter-Efficient Fine-Tuning

  • State-of-the-art parameter-efficient fine-tuning.
  • LoRA (Low-Rank Adaptation).
  • QLoRA (4-bit quantized + LoRA).
  • Prompt tuning, P-tuning, Prefix tuning.
  • AdaLoRA, IA3, OFT i więcej.
  • Active development z najnowszą wersją transformers.

Szczegóły

CenaDarmowy (open-source)
KategoriaDostrajanie Modeli
TRLPEFTLoRA/QLoRARLHFDPO/ORPO