This skill should be used when users want to train or fine-tune language models using TRL (Transformer Reinforcement Learning) on Hugging Face Jobs infrastructure. Covers SFT, DPO, GRPO and reward modeling training methods, plus GGUF conversion for...
当用户希望在 Hugging Face 任务基础设施上使用 TRL(Transformer 强化学习)训练或微调语言模型时,请使用本技能。涵盖 SFT、DPO、GRPO 和奖励建模等训练方法,以及 GGUF 格式转换
直接复制以下提示词,发送给你的 AI 助手即可完成安装。
点击右上角 下载SKILL 按钮