nanoChatGPT是在nanoGPT基础上,结合了人类反馈的强化学习层,使用Gumbel-Softmax技巧以提高训练效率,适合进行小型模型的快速实验。
这是一个完整的管道,用于在消费硬件上使用LoRA和RLHF微调Alpaca LLM。基于Alpaca架构实现人类反馈的强化学习(RLHF),基本上是ChatGPT的一个变体,但使用的是Alpaca。