最小化RLHF实现