一个强化学习项目,旨在通过少量示例训练大型语言模型以进行数学推理和解决问题。该项目通过使用少量数据和简化的训练流程,使得AI推理训练更加高效,且小模型也能表现出强大的推理能力。
ChatGLM_multi_gpu_zero_Tuning是一个结合deepspeed和trainer的框架,旨在高效实现多卡微调大模型,目前支持LoRA、Ptuning-v2和Freeze三种微调方式,能够充分利用多卡资源,简化微调流程,适用于研究和开发.