
一个使用简单、原始的 C/CUDA 进行LLM培训的项目,旨在提供轻量级的实现,减少对大型库的依赖。
llm的特点:
1. 快速编译和运行,代码量小(约1000行)
2. 与PyTorch参考实现完全匹配
3. 直接的CUDA实现以提高速度
4. 使用SIMD指令加速CPU版本
5. 支持现代架构,如Llama2、Gemma等
llm的功能:
1. 训练GPT-2模型
2. 编译并运行简单的LLM项目
3. 在不同硬件架构上进行性能优化
相关导航
暂无评论...
一个使用简单、原始的 C/CUDA 进行LLM培训的项目,旨在提供轻量级的实现,减少对大型库的依赖。
llm的特点:
1. 快速编译和运行,代码量小(约1000行)
2. 与PyTorch参考实现完全匹配
3. 直接的CUDA实现以提高速度
4. 使用SIMD指令加速CPU版本
5. 支持现代架构,如Llama2、Gemma等
llm的功能:
1. 训练GPT-2模型
2. 编译并运行简单的LLM项目
3. 在不同硬件架构上进行性能优化