开源深度学习编译器堆栈,专为CPU、GPU和专业加速器设计,支持简化和高性能的GPU内核编写。
Deepseek-V3-Base是一个参数量达到685B的AI模型,采用MoE架构,虽然官方尚未公开详细信息,但其性能表现优越,已被广泛认可,成为开源领域的亮点。
一个强大的框架,通过集成sparse kernel、量化、剪枝和注意力键/值的缓存,进一步优化了在CPU上进行的能力。
开源的提示工程平台,旨在帮助开发者和产品团队更容易地构建和管理 AI 特性,提供协作管理、测试、性能分析和实时评估等功能,支持云端和自托管两种部署方式
Qwen2-VL微调工具:用于微调开源多模态大模型Qwen2-VL,支持单GPU和多GPU训练,提供简易上手的微调脚本和数据,旨在帮助开发者快速进行模型微调或再训练
FastLLM是一个动态策略选择的深度学习模型训练代码库,集成了Deepspeed、Megatron、FlashAttention、CudaFusionKernel和编译器技术,旨在优化大规模语言模型的训练效率,提供更加灵活和高效的训练方案。
一个高效的深度学习训练框架,旨在简化模型训练和优化过程,提供了多种预训练模型和工具,适用于计算机视觉任务。
CompressGPT 是一个提示压缩器,可以为大多数基于 LangChain 工具的提示减少约70% 的Token,只需更改一行代码,帮助用户在文本生成和处理时大幅降低成本和提高效率。