本项目研究了大语言模型中的epoch次数设置问题,深入探讨训练epoch数量对模型性能的影响,以及在不同数据集上epoch数量的变化如何影响训练的充分性和效果。
Stable Fast 是一个超轻量级的推断性能优化库,专为在 NVIDIA GPU 上优化 HuggingFace Diffusers 库的性能而设计。
FreeAiKit是由Prgmine提供的一套AI工具,旨在帮助用户完成各种与AI相关的任务,且免费提供。用户可以通过访问网站浏览工具,每个工具都有详细的描述和使用说明,用户可根据指南选择所需工具并应用于AI项目。
从零开始构建自己的大型语言模型,提供详细教程和代码实现,覆盖编码、预训练和微调过程,适用于对自然语言处理和人工智能领域感兴趣的开发者和研究者
VLLM是一个高效的语言模型的推理框架,旨在简化大规模语言模型的部署和推理过程。它支持多种语言模型的快速加载与使用,并提供高效的批处理推理功能,同时支持动态分配硬件资源以优化性能。VLLM内置多种优化算法以提高推理速度,并提供详细的性能监测和调试工具。
该论文提出了一种训练语言模型的方法,通过同时预测多个未来Token来提高样本效率,并在多个生成基准上实现了显著的性能提升。
Substratus.AI是一个专注于大规模语言模型(LLMs)的平台,旨在以极简的方式实现机器学习模型的部署和微调。用户可以在几分钟内安装所需的ML平台,并通过单个命令轻松运行和微调最先进的LLMs。
提出 RetNet 作为 LLM 的基础架构,同时实现训练并行性、低成本推理和良好性能。
Stick-breaking Attention 是一种基于 Triton 的变长序列注意力机制实现,旨在通过优化计算方式提升在 GPU 上的性能,适合多种深度学习任务,易于与现有框架集成。
midGPT是一个基于Jax和Equinox的大型语言模型分布式预训练框架,能够在云TPU切片上高效训练数十亿参数的GPT风格解码器模型,旨在提升语言模型的训练效率和性能。
Self-Consistency是Google提出的一种方法,通过对单一模型进行多次采样和结果融合,显著提升大规模语言模型的推理能力和输出结果的可信度。该方法特别适用于大模型,能够生成高质量的训练数据,从而优化模型的训练过程。
OpenAI Tools是一个综合工具包,旨在帮助用户充分利用他们的OpenAI账号。它提供了API使用情况跟踪、ChatGPT微调数据集管理、微调任务的创建、监控和取消、训练日志的审查和可视化、直接测试和比较微调及其他模型等功能。
一个完整的大语言模型(LLM)可解释性研究项目,使用稀疏自编码器(SAE)分析Llama 3.2模型,由纯PyTorch实现且可完全复现。包含从数据采集、SAE训练、特征分析到验证的全套流程,可帮助理解模型内部行为和概念表示
这是一个众包AI计算的平台,能让你把各种设备汇聚起来,变成强大的AI平台,就像把零散的积木拼成一个超级机器人,无论是个人还是团队都能轻松部署和管理AI模型,还不用担心隐私问题,完全免费。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型