吴恩达的课程,旨在引导学员完成LLM预训练流程,包括数据准备、模型架构配置、训练和评估。学员将学习如何使用HuggingFace获取训练数据,配置Transformer网络,运行训练并进行性能评估,同时探讨深度升级技术以降低计算成本。
一个完整的管道,用于在消费级硬件上使用LoRA和RLHF微调Vicuna LLM。该项目实现了基于Vicuna架构的RLHF(强化学习与人类反馈),基本上是ChatGPT的变种,但使用Vicuna。
FewCLUE是一个专为中文自然语言处理设计的小样本学习测评基准,提供多种评测任务,支持各种模型和算法的评估,易于扩展和定制,旨在推动中文NLP研究的发展。
BitNet是微软发布的1-bit LLM变体研究,支持在CPU上快速无损地推理1.58位模型。该项目通过将每个参数表示为三进制数 {-1, 0, 1},显著改善了时延、内存利用、吞吐量和能耗,能够在苹果M2等CPU上运行,适用于1.58位模型的无损推理。
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
LLM-Dojo是一个开源大模型学习场,提供简洁易读的代码框架,支持多种主流模型的训练和强化学习技术,旨在帮助AI爱好者和研究者进行深入的研究和开发。
JupyterLab-TensorBoard-Pro是一个TensorBoard插件,为JupyterLab提供了更完善的功能。它能将TensorBoard整合到JupyterLab中,使用户能够更方便地在JupyterLab中使用TensorBoard。这是一个开源项目,用户可以自由使用。该插件专为机器学习任务设计,可以在JupyterLab中方便地进行机器学习相关的操作和监控。
MIMIC-IT:多模态上下文指令调优,展示了一个包含 280 万个多模态指令-响应对的数据集,以及从图像和视频中派生的 220 万个独特指令。
LLMSurvey是一个提供LLaMA模型族进化图的项目,用户可以通过该工具查看不同版本模型的性能,比较多种模型参数,并获取相关的训练和评估数据。
DAIR-V2X是一个用于车辆与基础设施合作的3D物体检测的大规模数据集,旨在推动智能交通系统的发展,提供丰富的场景和多样的标签,以支持研究和应用。
这是一个非常初步的版本,旨在接近AnimateAnyone中显示的性能(在我们的测试下大约为 80%),提供开源实现和持续的优化与改进。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型