Mask-tuning是一种训练方法,通过将训练目标集成到微调过程中,旨在提升预训练语言模型在特定任务上的表现和泛化能力,尤其是在未见过的数据上。
该项目旨在实现稀疏和稳健的预训练语言模型,以提高语言理解的能力和效率。
Dioptra是一个开源的数据策展和管理平台,旨在支持计算机视觉、自然语言处理和大型语言模型。它帮助用户策划有价值的未标记数据,注册元数据,诊断模型失效模式,并与标注和再训练系统整合。
一个轻量框架,用于开发、调试和监控大规模大语言模型(LLM)和Agent驱动的应用。它提供了易用的工具,帮助开发者快速构建和优化语言模型应用。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
LLMArena是一个易于使用的工具,可以帮助用户并排比较多个大型语言模型(LLM),并美观地分享这些比较。用户可以选择2到10个LLM进行对比,生成直观的比较结果。
模型在预训练阶段往往会专注于降低预训练损失函数的特征,导致特征学习和泛化能力不足。本文提出,提升模型习得表征的方差并降低其协方差,从而提升模型和上面的转移学习表现。