Confabulations是一个针对检索增强型生成模型(RAG)的基准测试,旨在评估大型语言模型在面对基于文档的误导性问题时的能力,并提供工具以减少生成虚构答案的能力。
Prompt Llama是一个用于收集高质量文本到图像的提示,并测试不同模型在相同提示下的表现的平台。它为用户提供了一种便捷的方法,以获取和比较各种生成模型的效果,帮助创作者优化他们的提示语和生成结果。
Dropbox LLM Security研究代码和结果,主要用于展示攻击大型语言模型的技术,特别是针对文本提示注入的攻击。该项目提供了相关的研究代码和结果,使研究人员能深入分析大型语言模型的安全性,并测试不同攻击方法的效果。
一套评估大语言模型AI研发能力的任务集合,包含7个具有挑战性的任务,涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域,每个任务都有明确的评分标准和基准分数,用于测试AI代理与人类专家的能力对比
SGLang是针对LLM推理的下一代界面和运行时环境,通过协同设计前端语言和后端运行时,极大改进了复杂LLM程序的执行和编程效率。