一个关于使用大语言模型 (LLM) 在软件测试中的应用和研究的项目,旨在提供相关工具和资源。
以历史的发展的眼光来看光线追踪技术,1968年至2018年重点论文相关算法复现
Prompt2Model 是一个从自然语言指令生成可部署模型的工具,旨在帮助系统构建者通过自然语言描述任务并提供示例来创建自然语言处理系统。
SuperCLUE是一个针对中文大模型的综合性基准测试平台,提供标准化的评估指标和多任务测试能力,旨在帮助研究者评估和比较中文大模型的性能。
用于评估和理解大型语言模型的统一评估框架,提供了用户友好的API,方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
一个用于促进和支持链式思考的工具库,旨在提高模型推理能力和理解力。
VLABench是一个大规模基准测试平台,专为公平评估视觉语言代理、具身代理和视觉语言模型而设计,提供长视野推理任务的支持,适用于多种任务和场景,旨在为研究人员和开发者提供标准化的测试环境。
Bias-Bench是一个实证调查,旨在评估针对预训练语言模型的去偏见技术的有效性。它通过比较不同的去偏见方法,帮助研究人员理解这些技术在模型训练中的作用。该项目为研究人员提供了一个标准化的平台,以便对去偏见技术进行基准测试和性能评估。
这篇论文探讨了如何评估大模型的性能,包括评估的内容、地点和方法,并分析了当前评估方法的有效性和可信度。
Windows Agent Arena是一个用于大规模评估多模态操作系统代理的框架,旨在为研究人员提供高效的测试和评估工具。它支持不同类型的操作系统代理,能够在各种场景下进行性能测试,以帮助开发更智能的系统。
WOODS是一个针对序列预测任务的出界泛化基准集合,旨在评估模型在各种序列预测任务中的出界泛化能力。该项目提供了一个标准化的基准,方便研究人员在该领域进行比较和实验。
BIG-Bench是一个用于评估神经网络模型性能的基准测量工具,旨在提供全面的评估方法,通过多个任务和指标来衡量AI模型的能力。
min-LLM是一个轻量级的框架,旨在通过最小化代码来简化大语言模型(LLM)的训练过程。它提供了一个高效的训练流程,支持快速原型开发,并且易于集成和扩展,适合研究人员和开发者使用。
UnrealZoo 是一个基于 Unreal Engine 的大规模照片级虚拟世界集合,旨在为具身AI提供仿真环境,具备高质量的图形渲染和多样化的场景。
MBZUAI Bactrian-X是一个多语言可复制的指令遵循模型,使用了3.4M条指令从52种语言训练而成,提供52种单语言模型和1种多语言模型。
一个关于法律自然语言处理的研究工作集,包含相关的资源和工具,旨在促进法律领域的NLP研究与应用。
收集和梳理垂直领域的开源模型、数据集及评测基准,方便研究人员和开发者使用。