医疗大语言模型综合评测框架,特点包括大规模综合性能评测、深入细分的多维度场景评估、创新性的开放式评估指标和自动化评估模型
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
LangFair是一个Python库,旨在评估大型语言模型(LLM)在具体用例中的偏见和公平性。它提供超过20种评估指标,支持多种LLM用例,并配备自动化评估工具,简化了评估流程。
VLABench是一个大规模基准测试平台,专为公平评估视觉语言代理、具身代理和视觉语言模型而设计,提供长视野推理任务的支持,适用于多种任务和场景,旨在为研究人员和开发者提供标准化的测试环境。
DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
ContextQA是一个基于AI的软件测试自动化解决方案,彻底改变了质量保证工作流程。它能实现全面的测试覆盖,并高效交付高质量的软件,提供无缝的用户体验,让测试变得轻松!
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型