Hallucination Leaderboard是一个用于评估大语言模型在生成摘要时的幻觉表现的排行榜,旨在提高对模型输出质量的理解和评估方法的透明度。该项目总结了多个知名语言模型在对短文进行摘要时的幻觉产生频率,目前显示GPT-4和GPT-3.5表现最佳。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
llama-node是一个基于Node.js的项目,旨在提供对LLaMA和Alpaca语言模型的支持。该项目允许用户在本地CPU上高效运行这些模型,适合个人计算机使用。它基于llama-rs构建,旨在促进AI技术的民主化,使更多开发者能够轻松访问和使用大语言模型。
1000gpt是一个平台,提供由个人创作的各种定制GPT模型。用户可以根据自己的需求找到合适的语言模型,充分释放人工智能的潜力。
Thelo是一个帮助用户选择合适的语言模型(LLM)供应商的平台,它不仅优化各类提示的响应,还能为每个提示找到最佳且最具成本效益的解决方案。通过使用Thelo,用户可以轻松比较不同供应商的性能和价格,从而做出明智的决策。
Web LLM 工具可以将大语言模型直接在浏览器中运行,并且通过 WebGPU 加速,支持多种模型。
AAGPT是一个实验性开源应用,展示了大型语言模型(如GPT-3.5和GPT-4)的能力,适合研究和学习使用。它支持多种自然语言处理任务,便于社区的贡献与合作。
Token.js是一个集成了200多个大型语言模型(LLM)的TypeScript SDK,采用OpenAI格式,支持在客户端运行,无需代理服务器,且为免费开源项目,得到了社区的广泛支持。
HRS-Bench 是一个全面、可靠且可扩展的基准,专为评估文本到图像模型而设计。它提供了多种性能指标,确保在不同模型规模下的可扩展性和可靠性。
这是一个汇总医疗大语言模型(Medical LLMs)资源的实用指南,包括模型树、表格和论文,旨在为研究人员和开发者提供全面的参考。
TransferAttack是一个基于PyTorch的框架,旨在提升图像分类中的对抗性传递性,提供评估和攻击模型的功能,并对已有的传递性攻击进行分类和评估。
一个完整的大语言模型(LLM)可解释性研究项目,使用稀疏自编码器(SAE)分析Llama 3.2模型,由纯PyTorch实现且可完全复现。包含从数据采集、SAE训练、特征分析到验证的全套流程,可帮助理解模型内部行为和概念表示
一个用于运行Mistral AI发布的评估以及为流行学术基准测试提供标准化提示、解析和度量计算的代码库,支持多轮LLM-as-a-judge评估任务
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型