一个用于评估奖励模型和LLM裁判的基准测试,帮助在大规模LLM训练和评估中复制人类偏好,包含真实的人类偏好数据和可验证的正确性偏好数据。
LAiW是一个专注于中文法律领域的大型语言模型,旨在提供多种基准测试以评估法律模型的性能,并支持法律文书的生成与分析,同时包含丰富的法律知识库和数据集。
Non finito是一个专注于多模态模型评估的工具,旨在为用户提供简单易用的平台,以便比较不同模型并公开分享评估结果。与大多数只关注语言模型的工具不同,Non finito强调多模态模型的重要性,确保每个人都能轻松进行模型评估。
Litellm是一个Python SDK/Proxy Server,旨在简化与多种大语言模型API的交互,支持使用OpenAI格式调用100多个LLM API,提供统一的输入输出格式,易于集成和使用。
FLEX是一个用于进行统一的、严格的少样本NLP评估的基准和框架,旨在为研究人员和开发者提供一个标准化的评估平台,支持多种NLP任务,便于比较不同模型的性能,并允许用户根据需要自定义评估指标。
Reasoning Gym是一个用于训练推理模型的Python库,能够生成无限多的推理任务,旨在通过强化学习提升模型的逻辑和算法推理能力。该项目支持多种推理数据集,易于集成和扩展,以满足研究和开发的需求。
关于算法代码生成的数据集,具有更大规模、更高质量和更精细标签的特点,旨在提供一个更具挑战性的训练数据集和评估基准,用于代码生成模型领域
在这篇论文中,研究人员修改了Chinchilla扩展定律,以计算最佳的LLM参数数量和预训练数据大小,以训练和部署具有给定质量和推理需求的模型。
一个让 claude 3.5 sonnet 生成 o1 类似的思维链的prompt,旨在通过结构化的提示词帮助用户高效解决特定问题。
一个探索Flux Dev模型层级效果的工具,允许用户通过修改不同层的强度来研究模型行为,支持注意力层、双重块、单一块等多种层级的调整与实验