EMMA是一个增强型多模态推理基准测试,用于评估大型多模态语言模型在数学、物理、化学和编程等领域的推理能力,帮助研究者发现模型在复杂多模态任务中的局限性。
iGSM是一个用于生成小学数学问题数据集的工具,能够创建不同难度级别的数学问题,并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力,同时创建可用于教育和研究的数据集。
FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具,旨在提供更准确的评估结果,揭示模型的强项和弱点,并指导语言模型的进一步发展。
liteLLM是一个开源库,旨在简化LLM(大语言模型)的完成和嵌入调用。它提供了一个方便易用的接口,使得调用不同的LLM模型变得更加简单。用户只需导入'litellm'库并设置必要的环境变量(如OPENAI_API_KEY和COHERE_API_KEY),即可创建Python函数并使用liteLLM进行LLM完成调用。此外,liteLLM还提供了一个演示平台,用户可以在其中编写Python代码并查看输出,从而比较不同的LLM模型。
这是一个关于出色LLM推理的小集合,包含文献、博客和文档以及代码,支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。
该项目是一份多模态大语言模型相关论文和资源的阅读清单,旨在汇集、分类和整理最新的研究成果,帮助研究人员和开发者了解多模态LLM的进展和最佳实践。
小型模型的妙用:在大型语言模型时代,探索小型模型的独特角色和应用,包括数据筛选、推理增强和知识蒸馏等
大语言模型自我纠错相关论文的精选集合,涵盖内在自我纠错、外部工具辅助纠错、信息检索辅助纠错等多个研究方向,包含详细的论文分类和引用信息,是研究LLM自我纠错能力的重要参考资源
本笔记包括模型推理、Transformer 模型结构和 lightllm 框架代码分析的详细内容,旨在帮助读者深入理解和应用相关技术。
这是一个专注于大语言模型在数学推理方面应用的资源集合,旨在帮助用户更好地理解和利用这些模型解决各种数学问题。该项目汇集了多种与数学推理相关的大语言模型,提供丰富的示例和应用案例,同时包含使用不同数学工具和库的指南,支持多种数学问题的解决方案。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型