旨在促进能在IMO竞赛中赢得金牌的开放共享AI模型诞生的比赛,设立于2023年11月。
该模型在全球首届 AI 数学奥林匹克竞赛(AIMO)获得了第一名,开源,可以在本地电脑上直接跑。它是基于 deepseek-math-7b-base 的微调版本,经过两阶段微调以达到排行榜获胜解决方案,并使用思路链 CoT 提示进行模板化,同时采用 MSFT 的 ToRA 格式进行 GPT4 输出并执行代码,具备与 Transformers 集成的能力。
卡内基梅隆大学团队在首届AI数学奥林匹克竞赛(AIMO)中获得亚军的开源项目,包含完整的训练数据集(AIME、AMC、Odyssey-Math)、验证集、模型微调代码和数据收集脚本,为研究AI解决数学问题提供了宝贵资源
LaMini-LM是一个对多个迷你大语言模型进行微调的项目,旨在提升模型的性能,其中包括经过微调的GPT-2,其性能可与LLaMa的Alpaca-7B相媲美。
LLMTuner 是一个专为大语言模型设计的指令调优工具,支持全量参数微调、LoRA 和 QLoRA,旨在提升模型的指令响应能力和优化微调过程。
一个合并预训练大型语言模型的工具,能够将多个模型组合成一个独特的、性能更优的模型。
synthesis.ai是一个前沿平台,专注于生成高质量的合成数据,用于训练机器学习模型,解决传统数据收集中的隐私和伦理问题,提供多样化的定制数据集,满足不同需求。
将SOTA多模态能力融入语言模型,改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。
Encord是一个全面的数据引擎,专为AI模型开发而设计。它为高级计算机视觉团队提供工具和工作流程,以简化标记和工作流管理,清理和整理数据,验证标签质量,以及评估模型性能。用户可以通过创建项目和上传视觉数据来使用Encord,随后使用注释工具和工作流管理功能进行数据标注。
LiveBench AI是一个由Abacus AI和杨立昆及其团队合作创建的基准测试工具,通过发布新问题和基于最新数据集设置评测,确保基准测试的无污染性。它包含18个任务,分为6个类别,初始发布960个问题,任务全面多样化。
ComplexFuncBench是一个专为复杂函数调用设计的基准测试工具,旨在解决复杂场景下的函数调用评估难题,帮助开发者优化模型性能。
Self-Translate是一种技术,通过利用多语言语言模型的少样本翻译能力,能够有效地提高多语言语言模型的性能,克服对外部翻译系统的依赖,尤其在非英语输入场景下表现优越。