MathPile是一个多样化且高质量的以数学为中心的语料库,包含约95亿个tokens,数据来源广泛,适用于教育和研究。
iGSM是一个用于生成小学数学问题数据集的工具,能够创建不同难度级别的数学问题,并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力,同时创建可用于教育和研究的数据集。
Astra AI 是一款基于 GPT-4 Turbo 的个人数学辅导工具,旨在让复杂的数学概念变得易于理解和负担得起。它为用户提供逐步指导,帮助他们克服数学挑战,已有超过 20,000 名满意的学习者。
Medical_NLP项目涵盖医疗自然语言处理领域的比赛、数据集、大型模型、相关论文及工具包,旨在推动医疗NLP技术的发展与应用。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
Orca是一个基于GPT-4复杂解释轨迹的渐进式学习模型,旨在推动自然语言理解与生成的前沿。它设计高效且智能的最先进语言模型,能够与OpenAI的GPT-4和PALM相媲美。
EurekaLabsAI的n-gram语言模型:基于统计学原理的文本生成工具,通过学习字符序列的概率分布来生成新文本,适用于自然语言处理和机器学习的基础训练。
GPT-4和PaLM-2等大语言模型在数学推理问题上取得显著进展,尤其是GPT-4代码解释器在挑战性数学数据集上表现优异。