该项目旨在评测多个大模型在特定条件下的表现,包括Gemini、DeepSeek-R1、OpenAI-o1和claude-3.5-sonnet等。通过提供详细的评测数据,支持用户使用相同的测试prompt进行验证,帮助用户选择适合的大模型,并提供评测数据供进一步研究和分析。