llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法,通过模拟《Street Fighter 3》中的战斗表现作为基准,帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。