挑战大型语言模型的推理能力