LiveBench AI是一个由Abacus AI和杨立昆及其团队合作创建的基准测试工具,通过发布新问题和基于最新数据集设置评测,确保基准测试的无污染性。它包含18个任务,分为6个类别,初始发布960个问题,任务全面多样化。
mlx-benchmark是一个基准测试项目,旨在评估苹果的MLX操作在不同硬件平台上的性能,包括mlx GPU、CPU、torch MPS和CUDA。它提供了详细的性能评估,并且是一个易于使用的基准测试工具,支持用户自定义测试场景,帮助开发者更好地理解和优化他们的MLX操作。
一个包含多个样本的基准测试项目,用于大语言模型的测试和评估,旨在帮助研究者和开发者了解模型的性能表现。该项目提供多种语言的测试样本,支持自定义测试用例,易于与现有AI项目集成,方便进行系统性评估。
一个用于促进和支持链式思考的工具库,旨在提高模型推理能力和理解力。