mlx-benchmark是一个基准测试项目,旨在评估苹果的MLX操作在不同硬件平台上的性能,包括mlx GPU、CPU、torch MPS和CUDA。它提供了详细的性能评估,并且是一个易于使用的基准测试工具,支持用户自定义测试场景,帮助开发者更好地理解和优化他们的MLX操作。
用于LLM360评估和分析的代码库,包含了多种评估指标和分析方法,旨在帮助用户全面理解和优化模型表现。
Banana-lyzer是一个开源的AI代理评估框架,专为Web任务而设计,支持多种场景和任务,提供性能评估指标,并允许与现有AI代理的轻松集成,便于不同代理之间的比较分析。