LiveBench AI是一个由Abacus AI和杨立昆及其团队合作创建的基准测试工具,通过发布新问题和基于最新数据集设置评测,确保基准测试的无污染性。它包含18个任务,分为6个类别,初始发布960个问题,任务全面多样化。
Robust Intelligence是一款先进的AI安全平台,旨在增强机器学习应用的安全性和可靠性,提供从开发到生产的端到端解决方案,预防故障并降低AI部署的风险。
一个衡量多学科视频理解能力的基准测试项目,通过专家标注的问答数据,评估AI模型在复杂视频内容理解上的表现,助力AI在专业领域的发展