2025年最强大的开源物体检测方案AI工具推荐

一套开源的环视物体检测方案，实现了在鸟瞰图视角下的特征优化，可应用于汽车自动驾驶场景。

关于鸟瞰视图感知的论文资源列表，包括3D目标检测、分割、在线地图和占据预测等，旨在为研究人员和开发者提供全面的工具和文献支持。

RT-DETR（Real-time DEtection Transformer）是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型，旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法，支持灵活的速度调整和多尺度特征处理，在COCO数据集上表现出色。

ACT-Bench是一个用于评估自动驾驶世界模型行动可控性的框架，帮助研究者量化模型在特定轨迹下生成驾驶场景的能力。

Ping Path 是一款专为视障人士设计的导航应用，利用空间音频、LiDAR技术/增强现实和人工智能，提供直观的导航体验。用户可以通过下载应用、允许位置访问，轻松开始使用其导航功能。

CrayEye是一个免费的开源项目，旨在通过设备传感器和API注入真实世界上下文来生成和共享多模态LLM视觉提示。该项目由人工智能编写，支持用户创建丰富的视觉提示，以增强机器学习模型的上下文理解能力。

这是一个具有370亿参数的生成式多模态模型，使用统一的自回归目标在大规模多模态序列上进行训练。

Depth Pro 是一个基础模型，用于零样本度量单目深度估计，能够在不到一秒的时间内生成清晰的深度图。它结合了真实和合成数据，利用高效的多尺度视觉变换器，提供高分辨率和准确的深度测量，适用于各种视觉任务。

整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。该项目收录了100+个中文LLM相关的开源模型和资源，适合企业应用和研究。

DE-DETRs旨在实现数据高效的目标检测，采用Transformer架构，适用于需要减少数据使用的场景。

基于YOLOv7的车牌检测与识别，包括中文车牌识别，支持双层车牌和13种中文车牌类型。