一套开源的环视物体检测方案,实现了在鸟瞰图视角下的特征优化,可应用于汽车自动驾驶场景。
关于鸟瞰视图感知的论文资源列表,包括3D目标检测、分割、在线地图和占据预测等,旨在为研究人员和开发者提供全面的工具和文献支持。
RT-DETR(Real-time DEtection Transformer)是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型,旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法,支持灵活的速度调整和多尺度特征处理,在COCO数据集上表现出色。
ACT-Bench是一个用于评估自动驾驶世界模型行动可控性的框架,帮助研究者量化模型在特定轨迹下生成驾驶场景的能力。
Ping Path 是一款专为视障人士设计的导航应用,利用空间音频、LiDAR技术/增强现实和人工智能,提供直观的导航体验。用户可以通过下载应用、允许位置访问,轻松开始使用其导航功能。
CrayEye是一个免费的开源项目,旨在通过设备传感器和API注入真实世界上下文来生成和共享多模态LLM视觉提示。该项目由人工智能编写,支持用户创建丰富的视觉提示,以增强机器学习模型的上下文理解能力。
这是一个具有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。
Depth Pro 是一个基础模型,用于零样本度量单目深度估计,能够在不到一秒的时间内生成清晰的深度图。它结合了真实和合成数据,利用高效的多尺度视觉变换器,提供高分辨率和准确的深度测量,适用于各种视觉任务。
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。该项目收录了100+个中文LLM相关的开源模型和资源,适合企业应用和研究。
DE-DETRs旨在实现数据高效的目标检测,采用Transformer架构,适用于需要减少数据使用的场景。
基于YOLOv7的车牌检测与识别,包括中文车牌识别,支持双层车牌和13种中文车牌类型。