SmolVLM2官网 – 轻量级多功能视觉模型

SmolVLM2 是一个非常小的视觉模型，提供 256M、500M、2.2B 三个版本，能够识别物体、回答问题和对视频做总结。该模型设计轻巧，适用于移动设备，如 iPhone，能够高效执行多种视觉任务。

相关导航

Lecha是一款AI笔记工具，旨在帮助学生高效记录讲座内容并生成学习资料。用户可以通过下载iPhone应用，开始7天的免费试用，轻松录音和整理笔记。

SPIN是一个先进的机器人系统，能够在复杂环境中进行实时感知、交互和导航。它结合了多种技术，如动态避障、物体识别和主动视觉，允许机器人在无需预先创建环境地图的情况下高效地移动和操作。

Jetcounter是一款基于人工智能的物品计数应用，利用计算机视觉软件准确地从照片中计数相似物品。用户可以选择内置的不同类别模板，上传照片或使用设备摄像头，Jetcounter会识别并计数图片中的物体，支持放大查看细节并手动纠正错误。

Arty™旨在让用户以书本的方式阅读视频内容，使其能够搜索、注释、分析和总结电影与动画。我们的目标是通过提高视频内容的可访问性和洞察力，彻底改变人们与视频的互动方式。

该项目专注于通过同心因果注意机制减轻模型中的物体幻觉问题，旨在提高模型对物体的识别能力，特别是在复杂的视觉语言任务中。

Machina 是一个结合了实时物体识别和标签标注的智能监控系统，采用 OpenCV、YOLO 和 LLAVA 技术，能够处理高分辨率视频流并连接 RTSP 流，实现实时物体检测、标注和追踪。该系统适用于安全监控、物体识别等多种场景，提供高效的智能监控解决方案。

FiT3D项目旨在通过3D感知的微调技术来增强2D特征表示，提升图像理解和识别的能力。该项目结合了深度学习和计算机视觉的前沿技术，致力于在多种视觉任务中实现更高的性能。

"ChatPDF on Android - Ask your PDF" 是一款创新的AI工具，旨在改变用户在安卓设备上与PDF文档的互动方式。这个工具将静态的PDF文件转变为互动式会话，允许用户像与知识丰富的助手聊天一样与文档进行交流。

Lora是一个用于移动设备的本地大语言模型，其性能可与GPT-4o-mini相媲美。它提供无缝的SDK集成，确保完全隐私且不进行数据记录，同时支持飞行模式。用户可以尝试我们的应用程序并构建自己的Lora驱动应用。

在多个粒度上分割和识别物体的通用图像分割模型。团队在SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试，并系统研究了在SA-1B上定义的交互分割任务和其他分割任务（如全景分割和部件分割）上多任务联合训练的相互促进作用。

IsItAI.com的API是一个强大的工具，使用先进的人工智能算法检测和分类图像，提供准确高效的图像识别，适用于内容审核、物体识别和视觉搜索等多种应用场景。

OpenGlass 是一款经济实惠的产品，用户只需 $20 就能将任何普通眼镜转变为 AI 智能眼镜。它支持多项先进的 AI 功能，帮助用户更好地记录生活、识别物体、计算卡路里，并进行实时翻译。

该项目提供了用于Google扫描对象数据集的MuJoCo模型，旨在支持物体识别和机器人操作任务。它包含多种真实物体的详细几何数据，并与MuJoCo仿真环境无缝集成，适用于多种物理仿真和机器人研究。

KEPL AI利用视觉人工智能技术，通过图像分析提供即时洞察和物体识别。用户可以使用KEPL AI相机识别植物、昆虫等各种物品。

MiniCPM-o-2_6是Openbmb发布的一款新的混合模型，结合了多个先进模型，能够处理视觉、语音、视频流和OCR等多种任务，具有强大的功能和灵活的应用场景。

暂无评论...