SmolVLM2 是一个非常小的视觉模型,提供 256M、500M、2.2B 三个版本,能够识别物体、回答问题和对视频做总结。该模型设计轻巧,适用于移动设备,如 iPhone,能够高效执行多种视觉任务。