Ferret-UI 是一个多模态大型语言模型,旨在更好地理解移动用户界面。它具有处理和理解用户界面屏幕的能力,特别是在引用、定位和推理方面,能够有效地处理图像和文本信息,并支持从基础到高级的UI任务训练。该模型还具备任意分辨率技术,可以放大细节,并在各种引用和定位任务上表现优异。