Ferret-UI是一个能够理解移动UI的多模态大型语言模型(MLLM),支持根据用户指令执行各种开放任务,旨在增强对移动UI屏幕的理解。
ml-ferret的特点:
1. 能够理解 iOS 手机屏幕上的图标、小部件和文本
2. 推断 UI 元素的空间关系和功能含义
3. 提供交互元素的功能描述
4. 预测 UI 元素是否可点击
5. 支持多模态大型语言模型 (MLLM) 的推理能力
6. 图标识别:识别屏幕上的图标
7. 查找文本:识别界面中的文本
8. 列表小部件:列出屏幕上可用的小部件
9. 详细描述:描述您正在查看的屏幕
10. 识别/交互对话:基于屏幕的识别进行对话式交互
ml-ferret的功能:
1. 询问模型提供屏幕截图的摘要
2. 请求对特定交互元素提供描述
3. 检查 UI 元素的可点击性
4. 执行开放式指令以增强设备助手功能
5. 通过发送用户指令,执行与移动UI相关的任务
6. 与应用进行对话,获取关于屏幕内容的详细信息
7. 识别和列出界面上的可用小部件
8. 推测应用功能,基于分析屏幕元素进行推理
相关推荐
暂无评论...