AI开源项目

CogVLM-专注于GUI理解与导航的视觉语言模型

CogAgent是一个专门用于图形用户界面(GUI)理解和导航的180亿参数视觉语言模型(VLM)。它能够处理高分辨率的输入,准确识别页面元素和文本,适用于多种视觉问答任务,在各类基准测试...

CogAgent是一个专门用于图形用户界面(GUI)理解和导航的180亿参数视觉语言模型(VLM)。它能够处理高分辨率的输入,准确识别页面元素和文本,适用于多种视觉问答任务,在各类基准测试中表现优异。
CogVLM的特点:
1. 支持1120*1120的输入分辨率,能够识别微小的页面元素和文本
2. 在多个视觉问答基准测试中实现了最先进水平
3. 仅使用屏幕截图作为输入,优于提取的HTML文本的LLM方法
4. 适用于PC和Android GUI导航任务

CogVLM的功能:
1. 在图形用户界面(GUI)中进行理解和导航
2. 进行视觉问答任务,包括VQAv2、OK-VQA等
3. 用于自动化任务,提高系统交互效率

相关推荐

暂无评论

暂无评论...