CogAgent是一个专门用于图形用户界面(GUI)理解和导航的180亿参数视觉语言模型(VLM)。它能够处理高分辨率的输入,准确识别页面元素和文本,适用于多种视觉问答任务,在各类基准测试中表现优异。
一个由北京航空航天大学大数据高精尖中心研究张日崇团队对问答系统的总结,涵盖了基于知识库、文本、表格和视觉的问答系统的技术进展和热点论文。
LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。