CogVLM-专注于GUI理解与导航的视觉语言模型官网

CogAgent是一个专门用于图形用户界面(GUI)理解和导航的180亿参数视觉语言模型(VLM)。它能够处理高分辨率的输入，准确识别页面元素和文本，适用于多种视觉问答任务，在各类基准测试中表现优异。
CogVLM的特点:
1. 支持1120*1120的输入分辨率，能够识别微小的页面元素和文本
2. 在多个视觉问答基准测试中实现了最先进水平
3. 仅使用屏幕截图作为输入，优于提取的HTML文本的LLM方法
4. 适用于PC和Android GUI导航任务

CogVLM的功能:
1. 在图形用户界面(GUI)中进行理解和导航
2. 进行视觉问答任务，包括VQAv2、OK-VQA等
3. 用于自动化任务，提高系统交互效率

相关推荐

project-ideas

这个开源项目声称通过提供思路和目标，可以让ChatGPT（AI）成为创业技术合伙人。

OpsTower.ai-智能化的DevOps助手

OpsTower.ai是一个DevOps人工智能助手，旨在通过命令行界面提供智能建议和自动化功能，帮助团队更高效地管理和优化DevOps流程。它支持自然语言处理，能够与多种DevOps工具集成，简化常见的DevOps任务，提高工作效率。

Nphidata-基于GPT-4o的大语言模型资源协调工具

phidata是一个基于GPT-4o实现的LLM OS项目，旨在通过大语言模型协调和优化资源，以解决各种问题。该项目不仅具备强大的文本处理能力，还能够进行图像、视频和音乐的生成与处理，并具备深度思考和自我完善的能力，适用于多个领域。

N赫蹏-高质量中文网页排版工具

赫蹏是一个用于实现中文网页排版的工具，旨在提供高质量的排版效果，支持中文字符的标准排版，并自动处理常见的排版问题。它提供多种排版样式和选项，兼容主流浏览器，帮助用户更好地呈现中文内容。

FederatedGPT-Shepherd-保护隐私的分散式LLM训练方法

一个新的LLM训练方法，通过将训练分散到不同的边缘设备上以保持数据隐私，同时最大化利用边缘设备的算力。

Ndraw.io-开源免费的作图工具

一款开源免费的作图工具，可以绘制一系列的图表、图示或图形，包括流程图、UML 类图、组织结构图、泳道图等，适用于各种复杂专业的图表。

NGPT-NeoX-大规模模型并行的自回归变换器

GPT-NeoX是基于DeepSpeed库的模型并行自回归变换器在GPU上的实现，具有高效的训练和推理性能，旨在支持大规模模型的开发和研究。

NDashPlayer-专为英语学习打造的视频播放器

DashPlayer是一款专为英语学习者设计的视频播放器，支持双语字幕、翻译及多种学习功能，让用户在观看视频的同时轻松提升英语水平。

Access-chatGPT-in-Siri

这个开源项目的功能是将chatGPT接入Siri，同时支持机器学习。目前仅支持iPhone端，但后续会更新Android。

yu-auto-reply

这个开源项目叫做 yu-auto-reply，是一个AI自动回复工具。它可以支持灵活配置多个平台的监控和回答，目前已支持知识星球自动回复和OpenAI（ChatGPT）自动回答。

Flow-开源免费的在线 ePub 阅读器

Flow 是一个功能丰富的开源免费在线 ePub 阅读器，支持多平台使用，提供跨设备的无缝阅读体验，用户可以通过多种功能自定义和优化他们的阅读体验。

ChatMed

ChatMed是一个开源项目，基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊和ChatGPT回复作为训练集，使用机器学习技术，旨在帮助人们更好地了解中医药，赋能中医药传承。

NJsonformer-从 LLM 生成结构化输出

Jsonformer 是一个强大的工具，能够将自然语言转换为结构化数据，支持多种数据格式的输出，灵活的模板系统使其能够与大型语言模型（LLMs）兼容，适用于各种场景。

Nllama2.scala-Scala 2下的Llama 2推理实现

llama2.scala是Andrej Karpathy的llama2.c在Scala 2中的移植，提供了一种在一个文件中实现Llama 2推理的方式。

NRio-纯Python编写的现代Web应用框架

Rio是一个完全使用Python编写的Web应用框架，无需JavaScript、HTML和CSS，提供现代声明式UI框架，完全类型安全，支持本地和Web运行，内置50多个常见UI组件，集成现代Python工具链，开源且永久免费。

SmartExcel.cc-利用AI生成Excel公式的工具

SmartExcel.cc是一个使用人工智能生成所需Excel公式的工具，利用ChatGPT API和Vercel AI SDK进行实时交互，通过Vercel Edge Function将请求发送到ChatGPT API，并将响应流式传输回应用界面，提升用户体验。

dtm-简化分布式事务的框架

DTM是一款变革性的分布式事务框架，提供了傻瓜式的使用方式，极大的降低了分布式事务的使用门槛，优雅的解决了服务间的数据一致性问题。

NContext Compression for Auto-regressive Transformers with Sentinel Tokens-利用哨兵令牌压缩上下文

一种通过哨兵令牌压缩自回归变换器上下文的方法，提高模型效率。

暂无评论

暂无评论...