SmolVLM是全球最小的视觉语言模型,能够处理多模态任务,包括图片描述、文档问答和基本视觉推理等。它具有256M参数,表现优异,适合在低资源设备上运行。
mm-cot是亚马逊开源的多模态链式思维(Multi-modal Chain of Thought)模型,旨在提升大语言模型在复杂任务中的表现。它支持多模态输入,包括文本和图像,并通过链式思维增强推理能力,特别针对复杂任务进行了优化的架构设计,方便研究人员和开发者进行二次开发。
初步探索复现o1类多模态大型语言模型,旨在通过结合视觉和文本数据,提升模型的推理和理解能力,推动人工智能在复杂任务中的应用
基于论文知识复现 Pi(Physical Intelligence)智能视觉行动模型的开源项目,主要功能是模拟人类如何通过视觉和语言理解来指导行动。
ChatChit AI是一个集智能对话、图像生成、语音转录、图像理解和媒体下载于一体的聊天助手,旨在提升WhatsApp的使用体验,帮助用户更高效地沟通和分享。
Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型