Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。
MM-LLM是一个增强现有大型语言模型的框架,支持多模态输入和输出,同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计,并回顾了在主流基准上的表现,旨在推动多模态任务的发展。
Meta-Transformer是一个用于多模态学习的统一框架,能够处理各种模态如自然语言、2D图像、3D点云、音频、视频、时间序列和表格数据。它采用冻结的编码器进行多模态感知,并且可以在没有配对的多模态训练数据的情况下进行训练,同时可学习的数据预处理器能够处理每个输入模态,生成共享的嵌入表示。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
Hugging Face 实现并开源的推理阶段计算扩展研究,通过动态计算策略提升小型语言模型的性能。
一款软硬协同的端侧全模态理解模型,具备图像、文本、音频三种模态数据的理解分析能力,以其高精度、高速度和简单易用性为核心价值
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
FAQx是一个基于AI算法的性能营销SaaS平台,通过分析广告创意和活动数据,提供即时洞察和优化建议,帮助各行业的企业提升数字广告表现。该平台由市场营销专家构建,连接创意、分析和媒体购买,助力企业做出数据驱动的决策。
MiniGPT4-Video是一个专为视频理解而设计的多模态大模型,能够同时处理时态视觉数据和文本数据,善于理解视频的复杂性,适用于多种视频内容的分析和处理任务。
专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署。