OpenAI o1是一个新的大型语言模型,通过强化学习进行训练,旨在执行复杂的推理任务。o1在回答问题之前会进行思考,能够产生长而复杂的内在思维链,确保回答的准确性和深度。
phi-1.5是微软发布的一个具有13亿参数的语言模型,在自然语言处理和复杂推理任务上表现优异,其性能可与体量大5倍的模型相媲美。该模型遵循‘教科书就是你需要的一切’的原则,并且不使用爬虫爬取的互联网数据。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
LISA是一个将语言大模型(LLM)与其他视觉模型(如SAM)结合的分割助手,旨在根据复杂和隐含的查询文本输出分割掩码。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。
Vary-toy是一个基于Qwen-1.8B的小型Vary模型,引入了改进的视觉词汇,使模型具有更高的普适性和更好的视觉信息编码能力。
本研究使用基准测试,将GPT-4及其多模式版本与人类在抽象和推理任务上进行了比较。结果显示,即便使用详细的单次提示和简化的图像任务,两个版本的GPT-4都未能达到人类水平的抽象推理能力。
LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。
AlterEgoAI是一个前沿的AI驱动图像生成工具,用户可以在各种风格中创建令人惊叹的自定义图像,帮助将想象力变为现实。
LLaMA-Adapter V2 是一个高效的模型适配器,能够在短时间内完成训练并支持多模态功能,包括图像解释和问答。
初步探索复现o1类多模态大型语言模型,旨在通过结合视觉和文本数据,提升模型的推理和理解能力,推动人工智能在复杂任务中的应用
该项目专注于开发持续的场景表示,以增强具身AI系统的能力,支持实时场景理解和动态环境中的导航与交互。
基于LLaMA 3.1的增强视觉指令微调工具,为多模态大型语言模型提供性能提升,公开发布8B参数模型的检查点。
本项目对链式思维推理进行了全面的文献回顾,分析了AI推理技术的最新进展,讨论了未来方向和开放挑战,并汇编了该领域的关键论文和贡献。
这是最大的约 100 万个数学竞赛问题解决方案对的集合,难度从初级挑战赛到数学奥林匹克预选赛不等。
一个开源框架,专为大型语言模型提供高级推理能力,支持数据生成、策略训练和多种搜索策略,让机器更聪明地理解和解决问题。