LlamaV-o1是一个大型多模态模型,能够进行自发推理。在VCR-Bench基准测试中表现优异,超越了多个知名模型,如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展,使用Beam Search提升效率,特别适合复杂的多步视觉推理任务,具备高准确性和高效率。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
为了提高LLM的演绎推理能力并确保推理过程的可信度,我们提出了一种基于自然语言的循序渐进的推理验证过程,并使用自然程序格式。
Scenic是一个基于JAX的计算机视觉研究库,支持多种计算机视觉任务,利用JAX的高性能特点,提供灵活和模块化的架构。
ArcNerf是一个由多种尖端NeRF技术构成的框架,具备新视角渲染和对象提取等实用功能,支持高效模型训练和灵活架构设计。
一种新型图像生成技术,通过简化预训练扩散变换器的复杂度,实现高效率和高清晰度的图像生成。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型