该项目专注于通过同心因果注意机制减轻模型中的物体幻觉问题,旨在提高模型对物体的识别能力,特别是在复杂的视觉语言任务中。
基于论文知识复现 Pi(Physical Intelligence)智能视觉行动模型的开源项目,主要功能是模拟人类如何通过视觉和语言理解来指导行动。
TorchScale 包含我们在Transformers稳定性(DeepNet)、通用性(Magneto/Foundation Transformers)和效率性(X-MoE)的一系列研究的官方实现。我们希望通过基础本质的研究探索AI(尤其是大模型)的通用结构,并在NLP,CV,Speech和多模态等领域的任务和基础模型中广泛验证,欢迎大家使用、交流、合作开发。
该项目提供了从多个视角生成场景图的能力,能够分析复杂的场景关系,提升视觉理解能力。
ColorPeel是一个利用扩散模型,通过颜色和形状的分离来进行颜色提示学习的项目,旨在提高图像生成的灵活性与质量。
一种处理噪声标签的少样本学习方法,旨在提高模型在标签不准确情况下的学习能力。该方法利用少量标记样本进行训练,具备对标签噪声的鲁棒性,适用于图像分类等任务。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型