Scenic是一个基于JAX的计算机视觉研究库,支持多种计算机视觉任务,利用JAX的高性能特点,提供灵活和模块化的架构。
Rerun 是一个用于记录计算机视觉和机器人数据的 SDK,并配有可视化工具,可以随时间探索这些数据。它允许用户以最小的代码调试和理解系统的内部状态和数据。开发者可以将数据记录到 Rerun SDK,系统会自动进行可视化处理。Rerun 支持来自多个进程的实时数据流,并可回放录制的数据。Rerun Viewer 根据记录的数据创建可配置的可视化效果,用户可以随时回溯和前进时间。
计算机视觉Recipes项目提供了计算机视觉领域的最佳实践、丰富的代码示例和详细的相关文档,支持多种计算机视觉任务,如图像分类、目标检测等,旨在帮助开发者快速上手并实现各类计算机视觉功能。
一种新型图像生成技术,通过简化预训练扩散变换器的复杂度,实现高效率和高清晰度的图像生成。
分享 GitHub 上一份开源免费的在线教程,涵盖了 PyTorch 基础知识、神经网络、计算机视觉、自定义数据集处理、模块化代码编写以及模型部署等内容。
LlamaV-o1是一个大型多模态模型,能够进行自发推理。在VCR-Bench基准测试中表现优异,超越了多个知名模型,如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展,使用Beam Search提升效率,特别适合复杂的多步视觉推理任务,具备高准确性和高效率。
Neuralhub是一个先进的平台,旨在简化和增强深度学习和AI开发过程,适用于AI爱好者、研究人员和工程师。它提供了一个全面的环境,支持创建、实验和创新,致力于推动AI研究的民主化。
TorchScale 包含我们在Transformers稳定性(DeepNet)、通用性(Magneto/Foundation Transformers)和效率性(X-MoE)的一系列研究的官方实现。我们希望通过基础本质的研究探索AI(尤其是大模型)的通用结构,并在NLP,CV,Speech和多模态等领域的任务和基础模型中广泛验证,欢迎大家使用、交流、合作开发。
6DGS是一个基于3D高斯点云模型的项目,旨在从单幅图像中进行物体的6D姿态估计。该技术在机器人视觉和增强现实等领域具有重要应用价值。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型