EscherNet-一种新型视图合成生成模型

0

AI开源项目

EscherNet-一种新型视图合成生成模型

EscherNet是一种可扩展的新型视图合成生成模型，无需3D结构，支持任何参考到任何目标新视图。该模型能够在单个消费级GPU上同时生成100多个一致的目标视图，处理任意数量的参考视图...

链接直达手机查看

EscherNet是一种可扩展的新型视图合成生成模型，无需3D结构，支持任何参考到任何目标新视图。该模型能够在单个消费级GPU上同时生成100多个一致的目标视图，处理任意数量的参考视图和任意相机姿势，建立在现有的2D扩散模型之上，继承强大的网络规模先验，并为每个视图/图像编码相机姿势，提供灵活性和可扩展性。
EscherNet的特点:
1. 支持在单个消费级 GPU 上同时生成 100 多个一致的目标视图
2. 能够处理任意数量的参考视图和任意相机姿势
3. 建立在现有的 2D 扩散模型之上，继承强大的网络规模先验
4. 为每个视图/图像编码相机姿势，提供灵活性和可扩展性

EscherNet的功能:
1. 生成任意到任意视图的合成
2. 通过输入多个参考视图生成新的视图
3. 在CVPR 2024会议上展示生成模型的应用

相关推荐

segment_anything_tensorrt-用Tensorrt加速SAM模型推理

segment_anything_tensorrt-用Tensorrt加速SAM模型推理

segment_anything_tensorrt-用Tensorrt加速SAM模型推理

该项目通过Tensorrt技术加速SAM模型的推理过程，旨在提升图像分割的效率和性能，确保其在多种硬件平台上的兼容性，适用于各类深度学习应用。

Unlocking the Power of LLMs-让 ChatGPT 成为强大的生产力工具

Unlocking the Power of LLMs-让 ChatGPT 成为强大的生产力工具

Unlocking the Power of LLMs-让 ChatGPT 成为强大的生产力工具

使用 Prompts 和 Chains 让 ChatGPT 成为神奇的生产力工具，详细介绍如何使用 ChatGPT 完成各种任务，包括自定义提示和自动化复杂任务，提升用户的工作效率和生产力，适用于多种应用场景。

Tuono-全栈Web框架，专注于性能与易用性

Tuono-全栈Web框架，专注于性能与易用性

NTuono-全栈Web框架，专注于性能与易用性

Tuono是一个全栈Web框架，旨在使用Rust作为后端构建高性能的React应用，强调可用性和性能。

Audioflare-一个全能的AI音频工具

Audioflare-一个全能的AI音频工具

Audioflare-一个全能的AI音频工具

Audioflare是一个基于Cloudflare AI Workers的全能音频平台，能够转录、分析、摘要和翻译任何音频文件。

permchain-构建有状态的多参与者应用

permchain-构建有状态的多参与者应用

permchain-构建有状态的多参与者应用

permchain 是一个用于使用 LLM 构建有状态的多参与者应用的开发库，扩展了 LangChain 表达式语言，能够跨多个计算步骤协调多个链（或参与者）。

finetuned-qlora-falcon7b-medical-心理健康领域的对话生成模型

finetuned-qlora-falcon7b-medical-心理健康领域的对话生成模型

finetuned-qlora-falcon7b-medical-心理健康领域的对话生成模型

该项目基于 QLoRA 技术对 Falcon-7B 大型语言模型进行微调，专注于心理健康领域的对话数据集，从而提升模型在特定领域的性能。该模型支持多种对话场景的处理，旨在为心理健康相关应用提供更优质的支持。

tiny-graphrag-简化的GraphRAG算法实现

tiny-graphrag-简化的GraphRAG算法实现

tiny-graphrag-简化的GraphRAG算法实现

这是一个用Python编写的GraphRAG算法的简化实现，仅包含1000行代码，旨在提供高效的结构化信息检索和知识图谱构建功能。

GRANDE-基于梯度的决策树集成

GRANDE-基于梯度的决策树集成

NGRANDE-基于梯度的决策树集成

GRANDE是一个基于梯度的决策树集成项目，旨在提高模型的准确性和可解释性，适用于多种机器学习任务。

Llama Coder-旨在取代Github Copilot的本地化AI支持

Llama Coder-旨在取代Github Copilot的本地化AI支持

Llama Coder-旨在取代Github Copilot的本地化AI支持

Llama Coder是一款旨在取代Github Copilot的工具，提供更强大的本地化AI支持，使用Ollama和Codellama技术，使得代码自动完成可以在用户的硬件上运行，适用于VS Studio Code，具备与Copilot相媲美的功能。

CyberWaifu-真实感聊天机器人，支持多种互动

CyberWaifu-真实感聊天机器人，支持多种互动

CyberWaifu-真实感聊天机器人，支持多种互动

CyberWaifu 是一个结合大型语言模型（LLM）与文本转语音（TTS）技术的聊天机器人，能够在 QQ 平台上与用户进行自然流畅的对话，支持表情包和QQ表情，并具备联网搜索功能，提供实时信息获取。

TutoriaLLM-自托管编程学习平台

TutoriaLLM-自托管编程学习平台

NTutoriaLLM-自托管编程学习平台

面向中小学生的自托管编程学习平台，由LLM提供，旨在帮助教育者创建和学生学习编程教育内容

Qwen-VL-多模态版的Qwen-VL项目

Qwen-VL-多模态版的Qwen-VL项目

NQwen-VL-多模态版的Qwen-VL项目

Qwen-VL是一个支持多种模态输入的高性能项目，旨在提供图像理解和生成能力，并具备灵活的API接口，适合多种应用场景。

Websurfx-现代化、安全、隐私尊重的元搜索引擎

Websurfx-现代化、安全、隐私尊重的元搜索引擎

NWebsurfx-现代化、安全、隐私尊重的元搜索引擎

Websurfx是用Rust编写的现代化、快速、尊重隐私、安全的元搜索引擎，它作为searx的开源替代品，提供了一个高效的搜索平台。该项目强调用户隐私保护，允许用户自托管，并提供无广告的搜索体验，用户还可以根据自己的需求定制搜索引擎的外观和功能。

CodeTF-一站式代码类LLM工具库

CodeTF-一站式代码类LLM工具库

NCodeTF-一站式代码类LLM工具库

CodeTF是Salesforce出品的一站式代码类LLM工具库，提供了一套统一的接口用于Code LLM的训练、推导和微调，支持多种模型，易于扩展和集成。

NLPretext-NLP文本预处理库

NLPretext-NLP文本预处理库

NLPretext-NLP文本预处理库

NLPretext是一个综合性的NLP文本预处理库，提供多种文本处理功能，旨在为各种NLP用例提供高效和灵活的解决方案。它支持大规模文本数据的高效处理，并且允许用户根据需求定制预处理选项，方便集成和使用。

AGVM-支持大批量优化的视觉预测

AGVM-支持大批量优化的视觉预测

NAGVM-支持大批量优化的视觉预测

AGVM是一个用于密集视觉预测的大批量优化项目，旨在提高深度学习模型在视觉任务中的训练和优化效率。

Awesome-LLM-hallucination-LLM幻觉相关论文资源

Awesome-LLM-hallucination-LLM幻觉相关论文资源

Awesome-LLM-hallucination-LLM幻觉相关论文资源

该项目为用户提供与LLM（大语言模型）幻觉相关的研究论文列表，包含不同论文的摘要和关键点，方便用户进行导航和搜索，并定期更新最新的研究成果。

Text Behind Image-轻松为图片添加文本的工具

Text Behind Image-轻松为图片添加文本的工具

Text Behind Image-轻松为图片添加文本的工具

一个简单但有趣的开源工具，可以轻松将文本添加至图片中指定对象的背后，如图像中的动物、人类、物品等，并且支持保存到本地。

暂无评论

暂无评论...

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3