该项目探索文本到图像生成的新方法,重点是集成多个LoRA以创建高度定制和详细的图像。
GPT4视觉用例集锦是一个集合了多种视觉任务的项目,基于最新的GPT-4模型,提供丰富的示例和用例,旨在帮助用户更好地利用视觉技术。该项目采用易于使用的API接口,支持图像分类、对象检测、图像生成和视觉问答等功能,适用于广泛的应用场景。
ComfyUI-KepOpenAI是一个用户友好的GPT-4V API接口,支持图像与文本提示的智能文本生成,旨在提高内容生成的相关性和效率。该项目提供了直观的界面,使用户能够轻松生成高质量的文本内容,并与GPT-4V API高效兼容。
这是一个网站,用户可以上传照片,然后由AI名人(如史蒂夫·乔布斯或Snoop Dogg)对照片进行‘吐槽’或赞美。该项目结合了先进的AI工具,如GPT-4视觉和ElevenLabs语音克隆技术。
RPG是一种新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的强大推理能力来增强文本到图像扩散模型的组合性。该系统将生成复杂图像的过程分解为子区域内的多个简单生成任务,实现区域化的组合式生成,集成文本引导的图像生成和编辑,显著提高了泛化能力。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型