Mini-Gemini-挖掘多模态视觉语言模型潜力官网

一个专注于挖掘多模态视觉语言模型潜力的开源项目，支持从2B到34B不同规模的密集和MoE大型语言模型，具备图像理解、推理和生成的能力。
Mini-Gemini的特点:
1. 支持多种规模的语言模型（从2B到34B）
2. 具备图像理解、推理和生成能力
3. 基于LLaVA框架构建，使用双视觉编码器
4. 提供低分辨率视觉嵌入和高分辨率候选
5. 通过补丁信息进行高分辨率区域和低分辨率视觉查询的补丁级别挖掘
6. 结合文本和图像实现综合理解和生成

Mini-Gemini的功能:
1. 在图像理解任务中使用
2. 进行多模态推理和生成
3. 应用于计算机视觉与自然语言处理的结合
4. 支持研究和开发新的视觉语言模型

相关推荐

NOLMES-开源LLM评估系统

由AI2开发的开源LLM评估系统，用于对基础模型和指令微调模型进行全面评估。

Npeft_pretraining-参数高效的语言模型预训练

是参数高效的语言模型微调中最受欢迎的方法之一。该项目探讨了以参数高效的方式进行语言模型的预训练，并引入了一种名为ReLoRA的方法，利用低秩更新来训练高秩网络。

Ncopilot-gpt4-service-将请求转换为ChatGPT，免费使用GPT-4

copilot-gpt4-service是一个将GitHub Copilot的请求转换为ChatGPT请求的服务，用户可以免费使用GPT-4模型，从而提高代码生成和补全的效率，支持多种编程语言，简化开发人员的编码工作流程。

NCodeGeeX4-全面的国产开源代码模型

一个功能颇为全面的国产开源代码模型，集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等所有能力于一体，覆盖编程开发的各种场景。

Nmini_llm-简化版的GPT-2与Llama实现

最小 PyTorch 实现的 GPT-2 和 Llama，旨在简化代码以便更容易理解和使用，并且能够在短时间内训练出性能良好的自然语言生成系统。

Nsocketify.py-高性能WebSocket与HTTP服务器

socketify.py是一个为PyPy3和Python3提供WebSockets和高性能Http/Https服务器的项目，旨在让开发者能够轻松创建高效的网络应用。

Comcast-模拟糟糕网络连接以优化系统

Comcast是一种用于模拟常见网络问题的工具，包括延迟、带宽限制和丢弃/重新排序/损坏的数据包，旨在测试分布式系统的稳定性。它能够帮助开发者识别和修复应用程序在不良网络环境下的潜在问题，从而提升系统的鲁棒性。

Latopia

Latopia是一个开源的语音AI训练和推理工具，可以支持机器学习。它提供了训练和推理语音AI模型的功能，可以用于开发语音识别、语音合成和语音转换等应用。用户可以使用Latopia来训练自己的语音AI模型，并进行推理和测试。在GitHub上，这个开源项目有一个名为ddPn08的存储库。

NSimPO-一种新的序列生成任务处理方法

SimPO 通过将强化学习转变为有监督的成对损失，提供了一种新的方法来处理序列生成任务。

NOmegance-为扩散合成提供单一参数控制

Omegance是一个用于扩散基础合成的项目，通过单一参数支持多种粒度的控制，旨在为创意AI项目提供灵活的输出生成能力。

NMulti-CPR-多领域中文段落检索数据集

Multi-CPR是一个针对中文段落检索的多领域数据集，旨在支持中文处理的研究与应用。该数据集涵盖多个领域，提供了丰富的样本，帮助研究者和开发者高效地训练和评估检索模型。

Nllama.cpp-高性能大语言模型推理库

一个开源的高性能大语言模型推理库，旨在通过最小的设置在各种硬件上实现大语言模型的推理，并且提供最先进的性能，支持跨多个设备的分布式推理，兼容多种数据格式。

Nself-llm-开源大模型食用指南

基于AutoDL快速部署开源大模型，提供完整指南，包括环境配置、部署和微调，助你轻松掌握各类大模型应用

NMLOPs Primer-学习MLOps的资源集合

MLOPs Primer是一个资源集合，旨在帮助用户学习MLOps，包括教程、文章和工具，涵盖最佳实践和案例研究，适合初学者和从业者。

NMoonshot-评估大型语言模型的工具

一款用于评估和红队任何大型语言模型（LLM）应用的简单且模块化工具，由AI验证基金会开发，集成了基准测试和红队测试，帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。

liteide

这个开源项目提供了一个集成开发环境（IDE）来支持Go语言。它使用了VSCode作为基础框架，并通过gopls实现了对Go语言的支持。同时，它还使用LSP与编辑器进行通信。此外，该项目还提供了一个名为ChatGPT的中文聊天扩展，可以通过快捷键ctrl + shift + X进行操作。

bilingual_book_maker-利用 AI 制作双语电子书的工具

一个开源的图书 AI 翻译工具，利用大语言模型（如 ChatGPT）对文件和图书进行多语言翻译，支持的格式有 epub、txt 及 srt 等，提供用户友好的界面和高效的翻译效果。

NRVC3-python-机器人学与视觉控制的Python代码库

《机器人学、视觉与控制（第三版）》的Python代码实例库，提供第三版教科书中的算法实现，助力机器人与计算机视觉领域的学习和研究。该项目包含多种与机器人学和计算机视觉相关的算法实现，适合用于教学和实践相结合的学习方式。

暂无评论

暂无评论...