基于LLaMA 3.1的增强视觉指令微调工具,为多模态大型语言模型提供性能提升,公开发布8B参数模型的检查点。
Midjourney API由The Next Leg提供,是一个非官方的API,允许用户与流行的AI图像生成工具Midjourney进行交互。用户只需注册订阅计划,获取API密钥,即可开始向Midjourney API发送请求,进行各种图像生成和创意项目。
这是国内第一个真正的开源、可下载、可运行的 LLaMA2 模型,提供中文版 Llama2模型及中英文 SFT 数据集,兼容适配所有针对原版 llama-2-chat 模型的优化。
YoutubeGPT利用OpenAI的Whisper、Embedding和Davinci模型,从YouTube视频中提取文本转录,分段嵌入,并允许用户通过聊天与视频内容进行交互,提供丰富的用户体验。
Modelscope-agent 是一个用于打造智能体的工具,旨在帮助用户创建个性化的智能体体验,支持多种智能体模型的集成和自定义,其灵活性和可扩展性使其适用于多种应用场景。
Robovision.ai是一个先进的AI平台,旨在通过将视觉智能整合到智能机器中来赋能企业。这个工具在人工智能领域扮演着关键角色,提供了一系列功能,旨在增强机器解释、理解和根据视觉数据采取行动的能力。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
包含了从计算机视觉、自然语言处理到生物计算、气象预测等各个领域的模型,这些模型结合了幻方萤火超算集群的特点,使用并行训练、高效算子、高性能存储等方式,大幅提升原有模型的性能,节省训练时间。
Flojoy Studio是一个开源桌面应用,专为自动化测试、测量和控制硬件设备而设计,支持电路板、示波器、函数发生器、电源、机器人手臂和电机控制器等多种设备。用户可以通过下载Flojoy Studio,连接超过700种支持的台式仪器、传感器、电机、相机、数据采集板和数字万用表,构建和运行强大的基于Python的工程和AI应用,无需任何编码知识。
一个用于文档级翻译的项目,基于大型语言模型(LLMs)进行实现,并进行了一系列实验以评估其性能。
VGSE是一个用于零样本学习的工具,利用视觉基础的语义嵌入技术,能够在没有标记示例的情况下进行图像分类和视觉数据的语义理解。