JetStream-专为XLA设备优化的LLM推理引擎官网

专为XLA设备优化的LLM推理引擎，针对TPU和GPU进行了吞吐量和内存优化，支持JAX和PyTorch模型，提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理，可用于Gemma等大模型的高效部署。
JetStream的特点:
1. 吞吐量和内存优化
2. 支持JAX和PyTorch模型
3. 完整的服务部署方案
4. 专为Cloud TPU VM在线推理设计
5. 适用于Gemma等大模型的高效部署

JetStream的功能:
1. 在Cloud TPU VM上进行在线推理
2. 部署JAX和PyTorch模型
3. 使用JetStream进行高效的LLM推理

相关推荐

SDT-笔迹模仿的模型

SDT是一个基于深度学习的笔迹模仿模型，能够支持多种书写风格的生成和实时调整，兼容多种输入设备，旨在提升用户的书写体验。

Nlearn-thing-使用AI创建思维导图学习新知识

learn-thing 是一个利用AI技术创建思维导图的工具，帮助用户更有效地学习新知识。它结合了可视化思维导图和人工智能模型的交互，提供了一种直观且高效的学习方式。用户可以通过该工具查看、编辑和导出思维导图数据，达到更好的学习效果。

Infini-Megrez-软硬协同的全模态理解模型

一款软硬协同的端侧全模态理解模型，具备图像、文本、音频三种模态数据的理解分析能力，以其高精度、高速度和简单易用性为核心价值

荀子系列大语言模型-提升古籍研究与传承的智能工具

一系列针对古籍智能处理的开源模型，特色包括古籍智能标引、信息抽取、诗歌生成、高质量翻译、阅读理解、词法分析和自动标点等功能，旨在提升古籍研究与传承的效率与质量

ComfyUI-FluxRegionAttention-为Flux模型提供区域注意力功能

为Flux模型实现区域注意力功能，通过添加区域注意力节点，使模型能够根据不同的区域和条件生成更精细的图像内容，提升图像生成的细节表现力和个性化程度

ontogpt

OntoGPT是一个基于GPT的开源项目，其中包括SPIRES工具，使用机器学习技术能够从文本数据中提取本体信息。

Stanford Alpaca-一种高效的指令遵循模型

斯坦福开发的一种遵循指令的 LLaMA 模型，基于 Meta 的 LLaMA 7B 模型进行微调，性能接近 OpenAI 的 text-davinci-003，支持在单个 GPU 或 CPU 上运行。

ChineseLyrics-中文歌词数据库，超10万首歌词

ChineseLyrics是一个包含超过10万首中文歌词的数据库，歌词数据结构化，便于查询和使用，支持多种编程语言的接入，易于扩展和更新。

street-fighter-ai

这个开源项目使用深度强化学习训练了一个智能 AI 代理，可以通关《街头霸王·二：冠军特别版》关底 BOSS。大部分代码使用了 GPT-4。该项目的主要功能是训练一个深度强化学习智能 AI 代理，用于通关《街头霸王·二：冠军特别版》关底 BOSS。

langchain-ChatGLM-优化对话系统的自然语言处理项目

langchain-ChatGLM是一个用于处理自然语言处理任务的项目，允许通过语义匹配和上下文管理来优化对话系统的表现。该项目支持将原文划分为单句进行处理，基于提问语义进行单句匹配，同时具备上下文管理功能，结合单句前后文本进行分析，并可通过chunk_size限制上下文长度。

NML/AI Research Papers Solved-助你掌握机器学习与AI研究

这个项目包含了成为机器学习与AI研究和研究论文专家所需的所有资源。提供全面的机器学习与AI研究论文集合、关键研究论文的摘要与解决方案，以及理解复杂机器学习与AI概念的资源，营造了一个适合研究人员和学习者的协作环境。

Awesome-Quantization-Papers-深度学习模型量化论文汇总

该项目提供了深度学习模型量化相关论文的列表，并根据模型结构和应用场景对论文进行了分类，方便研究人员查阅和了解最新的研究动态。

Nrse_prob_robotics-基于《概率机器人学》的机器人算法实现

机器人算法实践：基于《概率机器人学》书籍的机器人算法在ROS 2上的实现，旨在通过Python和C++代码，将书中的理论与现实世界中的机器人应用相结合，实现快速原型开发和深入理解

NMeta Lingua-轻量级高效的LLM研究代码库

一个轻量级、高效、易于修改的大型语言模型（LLM）研究代码库，主要功能是支持研究者进行模型训练和推理，具有易于修改的PyTorch组件，方便尝试新的架构、损失函数和数据集。

ACL 2022 Limited Data Learning Tutorial-有限数据学习技术的资源与教程

该项目提供了在ACL 2022上展示的有限数据学习技术的资源和教程，帮助用户掌握相关方法。

Linly-扩充中文词表的预训练模型

Linly是基于Falcon模型的增强版本，通过扩充中文词表并在中英文数据上进行增量预训练，旨在提升自然语言处理任务的效果。

Emotivoice-情感驱动的中英语音合成引擎

Emotivoice是一个支持情感提示控制的中英双语语音合成TTS引擎，提供多达2000种语音选项，旨在通过情感分析与合成技术提升语音交互体验。

Medusa-提升LLM生成速度的技术

Medusa使用多个解码头部，使大型语言模型的生成速度提升2倍。与传统的小模型生成选项加大模型验证的方式相比，Medusa无需额外的模型，可以与大模型同时训练和使用，特别适合分布式部署场景。

暂无评论

暂无评论...