Llog是一个为大型语言模型(LLM)设计的协作分析与洞察工具,能够通过简单的请求记录最终用户的交互,并便于所有商业利益相关者从这些日志中提取、分享和推导洞察。
关于大型语言模型(LLM)评估的指南,提供了从实践经验到理论知识的见解,旨在帮助用户确保 LLM 在特定任务上表现良好
一个开源实验平台,用于改进基于LLM的应用的功能。通过捕捉输入/输出、添加属性、结合用户反馈和识别,提升生产中的LLM功能。
一个Python库,可轻松跟踪和可视化LLM的提示和输出。用户可以识别有效的策略,高效解决问题,并确保可重复的工作流程。
Exifa是一个工具,旨在帮助用户了解嵌入在数字图像中的EXIF(可交换图像文件格式)数据的隐藏层次。它是首个将Snowflake Arctic LLM整合到其操作中的开源应用。
一款可编程的命令行程序,用于与大型语言模型(LLM)接口,主要功能是将标准输入发送至LLM并将其响应输出到标准输出,特别适合在文本编辑器中如Vim中使用
LLM App是一个用于构建和服务AI应用以及支持LLM的实时数据管道的生产框架,旨在简化AI管道,集成各种功能,提升开发效率。
parea.ai 是一个专为调试和监控大型语言模型(LLM)应用而设计的开发者工具包。用户可以通过该平台轻松管理LLM工作流程,评估和比较不同的提示,监控应用程序的性能,并进行版本控制和迭代。
E2B桌面沙箱为大型语言模型(LLM)提供图形桌面环境的沙盒服务,旨在通过安全的计算机使用体验提供隔离的云端环境。
Sprig是一个用户洞察平台,旨在帮助产品团队构建卓越产品。它提供了一系列洞察工具,包括调查、回放和基于GPT的AI分析,帮助公司快速获取用户洞察,从而改善产品体验。Sprig获得了Dropbox、Robinhood、Notion和Loom等下一代产品团队的信任,同时得到了Andreessen Horowitz、Accel、First Round Capital和Figma Ventures的支持。
PromptJoy是一个开源工具,主要用于记录LLM请求以便检查输出,并且能够轻松进行A/B测试,以找出最佳提示。
将 Git 仓库中的选定文件整合到一个文件中,便于在大型语言模型(LLM)如 Claude 和 OpenAI 等中使用。该工具能够有效导出所需文件,支持多种语言模型,优化了文件处理的流程。
Langtrace是一个开源平台,用于监控、追踪和评估您的LLM驱动应用的性能。它自动生成与OpenTelemetry兼容的追踪信息,捕捉提示、完成、令牌计数、成本、模型超参数设置和延迟指标。Langtrace可以通过仅需两行代码快速集成。
nat.dev是一个开源的LLM(语言模型)测试平台,提供用户友好的界面,方便用户实验不同的LLM模型并分析其性能。用户可以创建账户,选择不同的模型进行测试,输入文本提示,生成响应,并评估生成的输出。该平台还允许用户自定义模型参数,适合高级用户进行微调。
Faune是一款集成多种大型语言模型的AI聊天应用,支持内置谷歌搜索功能。用户可以与LLM对话,利用AI进行互联网搜索,参与角色扮演,使用GPT-4 Vision将手写笔记转换为文本,功能丰富多样。
能力密度是研究团队提出的评估不同规模 LLM 的训练质量的新指标,定义为模型的有效参数量与实际参数量的比值。该指标提供了统一的度量框架,通过引入参考模型的概念,建立参数量与性能之间的映射关系,显著降低同等性能的推理成本,并指示模型存在高性价比的有效使用期。
OpenLIT是一个开源的GenAI和LLM可观测性平台,原生支持OpenTelemetry,能够在单一应用中集成追踪和指标。它是一个应用性能监控(APM)和可观测性工具,通过简单的一行代码即可简化集成过程,确保GenAI项目的顺利监控,支持包括OpenAI、HuggingFace等流行库和ChromaDB等向量数据库的项目。
Aviary允许在一个地方与各种大型语言模型(LLM)进行交互。用户可以直接比较不同模型的输出,按质量进行排名,并获得成本和延迟估计等功能。它特别支持在Hugging Face上托管的Transformer模型,并在许多情况下还支持DeepSpeed推理加速。