betterprompt是一个全面的提示测试工具,旨在帮助用户评估和优化不同语言模型的提示效果。它支持多种语言模型,提供易于使用的界面和可视化分析功能,用户可以自定义测试用例以获得更准确的测试结果。
一个包含多个样本的基准测试项目,用于大语言模型的测试和评估,旨在帮助研究者和开发者了解模型的性能表现。该项目提供多种语言的测试样本,支持自定义测试用例,易于与现有AI项目集成,方便进行系统性评估。
该研究发现,在计算限制范围内,LLM(高达90亿参数)经过四轮训练后,新数据带来的收益微乎其微,增加资源的收益有限。对于嘈杂的数据集,数据过滤的效果更为显著。
QLLM是一个通用的大语言模型量化工具箱,支持2-8位的LLM量化,用户可以轻松使用GPTQ和AWQ方法进行模型量化和压缩。该工具箱提供了易于使用的工具和接口,适用于多种大语言模型,旨在帮助用户在不同精度下评估模型性能。
llm-numbers是一个每个LLM开发人员都应该了解的工具,提供关键的统计数据和指标,帮助开发者深入理解模型性能。它支持多种语言模型的评估,并易于集成到现有的机器学习工作流中。此外,llm-numbers还提供可视化工具,以便展示模型数据,让开发者更直观地分析结果。
openlogprobs是一个Python API,旨在通过语言模型API提取完整的下一token概率。它通过使用logit偏置来逆向工程标记的对数概率,支持topk搜索和精确解算法,从而有效提取语言模型API的完整概率向量。
liteLLM是一个开源库,旨在简化LLM(大语言模型)的完成和嵌入调用。它提供了一个方便易用的接口,使得调用不同的LLM模型变得更加简单。用户只需导入'litellm'库并设置必要的环境变量(如OPENAI_API_KEY和COHERE_API_KEY),即可创建Python函数并使用liteLLM进行LLM完成调用。此外,liteLLM还提供了一个演示平台,用户可以在其中编写Python代码并查看输出,从而比较不同的LLM模型。
通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画,帮助用户直观了解不同模型的表现和竞争力。
flash-attention是一个基于FlashAttention优化的Transformer实现,其训练速度在GPT2和GPT3上比Huggingface的实现快3-5倍,显著提升了训练效率,同时优化了内存使用,并支持多种硬件加速。
Skill-it是一个用于理解和训练大语言模型(LLM)的数据驱动技能框架,通过选择合适的训练数据来提升下游模型在不同任务上的性能。
这是一个音频字幕的数据集,旨在评估音乐与语言模型的性能,包含多种歌曲的音频描述,促进音乐与自然语言处理交叉领域的研究。
Certiverse是一个在线平台,帮助组织更加快速、轻松和经济地构建和交付考试。用户可以创建测试程序或优化现有程序,并选择测试赞助商以查看可用考试或作为主题专家贡献测试内容。
SuperCLUE-Llama2-Chinese是基于SuperCLUE的OPEN基准,为Llama2开源模型提供全方位的中文评估,支持多种评测指标,致力于推动中文自然语言处理的发展。