用于LLM360评估和分析的代码库,包含了多种评估指标和分析方法,旨在帮助用户全面理解和优化模型表现。
TaxEval 是一个专注于税务领域的语言模型评估工具,支持多种评估指标并提供详细的评估报告,便于集成到现有的税务应用中。
ml-calibration是一个用于测量校准和绘制可靠性图表的工具包,提供了可视化方法来评估模型的校准程度,并生成可靠性图表以帮助分析模型的可靠性。该工具包支持多种校准方法的比较,易于集成到现有的机器学习工作流中。
该项目旨在探索LLM评估与人工标注之间的相关性,以期能够实现廉价评估与与人工评估结果的高相关性。通过分析不同的LLM评估基准,该项目提供了有效的评估方法,并支持多种LLM模型的评估。
APEBench是一个用于评估偏微分方程(PDE)自回归神经仿真器的基准测试框架,提供标准化的评估工具,支持多种自回归建模配置,旨在促进不同模型和技术之间的比较。
iPPi是一款专为房地产代理商设计的专业软件,提供更好的物业估值、估值报告及市场洞察。它通过数据驱动的见解为房地产行业赋能,节省时间、提高准确性并增加销售。用户可以在网站上注册免费试用,访问iPPi仪表板并设置偏好,快速研究可比物业并在几分钟内创建估值,仪表板还提供独家市场数据,包括当前待售/出租的库存、平均要价、平均售出/出租时间和需求指数。iPPi的数据库包括超过150万处物业的丰富历史和当前库存信息。
Chronos是一个基于语言模型架构的概率时间序列预测预训练模型,能够将时间序列数据转化为Token序列,并通过交叉熵损失训练语言模型,从而实现多轨迹采样以获得概率预测分布。
ConsoleX是一个综合性的LLM实验平台,结合了聊天接口、LLM API实验和批量评估,支持所有主流LLM,并提供比官方实验室更多的增强功能。
WorkLog.page 是一款智能的工作日志工具,旨在帮助用户轻松跟踪时间并生成评估所需的总结。通过登录并使用该软件,用户可以高效地记录工作时间,适合自由职业者、远程工作者及项目团队。
该论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。
Langtrace是一个开源平台,用于监控、追踪和评估您的LLM驱动应用的性能。它自动生成与OpenTelemetry兼容的追踪信息,捕捉提示、完成、令牌计数、成本、模型超参数设置和延迟指标。Langtrace可以通过仅需两行代码快速集成。
Bind是一个协作的GenAI应用开发平台,允许用户轻松创建用于营销、销售和支持的AI助手。它提供全面的工具和功能,连接各种数据源,部署强大的AI助手,以洞察和回答客户数据。用户可以构建LLM机器人,连接实时数据,自动化任务,并提供私有的LLM基础设施来轻松部署应用。
CNwoman-bot是一个详尽的项目,旨在对恶人进行盘点和分析,提供用户友好的界面和多种查询方式,帮助用户获取恶人相关信息及行为模式。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型