集合了基于大型语言模型(LLM)评估方法的综合调研项目,旨在为开发者、研究者和实践者提供如何有效利用LLM作为评估工具的资源。
能力密度是研究团队提出的评估不同规模 LLM 的训练质量的新指标,定义为模型的有效参数量与实际参数量的比值。该指标提供了统一的度量框架,通过引入参考模型的概念,建立参数量与性能之间的映射关系,显著降低同等性能的推理成本,并指示模型存在高性价比的有效使用期。
Inductor是一个开发工具,用于评估、确保和提升大型语言模型(LLM)应用的质量,适用于开发阶段和生产环境。
Aidan Bench是一个专门用于评估大型语言模型(LLMs)创新性与可靠性的工具。通过一系列开放式问题,它测试模型的创造力、可靠性、上下文注意力和指令遵循能力,旨在揭示在标准基准测试中可能被低估的能力。
ArtPrompt是一个基于ASCII艺术的越狱攻击项目,旨在绕过具有安全机制的语言模型(LLM)。通过利用ASCII艺术形式,该项目能够进行黑盒攻击,测试和评估LLM对非语义提示的识别能力,揭示其脆弱性和局限性。
随着LLM的发展速度,人们很容易认为为该领域做出贡献是不可能的。这与事实相差甚远。对于从业者和研究人员来说,LLM还有大量工作要做。
本文评估了LLM自动生成特征归因解释的能力,研究不同方式触发自我解释的可信度,并与传统解释方法进行了比较。
Zeno Build旨在帮助开发人员快速构建、比较和迭代使用大型语言模型应用的工具,提供简单的代码示例和实验管理功能。
这是一个精心整理的LLM水印论文列表,提供关于大型语言模型水印技术的最新研究和资源。