该项目探讨了五种语言大模型在四种语言的五个任务上的表现差异,通过特定方法优化性能,虽然相较于传统方法仍有不足,尤其在处理敏感问题时需注意偏差。尽管LLM在某些方面表现出优势,仍无法完全取代人类标注。文章还讨论了聚合模型标注与人类标注在速度、准确性、成本和偏见方面的权衡。
Aidan Bench是一个专门用于评估大型语言模型(LLMs)创新性与可靠性的工具。通过一系列开放式问题,它测试模型的创造力、可靠性、上下文注意力和指令遵循能力,旨在揭示在标准基准测试中可能被低估的能力。
Weave是一个无需编码的提示管理系统,允许企业主创建个性化的工作流。用户可以连接不同的提示并利用多种大型语言模型,包括一些在特定用例中表现优于大型模型的小型模型。
Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。
openai-forward是一个专为大型语言模型设计的高效转发服务,支持OpenAI API的反向代理功能,旨在提升请求处理效率,简化集成过程。
该论文介绍了一种新颖且简单的方法,仅使用合成数据和不到1,000个训练步骤即可获得高质量文本嵌入。它利用专有的LLM生成了多样的合成数据,用于处理几乎100种语言中的数十万个文本嵌入任务。
该项目研究了prompt在不同下游任务和不同类型、规模的预训练语言模型之间的迁移性,探索其在零样本设定下的有效性、对其他模型的适用性以及对训练速度的提升,并分析了影响迁移性的因素。
利用一种新的方法回答医学问题时已经超过了。通过利用三种先进的提示策略,GPT-4在数据集上取得了惊人的90.2%准确率。
一种利用自我学习原则的度量学习方法,无需标签。
Movie101是一个大规模的中文电影理解基准,包含101部电影,配备音频描述(AD)。数据集包含30,174个解说片段,总计92小时。基准包含两个任务:电影片段解说(MCN)和时序解说定位(TNG),旨在推动中文电影理解领域的研究与应用。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型