CoPE是一种新的位置编码方法,允许根据上下文来调整位置,以关注更高抽象级别的序列元素。它能够根据需要计算每个注意力机制头的距离,解决标准Transformer无法解决的计数和复制任务,并在语言建模和编码任务上拥有更好的困惑度(PPL)。
Self-Translate是一种技术,通过利用多语言语言模型的少样本翻译能力,能够有效地提高多语言语言模型的性能,克服对外部翻译系统的依赖,尤其在非英语输入场景下表现优越。
将SOTA多模态能力融入语言模型,改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。
LLaMA-Adapter V2 是一个高效的模型适配器,能够在短时间内完成训练并支持多模态功能,包括图像解释和问答。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
Data Gemma是一个开源模型库,旨在通过谷歌数据共享平台的海量真实世界统计数据,帮助解决语言模型的幻觉问题,实现语言模型的现实世界数据锚定。