Chinese-LangChain是一个专注于中文自然语言处理的项目,集成了小必应、Q.Talk和强聊等多种聊天功能,为用户提供友好的对话体验。该项目具有可扩展性,方便开发者添加新功能,适合构建自定义聊天机器人。
zero_nlp 是一个专注于中文自然语言处理的项目,提供全面的NLP数据处理流程,支持多种预训练模型,具备便捷的模型训练接口以及高效的推理与评估工具,适合研究与应用开发。
Chinese LLaMA-Alpaca是一个专注于中文的LLaMA-Alpaca模型,旨在推动中文自然语言处理的研究和应用。该模型基于先进的LLaMA架构,适用于多种中文任务,帮助用户在中文环境中实现更智能的交互与分析。
SuperCLUE-Llama2-Chinese是基于SuperCLUE的OPEN基准,为Llama2开源模型提供全方位的中文评估,支持多种评测指标,致力于推动中文自然语言处理的发展。
‘英特尔创新大师杯’深度学习挑战赛赛道3专注于中文自然语言处理中的地址相关性任务,提供了一种基于深度学习的高效解决方案,包含模型训练、评估及开源实现,旨在促进社区的使用与贡献。
本项目基于Meta发布的可商用大模型Llama-2开发,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。
该项目汇集了多个开源的中文预训练语言模型及其对应的指令数据集,旨在为中文自然语言处理提供丰富的资源。
在MiniGPT4的基础上对齐了Qwen-Chat语言模型,使用高质量的指令微调数据,通过单阶段预训练达到了很好的效果。
corpus是一个包含多种自然语言处理和知识图谱相关语料的大列表,旨在为研究人员和开发者提供丰富的语料资源。它支持多种自然语言处理任务,并且开源,易于使用和扩展。
深言科技联合清华大学NLP实验室开源的语鲸-8B模型,其能力大致介于ChatGLM2和3之间。该模型支持多种自然语言处理任务,适用于各种应用场景。
RWKV是一种新型模型,它不需要注意力机制,而是将递归神经网络和Transformers的优点结合在一起。
Linly是基于Falcon模型的增强版本,通过扩充中文词表并在中英文数据上进行增量预训练,旨在提升自然语言处理任务的效果。
一个基于斯坦福的 Alpaca,并进行了中文优化的大语言模型项目,愿景是成为能够帮到每一个人的LLM Engine。
Grok-1是xAI推出的开源大语言模型,拥有3140亿参数,适用于NLP任务,并提供JAX示例代码,便于加载、运行和微调。
vicuna-33b是最新发布的高性能开源模型,尽管开源,但不允许商用,适用于各种自然语言处理任务。
由百川智能开发的一个开源可商用的大规模预训练语言模型,支持中英双语,基于Transformer结构,训练于约1.2万亿tokens,具有70亿参数,提供4096的上下文窗口长度,在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
MPT-30B是MosaicML刚刚发布的一种强大模型,具备8K的上下文理解能力,专门设计用于聊天应用,适合多种自然语言处理任务。
Hugging Face是一个专注于人工智能的开放源代码平台,旨在通过开放科学推进和普及人工智能技术。该项目提供了一系列工具和库,帮助开发者和研究人员轻松构建和应用自然语言处理(NLP)模型。