《自然语言处理:基于预训练模型的方法》随书代码,提供多种基于预训练模型的自然语言处理方法,支持文本分类、命名实体识别、问答等任务,包含详细的使用示例和文档,易于扩展和集成到其他项目中。
我们维护的NLP开源工具包,致力于自然语言处理的研究与应用,提供多种功能以支持学术研究和实际应用。
LeNLP是一个为Python开发的自然语言处理工具箱,旨在通过Rust优化提升性能,集成高性能并行化功能,从而简化Python中的各种NLP任务。
TweetNLP - 面向Twitter的NLP工具包,提供一系列有用的工具,用于分析和理解推文,包括情感分析、表情符号预测和命名实体识别,基于专门针对Twitter的先进语言模型。
用Rust语言编写的GLiNER模型推理引擎,能高效地处理自然语言处理中的命名实体识别等任务,具有资源消耗低、性能高的特点,为相关领域的开发者提供了一个强大的工具
一个用于中文信息抽取的项目,基于LLaMA和Alpaca模型,结合LoRA技术进行微调。该项目旨在提供高效、准确的中文文本处理能力,特别是在命名实体识别(NER)方面,支持多种训练和评估配置,方便用户根据需求进行模型微调与集成。
Taiyi是一个经过微调的双语(中文和英文)大型语言模型,专为多种生物医学任务而设计,具备高准确率和多任务处理能力,适用于研究和临床环境。
一个自然语言处理任务与实例集,提供多种NLP任务的实现和示例。
该项目旨在展示如何在中文环境中使用Transformers库进行自然语言处理(NLP)任务,提供了丰富的示例和详细的文档,以帮助用户理解和应用相关技术。
Cybertron是一个纯Go语言包,为前沿的自然语言处理(NLP)技术提供了简单易用的接口,支持多种预训练模型,具备高性能的文本处理能力,易于集成到现有的Go项目中。
WinkNLP是一个自然语言处理库,提供高性能的分词和多种NLP功能,适用于JavaScript应用程序。
Flair是一个非常简单的框架,旨在提供最先进的自然语言处理技术,支持多种预训练模型,并拥有简单易用的API,适用于多种语言的文本处理,同时可以与其他深度学习框架(如PyTorch)无缝集成。
ark-nlp是一个旨在收集和复现学术与工作中常用的自然语言处理模型的平台,支持多种NLP任务,并提供丰富的预训练模型,适合研究人员和开发者使用。
该项目集成了基于 transformers 库实现的多种自然语言处理任务,支持用户使用各种预训练模型,进行文本分类、生成、命名实体识别、机器翻译等操作,并且允许用户自定义数据集,易于使用和扩展。
一个简单快速的中文分词和命名实体识别工具,使用最新数据的字典文件,提供更合理的词频统计,分词速度是知名“结巴”中文分词的两倍。
TaiChi是一个开源库,专注于少样本学习,可以支持多种自然语言处理任务,具有灵活的API设计和强大的可扩展性,适合研究者和开发者使用。
书生·浦语(InternLM)是由上海人工智能实验室和 SenseTime(贡献相等)与香港中文大学、复旦大学和上海交通大学合作开发的多语言大型语言模型。
基于 LLaMA-7B 经过中文数据集增量预训练,旨在提升中文自然语言处理能力。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型