自然语言处理(NLP)教程,涵盖文本词向量、词法分析、预训练语言模型等常见NLP任务,适合作为入门学习和基线参考。
funNLP是一个几乎包含所有中文NLP资源的综合性平台,旨在为NLP初学者和爱好者提供丰富的学习和实验工具,同时满足用户的收集需求。
NLPretext是一个综合性的NLP文本预处理库,提供多种文本处理功能,旨在为各种NLP用例提供高效和灵活的解决方案。它支持大规模文本数据的高效处理,并且允许用户根据需求定制预处理选项,方便集成和使用。
AnglE是最新的文本嵌入模型,旨在优化文本嵌入,作为新一代的语义文本相似度方法,取得了新的最先进(SOTA)结果。它提供了预训练模型,包括语言模型(LLM)和数据集。
该论文介绍了一种新颖且简单的方法,仅使用合成数据和不到1,000个训练步骤即可获得高质量文本嵌入。它利用专有的LLM生成了多样的合成数据,用于处理几乎100种语言中的数十万个文本嵌入任务。
LLM-Blender是一个通过配对排名和生成融合技术来集成多个语言模型的项目,旨在提升文本生成的准确性和质量。它结合了不同语言模型的输出,以提高性能,适用于需要高质量文本生成的多种应用场景。
llm-swarm是在Slurm集群中管理可扩展的开放式LLM推理端点的工具,具备生成合成数据集的能力,主要用于预训练或微调。同时,它集成了huggingface/text-generation-inference和vLLM,以支持大规模文本生成任务。
面向大模型的快速文本文件处理工具,能将文件分块并转换为适合AI语言模型使用的格式,帮助用户高效地准备数据
LLM4TS是一个整合了大量时间序列相关论文和代码的大型语言模型和基础模型平台,旨在为研究人员和开发者提供便利的工具和资源,以便于进行时间序列数据的处理与分析。该项目不仅提供了应用示例,还支持多种时间序列分析任务,简化了用户的操作流程。
AiEditor是一个开源的AI驱动富文本编辑器,提供开箱即用的功能,全面支持不同框架,并兼容Markdown。它支持私有部署,并允许访问私有LLMs API密钥。使用AiEditor非常简单,只需包含几行代码,即可快速构建知识产品。该编辑器实时识别和渲染Markdown语法,并提供强大的AI功能,如检查拼写和语法错误、扩展或缩减文本、一键翻译以及总结核心内容。它还支持协作和评论功能,便于多个用户共同编辑同一个文档。
一个用于文档级翻译的项目,基于大型语言模型(LLMs)进行实现,并进行了一系列实验以评估其性能。
Ramen AI 提供完整的文本分类工具集,无需模型训练和预标记数据,开箱即用,轻松构建、测试、监控和扩展应用。
一本开源且免费可在线阅读的英语语法学习书籍,分为初级、中级和高级三个层次,采用循序渐进的方式帮助学习者掌握英语语法,涵盖简单句、复句、合句和简化从句的内容。书中包含三大篇幅,细分为二十二章节,强调实用性,通过例句和练习提高学习效果。