数据中心语言模型研究精选:汇总了数据为中心的语言模型研究领域内的趋势项目和优秀论文,包含大规模数据整理、数据质量评估、评估工具包等
Lepton Search是一个为AI使用案例专门构建的Python工具链的搜索工具,当前为测试版。该工具可以在不到500行代码的情况下构建,利用Lepton工具链,使得AI搜索变得更加高效和便捷。
Clear.ml 是一个开源的连续机器学习平台,专注于促进 AI/ML 模型的开发、集成、部署和扩展,支持从数据管理到模型训练再到部署的整个生命周期。
这是一个具有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。
Run:ai Model Streamer是一个用于将张量从文件流式传输到GPU内存的Python SDK,支持并发和流式处理。
Summit 是一款前沿工具,旨在简化数据工程过程,帮助数据专业人士和组织高效管理、监控和利用数据。它提供了丰富的功能,支持数据管道、数据质量、治理和集成,适合数据工程师、数据科学家、云架构师等多种角色使用。
高性能的Python计算引擎,专为数据处理和人工智能设计,能够自动并行化Python程序,无需重写代码,大幅提升计算效率
该项目是对多模态大语言模型的全面调查,涵盖最新进展、模型比较和评估以及多种应用场景,信息更新频繁,确保时效性。
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模中文语料集,旨在收集各种形式的纯文本中文数据,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等。该数据集不仅涵盖主流文化,还包括各类小众文化及火星文,目标数据量达到40TB,目前进度为19.96%(7984GB),支持社区参与和协作。
Industrial Data Labs开发了一款针对管阀配件行业的AI驱动的内部销售助手,旨在简化数据的组织和整合,帮助用户找到每个物料清单或MRO报价请求中的正确产品编码。