tiktoken 是一个用于处理文本的开源工具,专为 OpenAI 的大型语言模型(LLM)设计,能够高效地将文本转换为 token,并支持多种编码方式,兼容不同的 OpenAI 模型。它还提供了批量处理能力,便于用户进行大规模数据的处理和分析。
SearchArray是一个基于Pandas的扩展数组,提供了词法匹配功能(如BM25),可以将Pandas的字符串列转换为词项索引,从而实现高效的短语和单词评分。
业火五笔输入法是一款国产开源的中文输入法,旨在为用户提供高效便捷的五笔输入体验。作为一个开源项目,用户不仅可以自由使用,还可以根据自己的需求进行修改。该输入法支持多种词库,满足不同用户的输入需求。
YoBulk是一个开源的CSV导入器,提供可扩展且基于AI的解决方案,用于导入、验证和转换CSV文件。它旨在通过用户友好的界面和高级功能简化数据清理和入库的过程。
这是一个自动化机器学习系统,利用O1和Claude AI模型迭代开发、改进和优化机器学习解决方案,在Kaggle Spaceship Titanic挑战中实现了前1%的性能。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型