Crawl4AI是一个简单易用且高效的网页爬虫开源工具,专为大型语言模型(LLM)设计,用于爬取并输出适合训练的数据格式,如Markdown、JSON和HTML等。它具备强大的反爬能力,支持多种媒体数据的提取,同时提供友好的API接口和自定义抓取规则,适合集成到机器学习工作流中。
OpenDelta是一个开源框架,旨在实现高效的参数调优(Delta Tuning),支持多种机器学习模型和任务,具有易于集成和扩展的特点,能够优化计算资源的使用。
qlora-pipe是一个开源脚本,旨在通过在四块4090 GPU上进行定制训练,以高效的方式训练大型语言模型(LLM)。它支持多块GPU的并行训练,并提供多种配置选项以优化训练流程,确保用户能够根据不同的需求灵活调整训练参数。
基于 MLX 框架的 Silicon LLM 训练和推理工具包,简化了在 Apple Silicon 上训练和运行大语言模型的过程,旨在为开发者提供高效、易用的工具,以应对资源有限的设备上的大语言模型需求。
Webᵀ Crawl 通过提供一个网址,快速将完整网站及其内容(如PDF、FAQ等)转化为可用于自定义大模型的提示或向量数据库的块,简化数据处理过程。
RoboManipBaselines是一个集成了多种模仿学习方法和基准任务环境的软件,旨在为机器人操控提供基准和支持,提升学习效率与准确性。
femtoGPT 是一个使用纯 Rust 编写的最小生成预训练 Transformer 实现,旨在提供轻量级、高效的自然语言生成能力,易于集成和扩展,适合各种机器学习应用。
Cogniflow是一个无代码AI平台,允许用户通过集成AI提升工作效率,无需任何编码。用户可以利用文本、图像或音频数据创建AI模型,提供无缝高效的信息提取、文档聊天和图像分析的自动化方式。
Kailua Labs是一个低代码平台,旨在帮助开发者创建多种数据类型的搜索功能,包括文本、图像、视频和音频等。用户可以通过自然语言或数据组合进行搜索,以使应用中的内容更易于访问,符合人们的思维和表达方式。
Hexomatic 是一款网络爬虫和工作流自动化工具,允许用户将互联网作为自己的数据源。它能够自动化执行100多个销售、营销或研究任务,帮助用户高效获取和处理数据。用户可以利用其网络爬虫功能从任何网站提取数据,使用一键式爬虫或创建自定义爬虫食谱。此外,Hexomatic 提供100多种现成的自动化功能,用户可以将自己的爬虫食谱与现成的自动化程序结合,创建强大的自动化工作流。
Sōzu HTTP 是一个反向代理,在运行时可配置,快速且安全,内置于 Rust。它能够动态接收配置更改并处理 SSL,保护后端服务不受直接网络访问。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型