Browser-Use 是一个开源的网页自动化库,能够让大型语言模型(LLM)与网站进行互动,通过简单的接口实现网页自动化操作,支持多标签管理、XPath提取和视觉模型处理。它兼容任意 LLM,适用于多种浏览器的自动化操作,可用于数据抓取和信息检索。
基于GPT-4 Vision的可靠浏览器自动化工具,以教授人类的方式进行操作,是目前最可靠的AI首选自动化工具。
Open Interpreter是一个开源项目,允许语言模型在你的计算机上运行代码以完成各种任务。用户可以通过类似ChatGPT的终端界面进行操作。
Project Atlas 2 是一个强大的工具,旨在通过自然语言处理技术,帮助用户在浏览器中自动化各种业务操作。用户可以利用这个项目来简化日常任务,提高工作效率,并且通过简单的语言指令与浏览器进行互动。
ScrapeGraphAI 是一个网络抓取Python库,使用LLM和图形逻辑为网站、文档和XML文件创建抓取管道。只需说出你想提取的信息,这个工具库就能为你完成!
Scan2AI是一个先进的Chrome扩展,用户可以捕捉屏幕的任意区域并将其发送到强大的AI API进行即时处理和洞察。
Transformers.js是一个在浏览器中运行Transformers模型的库,支持多种流行的深度学习模型,如BERT、T5、GPT-2等。它适用于多种任务,包括文本分类、翻译、摘要和问答,同时还支持自动语音识别和图像分类功能。该库提供了零样本图像分类和图像到文本的能力,方便用户在浏览器环境中进行各种深度学习任务。
Imagga是一款图像识别API,提供图像标签、分类、视觉搜索和内容审核等解决方案。用户可以通过云端或本地部署的方式访问API,将其集成到应用程序或平台中,利用其强大的功能。
Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型