UI-Act 是一个基于 Transformer 模型的系统,旨在通过图形用户界面与计算机进行自然交互。其设计目的是为了无缝集成到人机工作流中,模型能够利用专家的人工演示进行训练,从而提升操作的自动化与智能化水平。
这个开源项目是DragGAN的Windows封装版本,提供了一个Windows GUI界面。用户可以直接解压并使用DragGAN工具,无需配置环境。工具内置了17个模型,可以通过拖动等方式对图像中的对象进行姿势、形状、表情和布局调整。
Ichigo Llama 3.1是一个开源的Llama语音项目,类似于OpenAI的语音模式,经过50K小时的语音训练,支持7种语言,能够进行实时语音AI处理,并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练,旨在提供高效、准确的语音识别与生成能力。
clickclickclick是一个强大的框架,能够让手机和电脑自动执行各种任务,使用本地或远程的大型语言模型,旨在提升工作效率和用户体验。
一个简单的ReAct Agent模板,用于构建基于LangGraph的agent,通过迭代推理和执行动作来解决复杂问题。该项目旨在提供一个易于使用和扩展的框架,帮助开发者快速实现复杂任务的解决方案。
VIMA是一款连接了机械臂的语言模型(LLM),能够接收多模态的指令,支持文字、图片、视频等输入形式。该系统能够逐步感知环境并采取实际动作,支持多模式提示,使任务描述简单灵活,统一多种任务,如视觉目标达到、视频演示模仿、学习新概念和满足安全限制。作为一个开源项目,VIMA提供了代码、预训练模型、数据集和物理模拟基准,无需付费或填写表格,便于用户使用和开发。
AI Hubs提供了一个全面的AI工具和支持资源列表,旨在加速AI技术的采用,帮助个人和组织充分发挥人工智能的潜力。
Fusion AI是一个统一的平台,整合了领先的AI模型,使用户能够轻松实现强大的结果。它通过使顶级模型协同工作,简化了AI的复杂性。只需告诉Fusion AI您的需求,它将组建最佳的AI模型团队来协助您。
TextToVideo.Bot 是一款AI工具,可以通过输入提示或脚本,生成有趣的TikTok(短视频)视频,配有AI图像和AI配音,整个过程在1分钟内完成,生成的视频可直接上传。
Rabbit是一家AI初创公司,致力于通过自然语言接口和专用、经济实惠的硬件开发个性化操作系统(OS)。Rabbit OS能够理解复杂的用户意图,操作用户界面,并代表用户执行动作。其核心技术是大动作模型(LAM),一种新型基础模型,能够理解计算机上的人类意图。