Visual-Thinker开源项目 – 让大语言模型学会看图思考

Visual-Thinker 是一种新方法，旨在让大语言模型具备理解视觉信息的能力。通过纯文本描述迷宫等复杂场景，模型能够自主规划路径，并在遇到困难时学会“重启”。该方法通过GRPO优化显著提升了模型的性能，使其在路径规划等任务中表现优异。

相关导航

Botsh 是一个基于大语言模型（LLM）的智能体，能够自动识别并安装用户所需的工具，适用于多种环境和需求，提供用户友好的操作接口，使得用户能够轻松配置和使用所需的工具。

一个用于搭建类似Perplexity的问答引擎的项目，结合了多种先进的技术和模型。

将计算机视觉模型和LLM结合起来，以实现高级图像数据集查询。使用YOLO、CLIP和DINOv2提取图像的高级特征，并将提示与提取的特征一起传递给LLM，以实现高级图像数据集查询。

Swift Security是一个统一的AI安全平台，通过公共、私有和自定义的大语言模型积极保护用户、开发者和应用程序。

GradientJ旨在使NLP应用更易获取，提供创建、微调和管理NLP应用的综合解决方案，充分利用大语言模型的能力。

该团队专注于金融领域的强化学习（RL）和大语言模型（LLM）的应用，提供数据收集和量化分析的工具和资源。

ProtoReplicant是一个在浏览器中实现的AI 3D化身语音接口，集成了语音活动检测、语音转文本、大语言模型、文本转语音和虚拟角色模型等技术，旨在提供一种互动性强的用户体验。

Differentiable Adaptive Merging (DAM) 自动化合并多个具有独特能力的大语言模型（LLM），优化模型间的平衡，以提高数据效率和降低计算成本。DAM 超越传统和进化方法，提供可扩展的解决方案，适用于多样化的 AI 系统。

这篇论文对大语言模型的微调，从技术、研究、最佳实践、应用研究挑战和机遇等方面进行了详尽的回顾。

StyleLLM文风大模型是一个文本风格迁移项目，基于大型语言模型，提供四个经过中国四大名著训练的模型，能够支持多种文本风格的转换，适用于各种语言处理场景。

一款为麦轮机器人设计的全自主导航系统，能够实现环境探索、路径规划和基础导航，支持AI模型运行和数据无线传输。

OpenDevin 是一个开源的自主 AI 软件工程师平台，旨在通过 AI 和大语言模型（LLMs）来简化软件开发过程。它支持从需求分析、代码编写、测试与调试到部署的全流程自动化开发，能够处理多种编程语言，并与人类开发人员协作完成复杂的软件工程任务。

Defined.ai是一个提供高质量、伦理收集的数据集的平台，用户可以在此购买、销售或委托数据集，以满足AI训练的需求。

这是一个精心策划的阅读列表，专注于机器心智理论的最新进展，基于EMNLP 2023年关于大语言模型中情境心智理论的论文构建。

大语言模型在图上的应用是一项新兴领域。本文系统地回顾了大语言模型在图上的应用场景和技术方法。将应用场景分为纯图、文本丰富的图和文本配对的图三类，讨论了LLM作为预测器、编码器和对齐器的具体技术。此外，还提到了这些方法的实际应用和开源代码和基准数据集，总结了该领域未来的研究方向。

暂无评论...