RL-VLM-F是一个结合视觉和语言的强化学习项目,通过利用基础模型的反馈进行学习,旨在优化多模态任务中的决策过程。
一种用于视觉-语言预训练的多模态数据集,通过将图像和文本交错排列,提供丰富的基础知识,帮助模型更好地理解和生成多模态内容
PaLI-3是一个相对更小、更快且更强大的视觉语言模型,其性能表现优于大小为其10倍的类似模型,专注于多模态任务的高效处理。
EdgeVLA是一个开源的边缘视觉-语言-行动模型,旨在增强机器人对视觉信息的理解和执行指令的能力。该项目专为边缘计算环境设计,支持社区贡献和改进。
达摩院开源的视觉-语言预训练的语料库,包含从在线教学视频中提取的多模态数据,支持多种学科的学习和研究。
研究探讨痛苦的源头,认为痛苦是一种错误信号,帮助智能系统(包括人类)从失败中学习并调整行为。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型