![](https://cdn.msbd123.com/ad/ad.png)
CoDi-2是一种多功能、交互式的多模态大语言模型 (MLLM),它可以以任意对任意的方式遵循复杂的多模态交错指令、进行上下文学习 (ICL)、推理、聊天、编辑等。
CoDi-2的特点:
1. 支持零/少样本的多模态生成
2. 理解复杂的模态交错指令
3. 在连续特征空间中自回归生成接地且连贯的多模态输出
4. 跨文本、视觉和音频的上下文多模式指令
5. 超越特定领域模型的多模态生成能力
CoDi-2的功能:
1. 根据视频帧生成声音
2. 生成合成图像
3. 为给定图像推荐合适的音乐
4. 创建定制的视频
5. 通过多轮交互式对话生成任意模态的组合性
相关导航
暂无评论...