这个开源项目是一个多模态项目,它的功能包括使用CLIP、Whisper和LLaMA进行编码。CLIP用于编码图像和视频帧,Whisper用于编码音频数据,LLM用于编码指令和生成响应的语言模型。虽然没有提供线上演示地址,但该项目的数据集看起来很不错。