实现文搜图、图搜文、音频搜视频等多模态交叉检索,学习联合嵌入空间的构建与索引。
构建能根据文本描述或图像检索出相关视频片段的搜索引擎,结合视觉与文本嵌入实现跨模态检索。
学习将视频和文本映射到同一语义空间进行互检索,使用对比损失与多模态编码器实现文本搜视频、视频搜文本。