搜索

  • 多模态大模型类型二:Flamingo

    多模态大模型类型二:Flamingo

    发布时间:2025-05-22

    Flamingo是一门多模态大型语言模型 (LLM)于 2022年推出。视觉和语言组件的工作原理如下:视觉编码器将图像或视频转换为嵌入(数字列表)。与CLIP不同,Flamingo可以生成文本响应。从简化的角度来看,Flamingo是 CLIP +语言模型,并添加了技术,使语言模型能够根据视觉和文本输入生成文本标记。Flamingo的4个数据集:2个(图像、文本)对数据集、1个(视频、文本)对数据集和1个交错的图像和文本数据集。