-
多模态大模型的图像模型
发布时间:2025-06-01
早在2023年LLM的流行之前,过去产业界在对于图像的理解和生成模型领域已经打下了坚实的基础,其中也产生了CLIP、Stable Diffusion、GAN等典型的模型成果,孕育出了Midjourney、DALL·E等成熟的文生图应用。而更进一步,产业界也在积极探索将Transformer大模型引入图像相关任务领域(ViT,Vision Transformer;DiT,Diffusion Transformer),探索统一视觉大模型的建立,以及将LLM大语言模型与视觉模型进行更加密切的融合,包括近年来的GLIP、SAM、GPT-V都是其中的重点成果。







