Meta 开发出文本生成图像模型 CM3Leon，号称业界最佳

发布者：shen63

2023-07-18

近来，Meta开发出一款名为 CM3Leon 的一个多模态基础模型，可用于文本到图像和图像到文本的创作，特别擅长自动生成图像标题。

近来，Meta开发出一款名为 CM3Leon 的一个多模态基础模型，可用于文本到图像和图像到文本的创作，特别擅长自动生成图像标题。

人工智能生成图像的技术已经不再新鲜，许多广泛使用的工具如Stable Diffusion、DALL-E和Midjourney取得了很大的成功。

然而，Meta正在利用构建CM3leon的技术，以及该基础模型能够实现的性能，为这一领域带来新的突破。

Meta 开发出文本生成图像模型 CM3Leon，号称业界最佳

目前，文本到图像生成技术主要依赖于扩散模型（Stable Diffusion得名于此）来创作图像，而CM3leon采用了一种不同的方法，基于token的自回归模型。

在Meta的研究论文《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》中，研究人员写道：

“近年来，由于计算成本相对较低，扩散模型在图像生成领域占据主导地位。然而，基于token的自回归模型以其出色的全局图像连贯性而闻名，尽管训练和推理的成本更高。”

但现在，Meta的研究人员已经证明了CM3leon这种基于token的自回归模型实际上比扩散模型更高效。Meta的研究人员在一篇博客文章中表示：“尽管使用的计算资源减少了五倍，CM3leon在文本到图像生成方面实现了最先进的性能。”

CM3leon的基本工作原理在某种程度上类似于现有的文本生成模型。Meta的研究人员首先进行了一个强化的预训练阶段。与仅依赖公开可用的互联网图像的扩散模型不同，Meta选择了一条不同的道路。

Meta 开发出文本生成图像模型 CM3Leon，号称业界最佳

Meta的研究论文指出：“在文本到图像生成领域，以图像数据源为基础的道德影响引发了广泛的讨论。在我们的研究中，我们仅使用经过授权的Shutterstock图像，从而避免了与图像所有权和归属有关的担忧，同时并不牺牲性能。”

在预训练之后，CM3leon模型经历了一个有监督微调阶段（SFT）。Meta的研究人员声称这种方法产生了高度优化的结果，无论是资源利用还是图像质量。该方法是OpenAI用于培训ChatGPT的一种方法。Meta在研究论文中指出，SFT对于训练模型理解复杂提示在生成任务中非常有用。

论文中指出：

“我们发现，指导调整显著提高了多模态模型在图像标题生成、视觉问答、基于文本的编辑和条件图像生成等各种任务中的性能。”

通过查看Meta在关于CM3leon的博客文章中分享的生成图像样本集，可以清楚地看到模型对复杂多阶段提示的理解，并生成具有极高分辨率的图像，给人留下深刻的印象。

目前，CM3leon仍然是一个研究项目，尚不清楚Meta是否会在其平台的某个服务中公开提供这项技术。鉴于其强大的性能和更高的生成效率，CM3leon及其生成式人工智能方法有望超越研究阶段并得到实际应用。

本站文章均为原创，版权归本站所有，如需转载或引用请注明出处如：“本文章转载自：

Meta 开发出文本生成图像模型 CM3Leon，号称业界最佳 - Extfans”

相关标签

ChatGPT

Superpower AIChat插件，Chrome网页ChatGPT强化工具

Chrome 浏览器 ChatGPT

2024-04-0833

Superpower AIChat 插件是一款专为 Chrome 浏览器设计的扩展程序，旨在向 ChatGPT 添加文件夹管理、本地同步、快速搜索聊天内容、导出聊天记录、固定消息以及自定义管理 Prompts 等一系列实用的辅助功能，让用户能够更加高效地进行对话管理，同时也能更好地利用 ChatGPT 的能力。