该模型最大的创新在于“双修”:它不仅能像人类一样精准理解图像内容(视觉理解),还能根据文本描述生成高质量图片(图像生成)。行业内此前仅有少数模型能同时兼顾这两项任务,且往往需要在画质与理解力之间做出妥协,研究人员指出,核心矛盾在于“视觉分词”的方式不同。简单来说,AI进行“图像理解”时喜欢连续的数据流(类似看视频),而进行“图像生成”时则更依赖离散的数据块(类似拼图)。传统模型强行让同一个大脑处理这两种截然不同的信号,往往会导致严重的任务冲突,要么“看得懂但画不出”,要么“画得好但理解偏”。Manzano为了解决这一难题,引入了一种创新的三段式架构:首先,它使用“混合视觉分词器”同时生成连续和离散的视觉表示;接着,利用大语言模型(LLM)预测图像的语义内容;最后,将这些预测结果交给“扩散解码器”进行像素级渲染。这种设计让Manzano既保留了强大的理解能力,又具备了精细的绘图能力,甚至能处理深度估计、风格迁移和图像修复等复杂任务。测试数据显示,Manzano在处理反直觉、违背物理常识的复杂指令时表现惊人。例如,当要求生成“一只鸟在大象下方飞翔”的画面时,Manzano的逻辑准确性与OpenAI的GPT-4o以及谷歌的NanoBanana模型旗鼓相当。研究团队测试了从3亿到300亿(30B)参数的不同版本,证实了该架构在模型规模扩大时依然能保持高效的性能提升。虽然Manzano目前仍处于研究阶段,尚未直接应用于该媒体认为这项技术极有可能会被整合进未来的“图乐园ImagePlayground”功能中,为用户带来更智能的修图体验和更具想象力的画面生成能力,进一步巩固苹果在端侧AI领域的竞争力。亚汇网附上参考地址广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,亚汇网所有文章均包含本声明。