昆仑万维「Skywork UniPic 2.0」开源,统一多模态模型再迎新突破-ITBeer科技资讯

昆仑万维「Skywork UniPic 2.0」开源,统一多模态模型再迎新突破

AI

ITBeer科技资讯 2025-08-13 14:48:12

摘要 8月11日,昆仑万维SkyWorkAI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态...

来源: ITBeer科技资讯

昆仑万维「Skywork UniPic 2.0」开源,统一多模态模型再迎新突破

  8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。截至目前,我们已经发布SkyReels-A3、Matrix-Game 2.0、Matrix-3D模型。

  8月13日,昆仑万维正式开源「Skywork UniPic 2.0」模型——面向统一多模态建模的高效训练和推理框架,围绕生成和编辑模块轻量化、连接多模态理解模型进行联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效、高质、统一”的多模态生成模型。

  当前,「Skywork UniPic 2.0」及其系列模型已全面开源,涵盖模型权重、推理代码、强化策略等,助力开发者与研究者快速上手并构建多模态应用。

  「Skywork UniPic 2.0」由三个核心模块组成:

  生图编辑(下图中):基于 SD3.5-Medium 架构将原本只支持文本输入的模型改进成也接受文本图像同时输入,然后通过高质量图像生成和编辑数据的训练将原本生图能力扩展成生图、编辑双能力。

  统一模型能力(下图左侧与中间):通过冻结生图编辑模块,多模态模型(Qwen2.5-VL-7B),Pre-Train连接器来构建出理解生成编辑一体化能力,再通过连接器和生图编辑模块一起联合微调,实现最终的一体化理解、生图、编辑模型。

  生图编辑后训练(下图右):为提升生图编辑整体性能,设计了基于Flow-GRPO的渐进式双任务强化策略,实现了生成与编辑任务在不互相干扰下的协同优化,在预训练的基础上进一步提升了模型性能。

  图丨昆仑万维Skywork UniPic 2.0核心组成模块

  升级后的「Skywork UniPic 2.0」具备以下核心优势:

生成模块轻量高效,性能拉满

  生成模块基于2B参数的SD3.5-Medium 架构训练,生图和编辑指标超越生成模块具有7B参数的bagel,4B参数的OmniGen2,12B参数的UniWorld-V1和Flux-kontext模型。

引入强化学习,效果显著

  基于Flow-GRPO首创渐进式双任务强化策略,有效提升模型对复杂指令的理解能力与图像生成和编辑的一致性,两大任务协同优化、互不干扰。

一体化灵活切换,拓展能力强

  将生图编辑的Kontext模型与多模态模型端到端整合,微调轻量连接器,即可快速构建统一理解-生成-编辑模型,并且生图和编辑的性能进一步提升。

  UniPic2-SD3.5M-Kontext作为单一模型,虽然只有2B的参数量,但生图指标超越了具有12B参数量的Flux.dev、编辑效果超越了同样具有12B参数量的Flux-Kontext。同样超越了几乎所有统一模型的生图和编辑效果,包括19B的UniWorld-V1和14B的Bagel。

  此外,将UniPic2-SD3.5M-Kontext拓展成统一模型UniPic2-Metaquery后,效果得到了进一步的提升。

  图丨昆仑万维Skywork UniPic 2.0系列模型评测结果

  在优秀的理解、生成和编辑能力背后,昆仑万维Skywork团队在预训练、联合训练和后训练阶段均作出创新性优化。

Pre-Training(预训练生图编辑模型)

  首先赋予SD3.5-Medium基于文本指令和参考图片合成新图像的能力。在不改变模型结构的前提下,将文本指令与参考图片同时作为条件输入,文本经文本编码器得到指令表示,参考图经VAE编码为潜变量并映射为上下文 token;两者与目标图像的噪声token按段拼接为单一序列,并利用模型现有的位置编码区分参考图token与目标token。在保持原模型结构不变的同时,使SD3.5M同时具有文生图(T2I)和文本驱动的图像编辑(I2I)能力。

Joint-Training

  在预训练好的生图编辑模型的基础上,我们参考Metaquery方案,使用多模态模型Qwen2.5-VL来对齐到生图模型上,以构建统一模型的架构。具体通过两个过程来实现:

  - 连接器预训练

  使用Qwen2.5-VL和一个Connector替换掉SD3.5M的T5 Encoder,然后固定住Qwen2.5-VL和SD3.5M的DiT的权重,使用收集的亿级图像生成数据对Connector部分进行预训练,使Qwen2.5-VL通过Connector之后输出的特征能够跟SD3.5M的DiT很好的对齐。

  - SFT联合训练

  在Connector预训练之后,将SD3.5M替换成预训练好的具体生图和编辑能力的UniPic2-SD3.5M-Kontext模型,然后打开Connector的参数和UniPic2-SD3.5M-Kontext的参数,使用高质量图像生成和编辑数据对Connector和Kontext模型进行联合训练,以实现性能最优的一体化效果。联合训练之后,得到的UniPic2-Metaquery模型除了具有原始多模态模型的理解能力,在生图和编辑能力上相比单纯的Kontext模型进行了进一步的提高。

Post-Training:多任务强化学习,让生成与编辑能力“齐飞”

  传统多任务强化学习常陷入优化一个任务会损害另一个任务的困境,为了打破这一瓶颈,我们基于Flow-GRPO探索了渐进式双任务强化策略,首次实现了在同一模型中,对“文生图”和“图像编辑”两大任务的协同优化——且互不干扰,能力同步进化。

  昆仑万维作为中国领先的人工智能科技公司,过去数月,陆续开源了多个在行业内取得 SOTA(State-of-the-Art)成就的大模型:中国首个面向AI短剧创作的视频生成模型 SkyReels-V1、全球首个使用扩散强迫框架的无限时长电影生成模型 SkyReels-V2,以及音频驱动(audio-driven)人像视频生成模型SkyReels-A3,不断突破AI技术边界。

  在多模态领域,昆仑万维不仅推出了将文本推理能力迁移至视觉的多模态推理模型「Skywork-R1V」系列,以 38B 的轻量级规模性能媲美闭源的大参数模型。同时昆仑万维也前瞻性地布局了空间智能领域,推出了交互世界模型「Matrix-Game 2.0」与3D世界生成模型「Matrix-3D」。

  文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

海报生成中...


最新新闻

热门新闻

要闻阅读

热门标签