新浪财经 产经

DeepSeek 发布Janus-Pro & JanusFlow :多模态理解与生成新突破!

市场资讯 2025.01.28 00:45

来源:Safphere

🔥DeepSeek 发布Janus-Pro & JanusFlow :多模态理解与生成新突破

DeepSeek 团队正式发布两款多模态框架——Janus-Pro 和 JanusFlow!。以下为两款模型的详细介绍:

🌟 Janus-Pro:解耦视觉编码,实现多模态高效统一

Janus-Pro Teaser 1

Janus-Pro 是一款统一多模态理解与生成的创新框架,通过解耦视觉编码的方式,极大提升了模型在不同任务中的适配性与性能。

✨ 技术亮点

    • 视觉编码解耦

      • 采用独立的路径分别处理多模态理解与生成任务,有效解决视觉编码器在两种任务中的功能冲突。

统一 Transformer 架构

      • 使用单一的 Transformer 架构处理多模态任务,既简化了模型设计,又提升了扩展能力。

高性能表现

      • 多模态理解:模型性能匹配甚至超越任务专用模型。

      • 图像生成:高质量图像生成能力,适配 384x384 分辨率,满足多场景需求。

🛠 模型细节

      • 视觉编码器:采用 SigLIP-L[1],支持 384x384 分辨率输入,捕捉图像细节。

      • 生成模块:使用 LlamaGen Tokenizer[2],下采样率为 16,生成更精细的图像。

      • 基础架构:基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造。

Janus-Pro Teaser 2

Janus-Pro 的架构设计结合了灵活性与高效性,可适配视觉问答、图像标注等多模态场景,展现了未来多模态技术的强大潜力!

**🌟 JanusFlow:融合生成流与语言模型,重新定义多模态 **

JanusFlow Teaser

JanusFlow 是一款通过生成流(Rectified Flow)自回归语言模型融合实现统一的框架。它不仅在理解任务中表现优异,还能生成高质量图像,展现了框架设计的极简与强大。

✨ 技术亮点

      • 架构简约且创新

      • 无需复杂改造,直接将生成流融入大语言模型框架,简化了多模态建模流程。

      • 图像生成能力优越

      • 结合 Rectified Flow 与 SDXL-VAE[3],实现高质量 384x384 图像生成,广泛适配不同应用场景。

      • 高灵活性与可扩展性

      • 支持多任务扩展,成为统一多模态框架的优秀选择。

🛠 模型细节

      • 视觉编码器:同样采用 SigLIP-L[4],确保图像细节捕捉能力。

      • 生成模块:基于 Rectified Flow 与 SDXL-VAE,生成精细度更高的图像。

      • 基础架构:构建于 DeepSeek-LLM-1.3b-base,结合预训练与监督微调后的 EMA 检查点,性能表现卓越。

JanusFlow 架构

JanusFlow 的设计旨在为研究人员与开发者提供一种极简但强大的多模态解决方案,助力生成与理解任务的技术进步!

📊 模型性能总结

模型名称

多模态理解性能

图像生成能力

灵活性与扩展性

Janus-Pro

超越专用模型,解耦更高效

优异生成能力,支持多场景应用

高度灵活,架构统一设计

JanusFlow

大语言模型与生成流高效融合

高质量生成,适配 384x384 分辨率

极简架构,灵活性更强

两款模型均展现了前沿性能与设计创新,为多模态领域带来突破性进展!

🚀 快速上手

两款模型已开源,开发者可通过以下链接获取更多信息并快速部署:

      • Janus-Pro Github 仓库[5]

      • JanusFlow Github 仓库[6]

此外,详细的使用教程与示例也已在仓库中提供,帮助用户更快上手!

🔗 开源协议

      • 代码:遵循 MIT License[7]

      • 模型:需遵守 DeepSeek 模型协议[8]

🎉 Janus 系列模型为多模态领域带来全新启发,期待它在更多场景中创造价值! 🌍

相关链接

[1] 

SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384

[2] 

LlamaGen Tokenizer: https://github.com/FoundationVision/LlamaGen

[3] 

SDXL-VAE: https://huggingface.co/stabilityai/sdxl-vae

[4] 

SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384

[5] 

Janus-Pro Github 仓库: https://github.com/deepseek-ai/Janus

[6] 

JanusFlow Github 仓库: https://github.com/deepseek-ai/Janus

[7] 

MIT License: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE

[8] 

DeepSeek 模型协议: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL

加载中...