通义万相

通义万相

通义万相是阿里巴巴通义旗下的 AI 创意创作平台，也是阿里云通义系列的 AI 绘画创作大模型，可辅助人类进行图片、视频创作。以下是具体介绍：

发展历程：

2023 年 7 月 7 日，基于组合式生成模型 Composer 研发的通义万相正式上线，并接入钉钉斜杠 “/”，用户可在钉钉文档、群聊等场景中唤起图片生成服务。
2024 年 9 月 19 日，在云栖大会上发布全新视频生成模型，具备插画设计、涂鸦作画等场景化能力。
2025 年 1 月 9 日，升级推出万相 2.1 视频生成模型，在大幅度复杂运动、物理规律遵循等方面全面提升，登上 VBench 榜单榜首。
2025 年 2 月 25 日，阿里巴巴宣布全面开源通义万相 2.1 模型，基于 Apache2.0 协议开放 14B 和 1.3B 参数版本的推理代码及权重。
2025 年 2 月 28 日，浙文互联宣布通义万相接入其 AIGC 超级内容工厂 “好奇飞梭”，同日，通义万相接入荣耀智能体。

核心功能：

AI 图像生成：支持智能文生图，输入文字描述即可生成高质量艺术作品；还能进行图生图优化，基于现有图像进行风格转换和创意延展。提供写实、动漫、国风等数十种艺术风格，并且有专业级的后期调整工具用于高清图像编辑。
AI 视频生成：可通过文字描述生成具有电影质感的动态内容，也能将静态图像转化为生动的视频场景。支持从 480p 到 4K 多种分辨率选择，能精准还原真实世界的物理规律，还特别强化了中国传统文化元素的 AI 表现力。

技术特点：

运动控制与物理仿真系统：通过时空联合建模算法与物理引擎融合架构，可精确控制人物、物体运动轨迹，支持专业级镜头语言生成，在布料飘动等物理仿真任务中，对现实世界动力学特性还原度达 92%。
高效视频编解码架构：研发高效分层式 VAE 编解码框架，将视频数据压缩率提升至传统方法的 3 倍，重构 PSNR 值较主流方案提升 4.2dB。
文化适配训练体系：采用渐进式微调策略与多粒度数据筛选机制，在国风水墨等生成任务中，风格还原准确率较前代模型提升 58%，对复杂文化元素的生成误差控制在 3px 以内。

应用场景：覆盖文本生成、图像理解、视频理解等全模态场景，可应用于影视创作、动画设计、广告设计、艺术设计、电商、游戏和文创等领域，能高效生成符合商业需求的视觉素材，实现从创意到成品的全流程智能化支持。