

通义万相是阿里巴巴通义旗下的 AI 创意创作平台,也是阿里云通义系列的 AI 绘画创作大模型,可辅助人类进行图片、视频创作。以下是具体介绍:
发展历程:
2023 年 7 月 7 日,基于组合式生成模型 Composer 研发的通义万相正式上线,并接入钉钉斜杠 “/”,用户可在钉钉文档、群聊等场景中唤起图片生成服务。
2024 年 9 月 19 日,在云栖大会上发布全新视频生成模型,具备插画设计、涂鸦作画等场景化能力。
2025 年 1 月 9 日,升级推出万相 2.1 视频生成模型,在大幅度复杂运动、物理规律遵循等方面全面提升,登上 VBench 榜单榜首。
2025 年 2 月 25 日,阿里巴巴宣布全面开源通义万相 2.1 模型,基于 Apache2.0 协议开放 14B 和 1.3B 参数版本的推理代码及权重。
2025 年 2 月 28 日,浙文互联宣布通义万相接入其 AIGC 超级内容工厂 “好奇飞梭”,同日,通义万相接入荣耀智能体。
核心功能:
AI 图像生成:支持智能文生图,输入文字描述即可生成高质量艺术作品;还能进行图生图优化,基于现有图像进行风格转换和创意延展。提供写实、动漫、国风等数十种艺术风格,并且有专业级的后期调整工具用于高清图像编辑。
AI 视频生成:可通过文字描述生成具有电影质感的动态内容,也能将静态图像转化为生动的视频场景。支持从 480p 到 4K 多种分辨率选择,能精准还原真实世界的物理规律,还特别强化了中国传统文化元素的 AI 表现力。
技术特点:
运动控制与物理仿真系统:通过时空联合建模算法与物理引擎融合架构,可精确控制人物、物体运动轨迹,支持专业级镜头语言生成,在布料飘动等物理仿真任务中,对现实世界动力学特性还原度达 92%。
高效视频编解码架构:研发高效分层式 VAE 编解码框架,将视频数据压缩率提升至传统方法的 3 倍,重构 PSNR 值较主流方案提升 4.2dB。
文化适配训练体系:采用渐进式微调策略与多粒度数据筛选机制,在国风水墨等生成任务中,风格还原准确率较前代模型提升 58%,对复杂文化元素的生成误差控制在 3px 以内。
应用场景:覆盖文本生成、图像理解、视频理解等全模态场景,可应用于影视创作、动画设计、广告设计、艺术设计、电商、游戏和文创等领域,能高效生成符合商业需求的视觉素材,实现从创意到成品的全流程智能化支持。