Labubu换装记!基于扩散Transformer的视频虚拟试衣新突破
发布日期:2025/6/21 7:15:43 浏览量:
Labubu换装记!基于扩散Transformer的视频虚拟试衣新突破
只需要一张衣服的照片和一段视频,就能看到自己穿上这件衣服的效果,而且是动态的视频效果!这不是科幻电影,而是刚刚开源的MagicTryOn项目实现的真实功能。
MagicTryOn是一个基于大规模视频扩散Transformer的视频虚拟试衣框架,它能够实现高质量的视频换装效果。这个项目最大的亮点在于能够在保持服装细节的同时,生成自然流畅的视频试衣效果。


🔧 核心技术特点
该项目采用了三个关键技术创新:
1. 强大的技术基础采用Wan2.1扩散Transformer作为骨干网络使用完整的自注意力机制来建模时空一致性
2. 精细的服装保真策略引入从粗到细的服装保真策略采用掩码感知损失来增强服装区域的保真度
3. 全面的功能支持支持图像试衣支持视频试衣提供定制化试衣解决方案


从项目的更新时间线可以看出开发团队的高效执行力:
2025年5月27日:论文在ArXiv上发布
2025年6月9日:源代码和预训练权重正式开源目前项目仍在积极开发中,团队计划陆续发布测试脚本、训练脚本以及第二版预训练模型权重。
环境配置
项目支持Python 3.12.9,CUDA 12.3,PyTorch 2.2的环境配置:
# 创建conda环境
conda create -n magictryon python==3.12.9
conda activate magictryon
pip install -r requirements.txt
# 或者使用
conda env create -f environment.yaml
注意:如果在安装Flash Attention时遇到错误,需要根据你的Python版本、CUDA版本和Torch版本手动下载安装包。
模型权重下载
cd Magic-TryOn
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download LuckyLiGY/MagicTryOn --local-dir ./weights/MagicTryOn_14B_V1
1. 图像试衣
对于简单的图像试衣需求,可以直接运行以下命令:
# 上身试衣CUDA_VISIBLE_DEVICES=0 python inference/image_tryon/predict_image_tryon_up.py
# 下身试衣CUDA_VISIBLE_DEVICES=1 python inference/image_tryon/predict_image_tryon_low.py
2. 视频试衣视频试衣是该项目的核心功能:
# 上身视频试衣CUDA_VISIBLE_DEVICES=0 python inference/video_tryon/predict_video_tryon_up.py
# 下身视频试衣CUDA_VISIBLE_DEVICES=1 python inference/video_tryon/predict_video_tryon_low.py
3. 定制化试衣对于有特殊需求的用户,项目提供了完整的定制化流程,需要完成以下五个步骤:
步骤1:服装描述生成使用Qwen2.5-VL-7B-Instruct模型生成服装的描述性标题:
python inference/customize/get_garment_caption.py
步骤2:服装线条图提取使用AniLines提取服装的结构线条:
python inference/customize/AniLines/infer.py --dir_in datasets/garment/vivo/vivo_garment --dir_out datasets/garment/vivo/vivo_garment_anilines --mode detail --binarize -1 --fp16 True --device cuda:1步骤3:掩码生成生成服装的不可知掩码,这对试衣过程中的区域控制至关重要:
首先需要按照指定的目录结构组织文件:
├── datasets
│ ├── person
| | ├── customize
│ │ │ ├── video
│ │ │ │ ├── 00001
│ │ │ │ │ ├── video.mp4
然后运行掩码生成:
ounter(line
python inference/customize/gen_mask/app_mask.py
步骤4:不可知表示构建
通过移除服装特定特征来构建人物的不可知表示:
ounter(linep
ython inference/customize/get_masked_person.py
步骤5:DensePose处理
使用DensePose获取UV映射的密集人体坐标:ounter(line
bash inference/customize/detectron2/projects/DensePose/run.sh
完成所有步骤后,运行以下命令进行定制化试衣:
ounter(line
CUDA_VISIBLE_DEVICES=0 python inference/video_tryon/predict_video_tryon_customize.py
时空一致性保证:通过完整的自注意力机制确保视频帧间的连贯性
服装细节保真:从粗到细的策略确保服装纹理和细节的准确还原
多模态支持:同时支持图像和视频的试衣需求
灵活的定制化:提供完整的定制化流程,满足不同场景需求
该项目采用Creative Commons BY-NC-SA 4.0许可证,这意味着:
✅ 可以自由复制、重新分发、混合、转换和构建
❗ 仅限非商业用途
❗ 需要给出适当的署名
❗ 衍生作品需要使用相同许可证
📄 论文地址:https://arxiv.org/abs/2505.21325v
2🤗 模型权重:https://huggingface.co/LuckyLiGY/MagicTryOn
🌐 项目主页:https://vivocameraresearch.github.io/magictryon/
💻 源代码:https://github.com/vivoCameraResearch/Magic-TryOn/
###################################################
各位大神们,你想好要做什么了吗?~~~
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生