AI个人学习
和实操指南
豆包Marscode1

Magic 1-For-1: 高效生成视频的开源项目,号称在一分钟内生成一分钟的视频

综合介绍

Magic 1-For-1 是一个高效的视频生成模型,旨在优化内存使用并减少推理延迟。该模型将文本到视频生成任务分解为两个子任务:文本到图像生成和图像到视频生成,从而实现更高效的训练和蒸馏。Magic 1-For-1 可以在一分钟内生成高质量的一分钟视频片段,适用于需要快速生成短视频的场景。该项目由北京大学、Hedra Inc. 和 Nvidia 的研究人员共同开发,代码和模型权重已在 GitHub 上公开。

Magic 1-For-1: 高效生成视频的开源项目,号称在一分钟内生成一分钟的视频-1


 

功能列表

  • 文本到图像生成:将输入的文本描述转换为图像。
  • 图像到视频生成:将生成的图像转换为视频片段。
  • 高效内存使用:优化内存使用,适用于单 GPU 环境。
  • 快速推理:减少推理延迟,实现快速视频生成。
  • 模型权重下载:提供预训练模型权重下载链接。
  • 环境设置:提供详细的环境设置和依赖安装指南。

 

使用帮助

环境设置

  1. 安装 git-lfs:
   sudo apt-get install git-lfs
  1. 创建 Conda 环境并激活:
   conda create -n video_infer python=3.9
conda activate video_infer
  1. 安装项目依赖:
   pip install -r requirements.txt

下载模型权重

  1. 创建存储预训练权重的目录:
   mkdir pretrained_weights
  1. 下载 Magic 1-For-1 权重:
   wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
  1. 下载 Hugging Face 组件:
   huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
huggingface-cli download openai/clip-vit-large-patch14 --local_dir pretrained_weights/text_encoder_2 --local_dir_use_symlinks False

生成视频

  1. 运行以下命令进行文本和图像到视频的生成:
   python test_ti2v.py --config configs/test/text_to_video/4_step_ti2v.yaml --quantization False
  1. 或者使用提供的脚本:
   bash scripts/generate_video.sh

详细功能操作流程

  1. 文本到图像生成:输入文本描述,模型将生成对应的图像。
  2. 图像到视频生成:将生成的图像输入到视频生成模块,生成短视频片段。
  3. 高效内存使用:通过优化内存使用,确保在单 GPU 环境下也能高效运行。
  4. 快速推理:减少推理延迟,实现快速视频生成,适用于需要快速生成短视频的场景。
未经允许不得转载:首席AI分享圈 » Magic 1-For-1: 高效生成视频的开源项目,号称在一分钟内生成一分钟的视频
zh_CN简体中文