Pyramid Flow: Racer에서 출시한 오픈 소스 버전의 "Kringle", SD3 기반이며 8GB 미만의 GPU에서 실행되는 버전(원클릭 배포 버전).

50.2K 00

일반 소개

피라미드 플로우는 플로우 매칭 기법에 기반한 효율적인 자동 회귀 동영상 생성 방법입니다. 이 방법을 사용하면 다양한 해상도와 노이즈 레벨 사이에서 보간하여 더 높은 계산 효율로 비디오 콘텐츠를 생성하고 압축을 해제할 수 있으며, Pyramid Flow는 768p 해상도에서 24 FPS로 고품질 10초 동영상을 생성할 수 있고 이미지 대 비디오 생성을 지원합니다. 전체 프레임워크는 20.7k A100 GPU 트레이닝 시간으로 훈련된 단일 DiT 모델을 사용하여 엔드투엔드로 최적화되어 있습니다.

$Pyramid Flow：快手推出的开源版\$

온라인 체험: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

기능 목록

효율적인 비디오 생성768p 해상도의 10초짜리 고화질 동영상을 24프레임으로 생성합니다.
이미지에서 동영상으로 생성이미지에서 동영상 생성 지원.
다중 해상도 지원모델 체크포인트는 768p 및 384p 해상도에서 사용할 수 있습니다.
CPU 오프로드GPU 메모리 요구 사항을 줄이기 위해 두 가지 유형의 CPU 오프로딩이 지원됩니다.
멀티 GPU 지원시퀀스 병렬 처리를 지원하는 멀티 GPU 추론 스크립트를 제공하여 GPU당 메모리를 절약할 수 있습니다.

도움말 사용

환경 설정

콘다를 사용하여 환경을 조성하세요:

cd Pyramid-Flow
conda create --name pyramid-flow python=3.8.10
conda activate pyramid-flow

종속성을 설치합니다:
```
pip install -r requirements.txt
```

모델 다운로드 및 로드

허깅페이스에서 모델 체크포인트를 다운로드하세요:
```
# 下载 768p 和 384p 模型检查点
```

모델 로드:

model_dtype, torch_dtype = 'bf16', torch.bfloat16
model = PyramidDiTForVideoGeneration(
    'PATH',  # 下载的检查点目录
    model_dtype,
    model_variant='diffusion_transformer_768p',  # 或 'diffusion_transformer_384p'
)
model.vae.enable_tiling()
model.enable_sequential_cpu_offload()

텍스트에서 동영상으로 생성

생성 매개변수를 설정하고 동영상을 생성합니다:

frames = model.generate(
    prompt="你的文本提示",
    num_inference_steps=[20, 20, 20],
    video_num_inference_steps=[10, 10, 10],
    height=768,
    width=1280,
    temp=16,  # temp=16: 5s, temp=31: 10s
    guidance_scale=9.0,  # 384p 设为 7
    video_guidance_scale=5.0,
    output_type="pil",
    save_memory=True,
)
export_to_video(frames, "./text_to_video_sample.mp4", fps=24)

이미지에서 동영상으로 생성

생성 매개변수를 설정하고 동영상을 생성합니다:

prompt = "FPV flying over the Great Wall"
with torch.no_grad(), torch.cuda.amp.autocast(enabled=True, dtype=torch_dtype):
    frames = model.generate_i2v(
        prompt=prompt,
        input_image=image,
        num_inference_steps=[10, 10, 10],
        temp=16,
        video_guidance_scale=4.0,
        output_type="pil",
        save_memory=True,
    )
export_to_video(frames, "./image_to_video_sample.mp4", fps=24)

멀티 GPU 추론

여러 GPU를 사용한 추론:

# 在 2 个或 4 个 GPU 上运行推理脚本

Niu 원클릭 배포 에디션

시작 파일의 암호 해독 코드는 다운로드 주소에 있습니다. 시작 후 모델 다운로드가 자주 중단되는 경우 공식 문서를 확인하여 약 30G의 모델 파일을 별도로 다운로드하세요.

파일 압축 해제 비밀번호: niugee.com
넷플릭스를 통해 공유되는 파일: PyramidFlow-Niu 배포가 필요 없는 로컬 원클릭 패키지
링크: https://pan.baidu.com/s/1yV4wafDkquBNwG8bS0zjDg?pwd=p5fw 추출 코드: p5fw (새 버전 1.1)

Google 드라이브:
https://drive.google.com/drive/u/1/folders/1SIvP6qP2Z4CRHpbsfXawl3tksv5ZBRGo (새 버전 1.1)