Pyramid Flow: Racer에서 출시한 오픈 소스 버전의 "Kringle", SD3 기반이며 8GB 미만의 GPU에서 실행되는 버전(원클릭 배포 버전).

최신 AI 리소스9개월 전 업데이트 AI 공유 서클
2.2K 00

일반 소개

피라미드 플로우는 플로우 매칭 기법에 기반한 효율적인 자동 회귀 동영상 생성 방법입니다. 이 방법을 사용하면 다양한 해상도와 노이즈 레벨 사이에서 보간하여 더 높은 계산 효율로 비디오 콘텐츠를 생성하고 압축을 해제할 수 있으며, Pyramid Flow는 768p 해상도에서 24 FPS로 고품질 10초 동영상을 생성할 수 있고 이미지 대 비디오 생성을 지원합니다. 전체 프레임워크는 20.7k A100 GPU 트레이닝 시간으로 훈련된 단일 DiT 모델을 사용하여 엔드투엔드로 최적화되어 있습니다.

Pyramid Flow:快手推出的开源版

온라인 체험: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

 

기능 목록

  • 효율적인 비디오 생성768p 해상도의 10초짜리 고화질 동영상을 24프레임으로 생성합니다.
  • 이미지에서 동영상으로 생성이미지에서 동영상 생성 지원.
  • 다중 해상도 지원모델 체크포인트는 768p 및 384p 해상도에서 사용할 수 있습니다.
  • CPU 오프로드GPU 메모리 요구 사항을 줄이기 위해 두 가지 유형의 CPU 오프로딩이 지원됩니다.
  • 멀티 GPU 지원시퀀스 병렬 처리를 지원하는 멀티 GPU 추론 스크립트를 제공하여 GPU당 메모리를 절약할 수 있습니다.

 

도움말 사용

환경 설정

  1. 콘다를 사용하여 환경을 조성하세요:
    cd Pyramid-Flow
    conda create --name pyramid-flow python=3.8.10
    conda activate pyramid-flow
    
  2. 종속성을 설치합니다:
    pip install -r requirements.txt
    

모델 다운로드 및 로드

  1. 허깅페이스에서 모델 체크포인트를 다운로드하세요:
    # 下载 768p 和 384p 模型检查点
    
  2. 모델 로드:
    model_dtype, torch_dtype = 'bf16', torch.bfloat16
    model = PyramidDiTForVideoGeneration(
        'PATH',  # 下载的检查点目录
        model_dtype,
        model_variant='diffusion_transformer_768p',  # 或 'diffusion_transformer_384p'
    )
    model.vae.enable_tiling()
    model.enable_sequential_cpu_offload()
    

텍스트에서 동영상으로 생성

  1. 생성 매개변수를 설정하고 동영상을 생성합니다:
    frames = model.generate(
        prompt="你的文本提示",
        num_inference_steps=[20, 20, 20],
        video_num_inference_steps=[10, 10, 10],
        height=768,
        width=1280,
        temp=16,  # temp=16: 5s, temp=31: 10s
        guidance_scale=9.0,  # 384p 设为 7
        video_guidance_scale=5.0,
        output_type="pil",
        save_memory=True,
    )
    export_to_video(frames, "./text_to_video_sample.mp4", fps=24)
    

이미지에서 동영상으로 생성

  1. 생성 매개변수를 설정하고 동영상을 생성합니다:
    prompt = "FPV flying over the Great Wall"
    with torch.no_grad(), torch.cuda.amp.autocast(enabled=True, dtype=torch_dtype):
        frames = model.generate_i2v(
            prompt=prompt,
            input_image=image,
            num_inference_steps=[10, 10, 10],
            temp=16,
            video_guidance_scale=4.0,
            output_type="pil",
            save_memory=True,
        )
    export_to_video(frames, "./image_to_video_sample.mp4", fps=24)
    

멀티 GPU 추론

  1. 여러 GPU를 사용한 추론:
    # 在 2 个或 4 个 GPU 上运行推理脚本
    

 

 

Niu 원클릭 배포 에디션

시작 파일의 암호 해독 코드는 다운로드 주소에 있습니다. 시작 후 모델 다운로드가 자주 중단되는 경우 공식 문서를 확인하여 약 30G의 모델 파일을 별도로 다운로드하세요.

파일 압축 해제 비밀번호: niugee.com
넷플릭스를 통해 공유되는 파일: PyramidFlow-Niu 배포가 필요 없는 로컬 원클릭 패키지
링크: https://pan.baidu.com/s/1yV4wafDkquBNwG8bS0zjDg?pwd=p5fw 추출 코드: p5fw (새 버전 1.1)

Google 드라이브:
https://drive.google.com/drive/u/1/folders/1SIvP6qP2Z4CRHpbsfXawl3tksv5ZBRGo (새 버전 1.1)

 

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...