헤이젬: 실리콘 인텔리전스의 오픈 소스 헤이젠 디지털 휴먼 핀쿠션 제품

129.3K 00

일반 소개

HeyGem은 Windows용 완전 오프라인 동영상 합성 도구로, GuijiAI 팀에서 개발하여 GitHub에서 오픈소스로 공개하고 있습니다. 고급 AI 알고리즘을 사용하여 사용자의 외모와 음성을 정확하게 복제하여 사실적인 아바타를 만들고 텍스트 또는 음성으로 개인화된 동영상을 지원합니다. 이 도구는 인터넷에 연결할 필요가 없으며 모든 작업이 로컬에서 수행되어 사용자 개인 정보 보호 및 보안을 보장합니다. HeyGem은 다국어 스크립트(영어, 일본어, 한국어, 중국어 및 기타 8개 언어 포함)와 간단하고 직관적인 인터페이스를 지원하여 기술적 배경이 없는 사용자가 빠르게 시작할 수 있으며 개발자가 기능을 확장하는 데 편리한 오픈 API를 제공합니다. 몇 달 전 실리콘 인텔리전스 오픈 소스 모바일 버전의 디지털 사람 DUIX: 실시간 상호 작용을 위한 지능형 디지털 인력, 멀티 플랫폼 원클릭 배포 지원.

HeyGem 공식 다운로드 주소: https://heygem.ai/

기능 목록

정확한 외형 및 음성 복제AI 기술이 얼굴 특징과 보컬 디테일을 캡처하여 고음질 아바타와 음성을 생성하고 파라미터 조정을 지원합니다.
텍스트 기반 가상 이미지텍스트가 입력되면 자동으로 자연스러운 음성을 생성하고 립싱크와 표정 움직임을 통해 아바타를 구동합니다.
음성 기반 비디오 제작사용자 음성 입력을 통해 아바타의 톤과 리듬을 제어하여 역동적인 동영상을 생성할 수 있습니다.
완전 오프라인 운영네트워크 연결이 필요하지 않으며 개인 정보 보호 및 보안을 위해 모든 데이터가 로컬에서 처리됩니다.
다국어 지원지원 언어: 영어, 일본어, 한국어, 중국어, 프랑스어, 독일어, 아랍어, 스페인어 등 8개 언어 스크립트가 지원됩니다.
효율적인 동영상 합성오디오 및 비디오 동기화를 지능적으로 최적화하여 입술 모양과 음성이 자연스럽게 일치하도록 합니다.
오픈 소스 API 인터페이스모델 트레이닝 및 동영상 합성을 위한 API와 개발자를 위한 맞춤형 기능을 제공합니다.

도움말 사용

설치 프로세스

다음 설치 프로세스는 원본 텍스트와 이미지 주소를 유지하면서 공식 지침을 엄격하게 따릅니다:

전제 조건

디스크 D가 있어야 합니다.주로 디지털 이미지 및 프로젝트 데이터 저장용
- 여유 공간 요구 사항: 30GB 이상
C 디스크서비스 이미지 파일 저장에 사용
- 여유 공간 요구 사항: 100GB 이상
- 여유 공간이 100GB 미만인 경우, Docker를 설치한 후 아래 표시된 위치에서 100GB 이상의 여유 공간이 있는 디스크의 폴더를 선택할 수 있습니다:
시스템 요구 사항::
- 현재 Windows 10 19042.1526 이상을 지원합니다.
권장 구성::
- CPU: 13세대 인텔 코어 i5-13400F
- 메모리: 32GB
- 그래픽 카드: RTX-4070
NVIDIA 그래픽 카드가 있고 드라이버가 올바르게 설치되어 있는지 확인합니다.
- NVIDIA 드라이버 다운로드 링크: https://www.nvidia.cn/drivers/lookup/

Windows 도커 설치

명령 사용 wsl --list --verbose 다음 그림은 WSL이 설치되어 있으며 다시 설치할 필요가 없음을 보여줍니다:
- WSL 설치 명령:wsl --install
- 네트워크 문제로 인해 실패할 수 있으니 여러 번 시도해 보세요.
- 설치 과정에서 새 사용자 아이디와 비밀번호를 설정하고 기억해야 합니다.
활용 wsl --update WSL 업데이트:
Windows용 Docker를 다운로드하고 CPU 아키텍처에 맞는 설치 관리자를 선택하세요.
이 화면은 설치가 완료되었음을 나타냅니다:
Docker를 실행합니다:
프로토콜을 수락하고 첫 실행 시 로그인을 건너뜁니다:

서버 설치하기

도커 및 도커-컴포즈를 사용하여 다음을 설치합니다:

docker-compose.yml 파일은 /deploy 카탈로그.
존재 /deploy 디렉터리를 실행하여 docker-compose up -d.
인터넷 속도에 따라 약 30분 정도 기다리면 다운로드에 약 70GB의 트래픽이 소모되므로 Wi-Fi를 사용하세요.
Docker에 세 개의 서비스가 표시되면 성공입니다:

클라이언트

빌드 스크립트 npm run build:win실행 후에는 dist 카탈로그 생성 HeyGem-1.0.0-setup.exe.
더블 클릭 HeyGem-1.0.0-setup.exe 설치를 수행합니다.

종속성

Nodejs 18
도커 이미지:
- docker pull guiji2025/fun-asr:1.0.1
- docker pull guiji2025/fish-speech-ziming:1.0.39
- docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

주요 기능

1. 외모 및 음성 복제

자료 준비
- 선명한 음성(10~30초, WAV 형식)을 녹음하여 D:\heygem_data\voice\data.
- 전면의 고해상도 사진을 찍어 다음을 수행합니다. D:\heygem_data\face2face(경로는 docker-compose.yml (조정됨).
클론 기능 실행
- 클라이언트를 실행하고 인터페이스를 연 다음 '모델 교육'을 선택합니다.
- API 호출하기 http://127.0.0.1:18180/v1/preprocess_and_tran와 같은 매개변수를 입력합니다:
```
{
"format": ".wav",
"reference_audio": "D:/heygem_data/voice/data/sample.wav",
"lang": "zh"
}
```
- 반환된 결과(예: 오디오 경로 및 텍스트)를 가져와 나중에 사용할 수 있도록 저장합니다.

2. 텍스트 기반 가상 이미지

입력 텍스트

클라이언트 인터페이스에서 '오디오 합성'을 선택하고 API를 호출합니다. http://127.0.0.1:18180/v1/invoke와 같은 매개변수를 입력합니다:

{
"speaker": "unique-uuid",
"text": "欢迎体验 HeyGem.ai",
"format": "wav",
"topP": 0.7,
"max_new_tokens": 1024,
"chunk_length": 100,
"repetition_penalty": 1.2,
"temperature": 0.7,
"need_asr": false,
"streaming": false,
"is_fixed_seed": 0,
"is_norm": 0,
"reference_audio": "返回的音频路径",
"reference_text": "返回的文本"
}

비디오 생성
- 합성 인터페이스 사용 http://127.0.0.1:8383/easy/submit와 같은 매개변수를 입력합니다:
```
{
"audio_url": "生成的音频路径",
"video_url": "D:/heygem_data/face2face/sample.mp4",
"code": "unique-uuid",
"chaofen": 0,
"watermark_switch": 0,
"pn": 1
}
```
- 진행 상황에 대해 문의하세요:http://127.0.0.1:8383/easy/query?code=unique-uuid.
결과 저장
- 완료되면 동영상 파일이 지정된 경로에 로컬로 저장됩니다.