일반 소개
Text2Voice는 실리콘 기반 모빌리티 API를 기반으로 텍스트 음성 변환 기능을 제공하는 오픈 소스 도구로, 깔끔한 그래픽 사용자 인터페이스(GUI)가 가장 큰 특징입니다. 개발자 쉘든 리가 깃허브에서 사용자가 인터페이스를 통해 텍스트를 음성으로 쉽게 변환할 수 있도록 만든 프로젝트입니다. 이 프로젝트는 파이썬으로 개발되었으며, 직관적인 인터페이스를 만들기 위해 PyQt6 프레임워크를 결합했습니다. 이 프로젝트의 핵심은 API를 사용하여 텍스트를 실시간으로 가청 오디오로 변환하는 것으로, 중국어와 영어 등 여러 언어를 지원하고 다양한 톤을 선택할 수 있는 기능을 제공합니다. 코드는 공개되어 있으며 누구나 다운로드, 실행 또는 수정할 수 있으며 음성을 빠르게 생성하려는 사람이나 개발자에게 적합합니다. 이 프로젝트에는 안정적인 버전, 실용적인 기능이 있으며 설치 후 시작할 수 있습니다.

기능 목록
- 그래픽 인터페이스를 통해 중국어, 영어 및 기타 다국어 텍스트를 음성으로 변환하세요.
- 다양한 음성 톤을 제공합니다.
- 재생, 일시 중지, 정지를 포함한 실시간 오디오 재생 제어를 지원합니다.
- 간단하고 아름다운 그래픽 작업 창을 표시합니다.
- 생성된 오디오 파일을 자동으로 관리합니다.
- 긴 텍스트를 음성으로 분할할 수 있도록 지원합니다.
도움말 사용
Text2Voice는 Python 및 Silicon Flow API를 사용하므로 사용하기 전에 환경을 설치하고 키를 구성해야 합니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 단계입니다.
설치 프로세스
- 시스템 환경 준비하기
컴퓨터가 Windows, macOS 또는 Linux, 2GB 이상의 RAM, 안정적인 인터넷 연결 등의 요구 사항을 충족하는지 확인합니다.- Python 설치: 액세스하기
https://www.python.org/
Python을 설치하려면 버전 3.8 이상을 다운로드하고 설치하는 동안 '경로에 Python 추가' 확인란을 선택합니다. - Git 설치: 방문
https://git-scm.com/
를 클릭하고 다운로드하여 설치합니다.
- Python 설치: 액세스하기
- 프로젝트 코드 다운로드
터미널(Windows의 경우 CMD, Mac/Lux의 경우 터미널)을 열고 실행합니다:
git clone https://github.com/axdlee/text2voice.git
그런 다음 프로젝트 디렉토리로 이동합니다:
cd text2voice
- 가상 환경 설정(권장)
종속성 충돌을 피하기 위해 가상 환경을 만들고 활성화하세요:
python -m venv venv
- Windows.
venv\Scripts\activate
- Mac/Linux.
source venv/bin/activate
- 종속성 설치
프로젝트 종속성은requirements.txt
'설치' 섹션에서 다음 명령을 실행하여 설치합니다:
pip install -r requirements.txt
이렇게 하면 파이큐트6, 요청, 파이게임 등 필요한 라이브러리가 설치됩니다.
- API 키 구성
프로젝트 루트 디렉터리에서.env
파일에 다음 내용을 추가합니다:
SILICON_API_KEY=你的API密钥
API 키는 실리콘 모빌리티 웹사이트에서 발급받아 입력한 후 저장해야 합니다.
- 실행 중인 프로그램
터미널에 입력합니다:
python main.py
프로그램이 시작되면 그래픽 인터페이스가 나타납니다.
주요 기능 사용 방법
- 그래픽 인터페이스 시작하기
움직여야 합니다.python main.py
그 후 텍스트 입력 상자와 제어 버튼이 있는 창이 표시됩니다. - API 키 설정
인터페이스에서 "설정" 버튼을 클릭하고 다음을 입력합니다..env
실리콘 모빌리티 API 키를 파일에 입력하여 설정을 저장합니다. - 입력 텍스트
텍스트 상자에 음성으로 변환하려는 텍스트를 입력하거나 붙여넣습니다(예: "안녕하세요, 이것은 테스트입니다"). - 톤 선택
드롭다운 메뉴에서 남성 또는 여성 등 음성 톤을 선택합니다(정확한 옵션은 API에 의해 결정됨). - 음성으로 변환
'음성으로 변환' 버튼을 클릭하면 프로그램이 실리콘 모빌리티 API를 통해 텍스트를 처리하여 오디오를 생성합니다. - 오디오 재생
변환이 완료되면 인터페이스의 '재생' 버튼을 사용하여 '일시 중지' 또는 '중지'로 제어할 수 있는 오디오를 듣습니다.
주요 기능 작동 절차
- GUI 기반 긴 텍스트 분할 변환
텍스트가 5000단어 이상인 경우 프로그램이 자동으로 세그먼트 단위로 처리합니다. 인터페이스에 전체 텍스트를 직접 입력하고 "음성으로 변환"을 클릭하면 프로그램이 오디오를 세그먼트별로 생성합니다. 재생 버튼을 사용하여 각 세그먼트를 들을 수 있습니다. - 오디오 파일 관리
생성된 오디오는 일시적으로temp
폴더에 저장합니다. 이러한 파일은 프로그램이 종료되면 자동으로 삭제됩니다. 저장하려면 종료하기 전에 수동으로 다른 곳으로 옮기면 됩니다. - 실시간 재생 제어
변환된 오디오는 실시간 작동을 지원합니다. "재생"을 클릭하여 듣기를 시작하고 언제든지 "일시 중지" 또는 "중지"를 클릭하면 모든 작업이 그래픽 인터페이스에서 수행됩니다.
주의
- 이 기능은 실리콘 기반 모빌리티 API에 의존하기 때문에 네트워크가 안정적이어야 합니다.
- API 오류를 방지하기 위해 한 번의 변환이 5000자를 초과하지 않도록 하는 것이 좋습니다.
- API 키는 비밀로 유지해야 하며 공개적으로 공유해서는 안 됩니다.
- 인터페이스가 응답하지 않으면 키, 네트워크 및 종속성이 올바른지 확인하세요.
이 단계를 통해 Text2Voice의 그래픽 인터페이스를 사용하여 텍스트를 음성으로 변환할 수 있습니다. 개발자는 코드를 수정하여 인터페이스나 기능을 조정할 수도 있습니다.
애플리케이션 시나리오
- 교육 보조 자료
그래픽 인터페이스를 통해 텍스트를 음성으로 변환하여 쉽게 듣고 학습할 수 있습니다. - 콘텐츠 제작
쉽고 간편한 조작으로 동영상 또는 팟캐스트용 음성을 생성하여 시간을 절약하세요. - 접근성 지원
인터페이스를 통해 텍스트를 음성으로 변환하여 시각 장애인이 정보에 액세스할 수 있도록 지원하세요.
QA
- 어떤 언어가 지원되나요?
실리콘 모빌리티 API에 따라 중국어와 영어를 포함한 여러 언어가 지원됩니다. - 인터페이스가 응답하지 않는 이유는 무엇인가요?
API 키 오류, 네트워크 문제 또는 제대로 설치되지 않은 종속성일 수 있습니다. 확인하고 다시 시도하세요. - 오디오 파일은 어디에 저장되나요?
임시 저장 위치temp
폴더에 저장되며, 프로그램을 종료하면 자동으로 정리됩니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...