Text2Voice: 실리콘 기반 플로우 API를 기반으로 하는 텍스트 음성 변환 그래픽 인터페이스

최신 AI 리소스4개월 전 업데이트 AI 공유 서클
2K 00

일반 소개

Text2Voice는 실리콘 기반 모빌리티 API를 기반으로 텍스트 음성 변환 기능을 제공하는 오픈 소스 도구로, 깔끔한 그래픽 사용자 인터페이스(GUI)가 가장 큰 특징입니다. 개발자 쉘든 리가 깃허브에서 사용자가 인터페이스를 통해 텍스트를 음성으로 쉽게 변환할 수 있도록 만든 프로젝트입니다. 이 프로젝트는 파이썬으로 개발되었으며, 직관적인 인터페이스를 만들기 위해 PyQt6 프레임워크를 결합했습니다. 이 프로젝트의 핵심은 API를 사용하여 텍스트를 실시간으로 가청 오디오로 변환하는 것으로, 중국어와 영어 등 여러 언어를 지원하고 다양한 톤을 선택할 수 있는 기능을 제공합니다. 코드는 공개되어 있으며 누구나 다운로드, 실행 또는 수정할 수 있으며 음성을 빠르게 생성하려는 사람이나 개발자에게 적합합니다. 이 프로젝트에는 안정적인 버전, 실용적인 기능이 있으며 설치 후 시작할 수 있습니다.

Text2Voice:基于硅基流动API的文本转语音图形界面

 

기능 목록

  • 그래픽 인터페이스를 통해 중국어, 영어 및 기타 다국어 텍스트를 음성으로 변환하세요.
  • 다양한 음성 톤을 제공합니다.
  • 재생, 일시 중지, 정지를 포함한 실시간 오디오 재생 제어를 지원합니다.
  • 간단하고 아름다운 그래픽 작업 창을 표시합니다.
  • 생성된 오디오 파일을 자동으로 관리합니다.
  • 긴 텍스트를 음성으로 분할할 수 있도록 지원합니다.

 

도움말 사용

Text2Voice는 Python 및 Silicon Flow API를 사용하므로 사용하기 전에 환경을 설치하고 키를 구성해야 합니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 단계입니다.

설치 프로세스

  1. 시스템 환경 준비하기
    컴퓨터가 Windows, macOS 또는 Linux, 2GB 이상의 RAM, 안정적인 인터넷 연결 등의 요구 사항을 충족하는지 확인합니다.

    • Python 설치: 액세스하기 https://www.python.org/Python을 설치하려면 버전 3.8 이상을 다운로드하고 설치하는 동안 '경로에 Python 추가' 확인란을 선택합니다.
    • Git 설치: 방문 https://git-scm.com/를 클릭하고 다운로드하여 설치합니다.
  2. 프로젝트 코드 다운로드
    터미널(Windows의 경우 CMD, Mac/Lux의 경우 터미널)을 열고 실행합니다:
git clone https://github.com/axdlee/text2voice.git

그런 다음 프로젝트 디렉토리로 이동합니다:

cd text2voice
  1. 가상 환경 설정(권장)
    종속성 충돌을 피하기 위해 가상 환경을 만들고 활성화하세요:
python -m venv venv
  • Windows.
    venv\Scripts\activate
    
  • Mac/Linux.
    source venv/bin/activate
    
  1. 종속성 설치
    프로젝트 종속성은 requirements.txt '설치' 섹션에서 다음 명령을 실행하여 설치합니다:
pip install -r requirements.txt

이렇게 하면 파이큐트6, 요청, 파이게임 등 필요한 라이브러리가 설치됩니다.

  1. API 키 구성
    프로젝트 루트 디렉터리에서 .env 파일에 다음 내용을 추가합니다:
SILICON_API_KEY=你的API密钥

API 키는 실리콘 모빌리티 웹사이트에서 발급받아 입력한 후 저장해야 합니다.

  1. 실행 중인 프로그램
    터미널에 입력합니다:
python main.py

프로그램이 시작되면 그래픽 인터페이스가 나타납니다.

주요 기능 사용 방법

  1. 그래픽 인터페이스 시작하기
    움직여야 합니다. python main.py 그 후 텍스트 입력 상자와 제어 버튼이 있는 창이 표시됩니다.
  2. API 키 설정
    인터페이스에서 "설정" 버튼을 클릭하고 다음을 입력합니다. .env 실리콘 모빌리티 API 키를 파일에 입력하여 설정을 저장합니다.
  3. 입력 텍스트
    텍스트 상자에 음성으로 변환하려는 텍스트를 입력하거나 붙여넣습니다(예: "안녕하세요, 이것은 테스트입니다").
  4. 톤 선택
    드롭다운 메뉴에서 남성 또는 여성 등 음성 톤을 선택합니다(정확한 옵션은 API에 의해 결정됨).
  5. 음성으로 변환
    '음성으로 변환' 버튼을 클릭하면 프로그램이 실리콘 모빌리티 API를 통해 텍스트를 처리하여 오디오를 생성합니다.
  6. 오디오 재생
    변환이 완료되면 인터페이스의 '재생' 버튼을 사용하여 '일시 중지' 또는 '중지'로 제어할 수 있는 오디오를 듣습니다.

주요 기능 작동 절차

  • GUI 기반 긴 텍스트 분할 변환
    텍스트가 5000단어 이상인 경우 프로그램이 자동으로 세그먼트 단위로 처리합니다. 인터페이스에 전체 텍스트를 직접 입력하고 "음성으로 변환"을 클릭하면 프로그램이 오디오를 세그먼트별로 생성합니다. 재생 버튼을 사용하여 각 세그먼트를 들을 수 있습니다.
  • 오디오 파일 관리
    생성된 오디오는 일시적으로 temp 폴더에 저장합니다. 이러한 파일은 프로그램이 종료되면 자동으로 삭제됩니다. 저장하려면 종료하기 전에 수동으로 다른 곳으로 옮기면 됩니다.
  • 실시간 재생 제어
    변환된 오디오는 실시간 작동을 지원합니다. "재생"을 클릭하여 듣기를 시작하고 언제든지 "일시 중지" 또는 "중지"를 클릭하면 모든 작업이 그래픽 인터페이스에서 수행됩니다.

주의

  • 이 기능은 실리콘 기반 모빌리티 API에 의존하기 때문에 네트워크가 안정적이어야 합니다.
  • API 오류를 방지하기 위해 한 번의 변환이 5000자를 초과하지 않도록 하는 것이 좋습니다.
  • API 키는 비밀로 유지해야 하며 공개적으로 공유해서는 안 됩니다.
  • 인터페이스가 응답하지 않으면 키, 네트워크 및 종속성이 올바른지 확인하세요.

이 단계를 통해 Text2Voice의 그래픽 인터페이스를 사용하여 텍스트를 음성으로 변환할 수 있습니다. 개발자는 코드를 수정하여 인터페이스나 기능을 조정할 수도 있습니다.

 

애플리케이션 시나리오

  1. 교육 보조 자료
    그래픽 인터페이스를 통해 텍스트를 음성으로 변환하여 쉽게 듣고 학습할 수 있습니다.
  2. 콘텐츠 제작
    쉽고 간편한 조작으로 동영상 또는 팟캐스트용 음성을 생성하여 시간을 절약하세요.
  3. 접근성 지원
    인터페이스를 통해 텍스트를 음성으로 변환하여 시각 장애인이 정보에 액세스할 수 있도록 지원하세요.

 

QA

  1. 어떤 언어가 지원되나요?
    실리콘 모빌리티 API에 따라 중국어와 영어를 포함한 여러 언어가 지원됩니다.
  2. 인터페이스가 응답하지 않는 이유는 무엇인가요?
    API 키 오류, 네트워크 문제 또는 제대로 설치되지 않은 종속성일 수 있습니다. 확인하고 다시 시도하세요.
  3. 오디오 파일은 어디에 저장되나요?
    임시 저장 위치 temp 폴더에 저장되며, 프로그램을 종료하면 자동으로 정리됩니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...