우수한 보이스오버 제작 콘텐츠에 대한 국내 제작이 없어 API만 사용할 수 있거나 제품이 괜찮은 사운드 모델이 작동하지 않습니다.
예를 들어, 해외 ElevenLabs 영어는 괜찮지만 중국어는 정말 당기고 있지만 오픈 소스 모델의 주요 문제점은 모델 품질이 상대적으로 열악하고 특히 음질이 좋지 않고 현재, 다국어 혼합 장면 및 다중 소리 다중 의미 단어 표현이 부정확하다는 점 등입니다.
미니맥스는 한 달 전에 출시되었습니다. Conch AI 국제 버전, 온라인 두 번째 음성 복제 기능, 중국어와 영어를 아주 잘 읽어줍니다!음성 생성 기능은 며칠 전에 국내 페이지에 적용되었는데, 직접 사용해보고 정말 놀랐습니다.17개 이상의 언어, 다양한 감정 표현의 정밀한 제어, 수백 개의 사운드 라이브러리를 지원하여 다양한 요구 사항을 충족합니다..
가장 중요한 것은 오디오 품질이 매우 뛰어나며, 일반적인 사운드 생성 문제가 없고, 같은 음색을 사용하더라도 조정에 따라 다른 음색을 만들 수 있는 고도로 사용자 정의 가능한 옵션이 있다는 것입니다.
제가 만든 이 작은 작품을 살펴본 다음, 기능 및 효과 측면에서 Conch의 음성 생성 기능의 효율성을 살펴 보겠습니다.
세부 기능 사용자 지정 옵션
Conch Voice의 기능을 살펴보면 정말 강력하고 상세하며, 17개 이상의 언어를 지원하는 방대한 사운드 라이브러리를 보유하고 있습니다.각 언어는 다양한 톤을 지원하며, 연령은 물론 남성 목소리와 여성 목소리 중에서 자유롭게 선택할 수 있습니다..
예를 들어, 비디오 대본에 정의감 넘치는 노인이 필요한 경우 이 필터를 통해 필요한 신원과 연령 배경에 맞는 톤을 빠르게 찾을 수 있습니다.

톤을 선택한 후 세부적으로 사용자 지정할 수도 있습니다.
우선, 행복, 슬픔, 분노 및 기타 5 ~ 6 가지 감정을 포함하여 톤의 감정을 사용자 지정할 수 있습니다. 예를 들어 다음 오디오는 따뜻한 여자 친구의 톤의 다양한 감정 연기를 보여 주며 매우 자연스럽고 명확하게들을 수 있습니다.
그다음은 말의 속도인데, 이것은 빨리 말할수록 값이 높을수록 이해하기가 매우 좋고, 음량도 높은 목소리의 값이 높을수록 이해하기가 매우 좋으며, 이것의 톤은 제가 대략적으로 시도한 것은 더 뾰족한 목소리의 값이 클수록, 더 부드러운 목소리의 값이 작을수록 이해가 잘됩니다.
이 네 가지 사용자 지정 옵션을 제어함으로써 다음과 같은 이점을 얻을 수 있습니다.같은 음색을 선택하더라도 매우 다르게 들리도록 튜닝할 수 있어 시도하는 재미가 쏠쏠합니다!.
또 다른 팁은 일시 중지를 추가해야하는 곳에 ''를 추가하는 것입니다. 이러한 종류의 마커는 모델이 지정된 시간 동안 사운드 일시 중지를 생성하도록 만들 수 있으며, 이런 종류의 필요가있는 경우 시도해 볼 수 있으며 소라 자체도 필요한 일시 중지를 판단 할 수 있습니다.

강력한 발전 효과
소라 모델 온톨로지 외에도 풍부한 음색 외에도 매우 강력하며, 우리는 가장 일반적인 문제의 많은 모델이 음질 문제, 전류 감각, 일부 왜곡 일부는 의도적으로 추가 된 일부 훈련 문제라는 것을 알고있는 일부 오픈 소스 TTS를 사용했습니다.
얼마 전에 그가 받아쓰기를 위해 작성한 비교적 긴 단락에서 다음과 같은 내용을 발견했습니다.음질이 매우 좋고 일시 정지도 자연스러우며 필요할 때 강조를 추가합니다..
음성 모델링의 또 다른 일반적인 문제는 매우 긴 콘텐츠를 생성하는 것입니다.많은 모델이 매우 짧은 텍스트 길이를 지원하지만, Conch는 최대 10,000자를 지원합니다.기본적으로 장편 원고와 장편 소설의 길이에 해당하며, 이 정도면 충분합니다.
다음은 얼마 전 우 엔다 2 천 단어의 원고를 아주 잘 읽었고 문제없이 속도 생성도 매우 빠르며 미리보기 중에 생성 할 수 있으며 시간을 매우 절약 할 수 있습니다!
마지막으로 가장 까다로운 문제는 다국어 혼합 장면과 다성 장면이며, 일부 비교적 좋은 음성 모델도 종종 문제가 있으며, 특히 AI가 테스트 텍스트를 생성하고 단락에 5 개의 다른 언어가 포함되어 있으며 소라가 완벽하게 읽습니다.
안녕하세요! 다시 만나서 반갑습니다. 저는 음악과 예술을 사랑합니다. 저를 매우 행복하게 해줍니다. 안녕하세요, 친구들! 점심 먹으러 가자.
이 장면은 다성 발성 장면으로, 그는 '걷다'(행), '먼저'(싱), '은행'(행), '여행'(싱)의 발음을 각기 다른 위치에서 정확하게 판단하고 매우 복잡한 다성 발성을 아주 잘 처리합니다.
오늘은 한 발 앞서 가다가 한 줄을 지나면 멈춰야겠어요. 내일 은행에 가야 하는데 교통 체증에 갇히면 일정에 영향을 받을 수 있습니다.
여기까지 소개를 마쳤으니 더 자세히 살펴보고 다음 장소에서 사용해보세요:
콘치 보이스: https://hailuoai.com/audioHailuo
国内API服务:https://platform.minimaxi.com/document/T2A%20V2
작년에 중국에서도 언제쯤 일레븐랩스 같은 강력한 음성인식 제품이 나올지 친구들과 항상 이야기했는데, 이제 일레븐랩스보다 더 좋은 결과물이 나왔고 24년 만에 사진, 영상, 오디오까지 동급 최고 수준의 모델을 내놓았으니 올해는 국내 AI 업체들이 더 놀라움을 줄 수 있었으면 좋겠습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...