위챗 음성 메시지를 이렇게 재생할 수 있나요? 초보자도 Devbox를 사용하여 쉽게 공개 번호 음성을 텍스트로 변환할 수 있습니다!

AI 실습 튜토리얼7개월 전 업데이트 AI 공유 서클
2.1K 00

많은 사람들이 WeChat의 음성 입력을 직접 사용하고 싶어 할 것이며, 항상 입력하는 것보다 말하는 것이 더 빠릅니다.

일반적인 .mp3 노래로 응답 .wav 형식이 다르며, WeChat 음성 입력은 기본값으로 .amr 형식.

아래는 개발자 서버가 WeChat으로부터 받은 웹훅으로, 공개 번호의 사용자로부터 음성 메시지가 수신되었음을 나타내며 다음과 같은 형식을 확인할 수 있습니다. .amr.

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

많은 STT(음성-텍스트 변환) 서비스는 전자만 지원하므로 다음과 같은 요구 사항이 발생합니다. .amr 형식은 .mp3 형식?

 

처방전

처음에는 Laf 솔루션이 나중에 Laf 에 위치해야 합니다. 서비스로서의 기능 솔루션은 다음과 같은 파일 시스템 사용을 지원하지 않습니다. fs 서버에서 파일을 조작합니다.

그러던 중 GitHub에서 솔루션 아이디어를 발견했습니다.[2]: 시작 express 서비스를 사용하여 fluent-ffmpeg 최고 사령관(군) .amr 변환 .mp3그런 다음 호출자가 사용할 수 있도록 파일이 서버에 임시로 저장됩니다.

이 솔루션은 서버에 사전 설치된 FFmpeg또는 fluent-ffmpeg 를 사용할 수 없게 됩니다.

"이것은 단순한 서비스형 기능이 아니다"라고 생각했습니다. 저는 백엔드 및 운영 담당자로서 예전에는 사용자와의 프론트엔드 상호 작용에 중점을 두고 서버리스에 대한 모든 것을 알고 있었습니다. 이제 저에게는 다소 어려운 도전이 되었습니다.

하지만 얼마 전에 출시된 실로스가 생각납니다. Devbox홍보는 이를 만회하기 위한 것으로 보입니다. Laf 이러한 서비스형 기능으로는 부족합니다.

"위에서 설명한 대로 Devbox에 서비스를 배포할 수 없을까요?" 그렇게 변환(피트 스테핑)이 시작됩니다.

 

바디 센스를 사용한 개발 박스

Devbox란 무엇인가에 대한 자세한 내용은 소개에서 확인할 수 있습니다:실로스 데브박스 출시: 클라우드 네이티브 개발 환경 배포

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

여기서 개발 경험에 대해 구체적으로 말씀드리고자 합니다.

 

다음과 같은 인식에 큰 영향을 미치기 때문입니다. Devbox 제가 이해한 내용과 우회 방법을 설명하기 위해 여기에 사용 팁이나 결론을 정리한 단락입니다.

존재 Devbox 또한 모든 개발 프로세스는직접.

처음에는 매우 불편했지만 로컬 IDE와 똑같이 작동합니다. Connect to SSH Host 함수에 대해 살펴 보겠습니다. Claude 이에 대한 참고 사항입니다:

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

 

Devbox를 사용하면 다음을 피할 수 있습니다. 记录服务器 IP 或域名 / 输入 SSH 端口号 / 输入服务器用户名或密码(或SSH密钥) 이 과정은 아래 버튼을 한 번만 누르면 됩니다.

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

 

사용 중 윈드서핑 첫 번째 클릭 후, 내 Windsurf가 원격 서버에 연결을 시도했습니다. 그 후 IDE에서 변경하는 모든 사항은 실제로 원격 서버를 작동시킵니다.

포함, 실행 pnpm i 또는 다른 주문도 모두 가능합니다.

더 중요한 것은 명령 실행을 포함한 모든 작업이 개발자 도구의 웹 UI에서 发布版本 모든 경우(다시 말하지만命令的运行)는 가상 머신의 현재 상태 스냅샷에 해당하는 도커 이미지로 패키징됩니다.

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

따라서 Devbox 개발 환경에 설치한 모든 종속성 및 기본 소프트웨어(예FFmpeg)에서 发布版本 그 후 프로덕션 환경에서 단계를 되짚어볼 필요 없이 모든 사전 요구 사항이 즉시 설치되었습니다.

이를 이해하면 마침내 다음과 같은 이유를 이해할 수 있습니다. Devbox 드디어 프로덕션 환경에서 종속성 문제와 버전 번호 충돌에 대해 걱정할 필요가 없습니다.프로덕션 환경은 개발 환경의 완전한 미러이기 때문입니다!

 

실습

위의 이해를 바탕으로 Devbox 실무 구현 부분은 다음과 같은 지식을 습득한 후 비교적 간단합니다.

 

1. 개발자 상자에서 Express를 선택합니다.

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

 

2. IDE로 열기

위에서 언급했듯이 VS Code / Cursor / Windsurf 개발을 위해 서버에 연결합니다.

서버에 연결한 후 모든 파일을 선택합니다. Cmd + A를 클릭하고 기본 템플릿 파일 전체를 제거합니다.

 

3. 코드 다운로드

우리는 방금 express 템플릿을 사용하므로 기본 git, node 노래로 응답 pnpm 모두 설치되었습니다.

이제 터미널 터미널을 열고 다음을 사용해 보겠습니다. git 코드를 다운로드합니다.

git clone https://github.com/yenche123/liubai.git

여기 팁이 있습니다. SSH 호스트의 IDE에서 명령을 입력하면 지연이 약간 걸리는 느낌이 드는데, 이는 실제로 원격 서버에서 터미널을 작동하기 때문에 당연히 지연이 발생하기 때문입니다.

이전 개발 경험은 로컬에서 개발한 다음 코드를 패키징하여 서버에 업로드하는 방식이었습니다. Devbox 그런 다음 모든 것이 서버에서 운영되며, 개발은 배포로 이루어집니다.

 

4. FFmpeg 설치

터미널에 다음 명령을 계속 입력하여 완료합니다. FFmpeg 설치.

sudo apt update && sudo apt upgrade # press Y to continue
sudo apt install ffmpeg # press Y to continue
ffmpeg -version # verify if installed successfully

마지막 줄에서는 설치가 성공했는지 확인할 수 있습니다.

다시 말하지만, 소프트웨어가 이미지에 직접 포함되므로 이 설치 후 프로덕션 환경에서 단계를 되돌릴 필요가 없습니다. 정말 놀랍지 않나요?

 

5. entrypoint.sh 작성

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

우리는 루트 디렉토리에 있으며, 이 디렉토리는 liubai/ 형제 위치(위 그림 참조)를 사용하면 entrypoint.sh 파일은 다음과 같습니다.

#!/bin/bash
cd /home/Devbox/project/liubai/liubai-backends/liubai-ffmpeg
pnpm dev

이 파일은 운영 환경의 서버에 머신이 시작된 후 원하는 서비스를 시작하는 방법을 알려주는 파일입니다.

여기서는 컴퓨터가 먼저 대상 폴더를 찾도록 지시하고 있습니다. liubai-ffmpeg 그런 다음 pnpm dev 명령을 시작하려면 express 서비스.

 

6. entrypoint.sh의 권한 부여

또한 루트 디렉터리에서 다음 명령을 실행합니다. entrypoint.sh 실행 권한을 추가합니다.

chmod +x entrypoint.sh

 

7. 종속성 설치

열어 보겠습니다. liubai-ffmpeg 디렉토리에 필요한 종속성을 설치합니다:

cd /home/Devbox/project/liubai/liubai-backends/liubai-ffmpeg
pnpm i

 

8. 개발 환경에서 서비스 시작

루트 디렉토리로 돌아가서 서비스를 다시 시작하는 것을 시뮬레이션해 보겠습니다:

cd /home/Devbox/project
bash entrypoint.sh

 

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

위와 같은 인쇄 메시지가 표시되면 머신에서 개발 환경이 시작되었음을 의미합니다. amr 반복 작업을 위한 분류기 mp3 서비스!

 

다시 돌아가 보겠습니다. Devbox 웹 UI에서 공개 주소를 복사합니다.

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

 

그런 다음 브라우저의 주소창에 스플라이스를 입력합니다. /hello아래와 같은 화면이 표시되면 해당 서비스가 성공적으로 시작되었다는 의미입니다.

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

이제 연결합니다. /new?url=你的amr文件&id=当前时间戳(毫秒)

그리고 amr 변환 mp3 서비스!

 

9. 프로덕션 환경에 배포

Devbox 웹 UI를 클릭합니다. 发布版本.

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

릴리스 프로세스 중에 IDE 연결이 잠시 끊어지는 것은 정상입니다.

게시한 후 上线최소 구성에 따라 마침을 클릭하기만 하면 됩니다.

몇 분 정도 기다리면 공개적으로 액세스할 수 있는 또 다른 링크, 즉 프로덕션 환경의 amr 변환 mp3 서비스!

 

Devbox에서 git 커밋

Devbox에서 개발 후 git 커밋을 커밋하려면 원격 서버에 원격 리포지토리에 대한 푸시 액세스 권한이 있어야 할 수 있습니다.

다음은 GitHub를 예로 들어 제가 겪은 일의 한 예입니다.

터미널에서 실행 git push origin 你的分支名 이렇게 하면 아래 두 번째 이미지와 같이 터미널에서 브라우저에 GitHub 페이지가 열리고 IDE의 인증 코드를 입력하라는 메시지가 표시됩니다.

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

 

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

 

그러나 이 작업은 승인되지 않을 수 있으며 IDE의 오른쪽 하단에 알림이 나타나서 Personal access tokens 아래와 같이 인증을 수행합니다:

微信语音消息还能这样玩?小白也能用 Devbox 轻松实现公众号语音转文字!

 

승인이 완료되면 git push 조금만 하면 괜찮을 것입니다.

 

지금 체험하기

위에서 언급 한 서비스는 이미 "화이트 노트"에 배포되었으며 이제 "화이트 노트"WeChat 공개 번호를 따라 음성을 보내면 위에서 언급 한대로 전화를 겁니다. amr 반복 작업을 위한 분류기 mp3 서비스.

현재 대형 모델 벤더인 7개의 타이거 중에서 개발자가 다음을 수행할 수 있는 것은 미니맥스입니다. messages 에 직접 mp3 공식 base64. 위챗에서 기본적으로 멀티모달을 사용하는 것을 보고 감히 시도해 보세요!

 

위의 내용을 요약하면, 저희는 Devbox 완료 amr 반복 작업을 위한 분류기 mp3 의 서비스를 제공합니다.

이 백서의 핵심은 바디 센스를 사용한 개발 박스 해당 섹션에서는 Devbox 기존 개발과의 차이점은 다음과 같습니다. Connect to SSH Host 기능을 갖춘 원격 서버를 직접 운영하여 소프트웨어 설치와 핵심 코드 개발을 완료했습니다.

를 통해 Devbox 기본 컨테이너의 최적화를 통해 다음을 수행할 수 있습니다.배포에 따라 개발개발 후 개발 서버에서 직접 결과를 검증할 수 있는 기능, 그리고 Devbox 전체 가상화 솔루션의 스냅샷을 생성하는 기능은 다음과 같은 문제를 해결합니다. 开发环境 노래로 응답 生产环境 이를 통해 종속성 및 기본 소프트웨어를 설치하는 과정을 거치지 않고도 프로덕션 환경에서 즉시 결과를 얻을 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...