일반 소개
AssemblyAI는 음성 AI 기술에 중점을 둔 플랫폼으로, 개발자와 기업에 효율적인 음성-텍스트 및 오디오 분석 도구를 제공합니다. 핵심은 유니버설 시리즈 모델, 특히 새로 출시된 유니버설-2는 현재까지 출시된 어셈블리AI의 가장 진보된 음성 텍스트 변환 모델입니다. 유니버설-2는 1250만 시간 이상의 다국어 오디오 훈련 데이터를 보유한 유니버설-1을 기반으로 실제 대화의 복잡성을 정확하게 포착하고 매우 정확한 오디오 데이터를 제공할 수 있습니다. Universal-2는 1,250만 시간 이상의 다국어 오디오 훈련 데이터를 보유한 Universal-1을 기반으로 실제 대화의 복잡성을 정확하게 포착하고 매우 정확한 오디오 데이터를 제공합니다. 유니버설-1에 비해 유니버설-2는 고유 명사 인식(예: 이름, 브랜드)에서 241 TP3T, 숫자-알파벳 혼합 콘텐츠(예: 전화번호, 우편함)에서 211 TP3T, 텍스트 형식(예: 구두점, 대문자)에서 151 TP3T를 개선하여 기존 모델의 '라스트 마일' 정확도를 크게 낮췄습니다. "AssemblyAI는 사용하기 쉬운 API를 통해 이러한 최첨단 기술을 전 세계 사용자에게 공개하고 있으며, Spotify, Fireflies 및 기타 회사에서 회의 녹음 및 콘텐츠 분석과 같은 영역을 포괄하는 지능형 음성 제품을 구축하는 데 사용되었습니다.

기능 목록
- 음성-텍스트 변환오디오 파일 또는 라이브 오디오 스트림을 고정밀 텍스트로 변환하여 여러 언어와 여러 오디오 형식을 지원합니다.
- 화자 감지여러 사람이 대화하는 시나리오를 위해 오디오에서 여러 화자를 자동으로 식별합니다.
- 감정 분석긍정, 부정, 중립 등 말의 감정적 성향을 분석하여 사용자 경험을 개선합니다.
- 실시간 트랜스크립션음성 에이전트 또는 라이브 캡션에 적합한 지연 시간이 짧은 실시간 음성-텍스트 변환 기능을 제공합니다.
- 오디오 인텔리전스 모델링콘텐츠 검토, 토픽 감지, 키워드 검색 등의 고급 기능이 포함되어 있습니다.
- LeMUR 프레임워크대규모 언어 모델을 사용하여 전사된 텍스트를 처리하고 요약 생성, Q&A 등을 지원합니다.
- 자막 생성간편한 동영상 콘텐츠 제작을 위해 자막 파일을 SRT 또는 VTT 형식으로 내보낼 수 있도록 지원합니다.
- 개인 정보 보호이름이나 전화번호와 같은 민감한 정보를 오디오에서 자동으로 식별하고 차단합니다.
도움말 사용
AssemblyAI는 강력한 기능을 사용하기 위해 로컬 설치가 필요 없는 클라우드 기반 API 서비스입니다. 다음은 시작하고 기능을 자세히 살펴보는 데 도움이 되는 자세한 가이드입니다.
API 키 등록 및 받기
- 공식 웹사이트 방문하기브라우저를 열고 다음을 입력합니다.
https://www.assemblyai.com/
홈 페이지로 이동합니다. - 계정 등록하기오른쪽 상단의 '가입하기'를 클릭하고 이메일 주소와 비밀번호를 입력하여 등록 절차를 완료하세요. 등록을 마치면 자동으로 대시보드에 들어가게 됩니다.
- 키 받기대시보드에서 'API 키' 영역을 찾아 '복사'를 클릭하여 키를 복사합니다. 이 키는 API 호출을 위한 유일한 인증 정보이므로 안전하게 보관해야 합니다.
- 무료 평가판신규 사용자를 위한 무료 크레딧, 결제 수단을 즉시 바인딩할 필요가 없습니다.
핵심 기능 작동
다음은 Python에서 유니버설 모델 제품군을 사용하는 방법의 예입니다. 웹사이트의 설명서를 참조하여 다른 언어(예: Java, Node.js)를 사용할 수도 있습니다.
음성 텍스트 변환(범용-2)
- 예비오디오 파일이 있는지 확인합니다(예
sample.mp3
) 또는 URL 링크를 클릭합니다. - SDK 설치하기: 터미널에서 실행됩니다:
pip install assemblyai
- 코드 예제::
import assemblyai as aai
aai.settings.api_key = "你的API密钥" # 替换为你的密钥
transcriber = aai.Transcriber()
transcript = transcriber.transcribe("sample.mp3")
print(transcript.text) # 输出文本,如“今天天气很好。”
- 범용-2 강점기본적으로 고유 명사(예: "장 웨이")와 형식이 지정된 숫자(예: "2025년 3월 6일")를 Universal-1보다 몇 초 만에 더 정확하게 인식하는 Universal-2 모델이 사용됩니다. 처리 시간은 보통 몇 초에 불과합니다.
실시간 트랜스크립션
- 적용 가능한 시나리오라이브 스트리밍, 원격 회의 및 기타 실시간 요구 사항.
- 코드 예제::
from assemblyai import RealtimeTranscriber import asyncio async def on_data(data): print(data.text) # 实时输出文本 transcriber = RealtimeTranscriber( api_key="你的API密钥", sample_rate=16000, on_data=on_data ) async def start(): await transcriber.connect() await transcriber.stream() # 开始接收音频流 asyncio.run(start())
- 워크플로실행 후 마이크에 대고 말하면 텍스트가 실시간으로 표시됩니다. 유니버설-2의 짧은 지연 시간 기능으로 빠르고 정확한 결과를 보장합니다.
화자 감지
- 활성화 방법::
config = aai.TranscriptionConfig(speaker_labels=True) transcript = transcriber.transcribe("sample.mp3", config=config) for utterance in transcript.utterances: print(f"说话人 {utterance.speaker}: {utterance.text}")
- 결과의 예::
说话人 A: 你好,今天会议几点? 说话人 B: 下午两点。
- STH에 주목하세요.Universal-2는 여러 사람이 대화할 때 더 일관성 있게 작동하고 혼란을 줄입니다.
감정 분석
- 활성화 방법::
config = aai.TranscriptionConfig(sentiment_analysis=True) transcript = transcriber.transcribe("sample.mp3", config=config) for result in transcript.sentiment_analysis: print(f"文本: {result.text}, 情感: {result.sentiment}")
- 결과의 예::
文本: 我很喜欢这个产品, 情感: POSITIVE 文本: 服务有点慢, 情感: NEGATIVE
자막 생성
- 운영 코드::
transcript = transcriber.transcribe("sample.mp3") with open("captions.srt", "w") as f: f.write(transcript.export_subtitles_srt())
- 결국: 생성
.srt
파일을 동영상 편집 소프트웨어로 직접 가져올 수 있습니다.
기능: LeMUR 프레임워크
- 기능 소개LeMUR은 대규모 언어 모델링을 결합하여 전사 결과를 처리합니다(예: 초록 생성).
- 절차::
- 성적증명서 ID를 얻습니다:
transcript = transcriber.transcribe("sample.mp3") transcript_id = transcript.id
- 요약을 생성합니다:
from assemblyai import Lemur lemur = Lemur(api_key="你的API密钥") summary = lemur.summarize(transcript_id) print(summary.response)
- 샘플 출력: "회의에서 프로젝트 진행 상황이 논의되었으며 다음 주에 완료될 예정입니다."
- 성적증명서 ID를 얻습니다:
주의
- 지원되는 형식MP3, WAV 등 33개의 오디오/비디오 형식과 호환됩니다.
- 언어 설정99개 이상의 언어가 지원되며 다음을 통해 액세스할 수 있습니다.
language_code="zh"
중국어를 지정합니다. - 청구오디오 시간당 요금이 청구되며, 가격은 공식 웹사이트를 참조하세요.
다음 단계를 수행하면 Universal-2의 강력한 기능을 최대한 활용하여 효율적인 음성 애플리케이션을 구축할 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...