AssemblyAI: 고정밀 음성-텍스트 및 오디오 인텔리전스 분석 플랫폼

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
1.6K 00

일반 소개

AssemblyAI는 음성 AI 기술에 중점을 둔 플랫폼으로, 개발자와 기업에 효율적인 음성-텍스트 및 오디오 분석 도구를 제공합니다. 핵심은 유니버설 시리즈 모델, 특히 새로 출시된 유니버설-2는 현재까지 출시된 어셈블리AI의 가장 진보된 음성 텍스트 변환 모델입니다. 유니버설-2는 1250만 시간 이상의 다국어 오디오 훈련 데이터를 보유한 유니버설-1을 기반으로 실제 대화의 복잡성을 정확하게 포착하고 매우 정확한 오디오 데이터를 제공할 수 있습니다. Universal-2는 1,250만 시간 이상의 다국어 오디오 훈련 데이터를 보유한 Universal-1을 기반으로 실제 대화의 복잡성을 정확하게 포착하고 매우 정확한 오디오 데이터를 제공합니다. 유니버설-1에 비해 유니버설-2는 고유 명사 인식(예: 이름, 브랜드)에서 241 TP3T, 숫자-알파벳 혼합 콘텐츠(예: 전화번호, 우편함)에서 211 TP3T, 텍스트 형식(예: 구두점, 대문자)에서 151 TP3T를 개선하여 기존 모델의 '라스트 마일' 정확도를 크게 낮췄습니다. "AssemblyAI는 사용하기 쉬운 API를 통해 이러한 최첨단 기술을 전 세계 사용자에게 공개하고 있으며, Spotify, Fireflies 및 기타 회사에서 회의 녹음 및 콘텐츠 분석과 같은 영역을 포괄하는 지능형 음성 제품을 구축하는 데 사용되었습니다.

AssemblyAI:高精度语音转文字与音频智能分析平台

 

기능 목록

  • 음성-텍스트 변환오디오 파일 또는 라이브 오디오 스트림을 고정밀 텍스트로 변환하여 여러 언어와 여러 오디오 형식을 지원합니다.
  • 화자 감지여러 사람이 대화하는 시나리오를 위해 오디오에서 여러 화자를 자동으로 식별합니다.
  • 감정 분석긍정, 부정, 중립 등 말의 감정적 성향을 분석하여 사용자 경험을 개선합니다.
  • 실시간 트랜스크립션음성 에이전트 또는 라이브 캡션에 적합한 지연 시간이 짧은 실시간 음성-텍스트 변환 기능을 제공합니다.
  • 오디오 인텔리전스 모델링콘텐츠 검토, 토픽 감지, 키워드 검색 등의 고급 기능이 포함되어 있습니다.
  • LeMUR 프레임워크대규모 언어 모델을 사용하여 전사된 텍스트를 처리하고 요약 생성, Q&A 등을 지원합니다.
  • 자막 생성간편한 동영상 콘텐츠 제작을 위해 자막 파일을 SRT 또는 VTT 형식으로 내보낼 수 있도록 지원합니다.
  • 개인 정보 보호이름이나 전화번호와 같은 민감한 정보를 오디오에서 자동으로 식별하고 차단합니다.

 

도움말 사용

AssemblyAI는 강력한 기능을 사용하기 위해 로컬 설치가 필요 없는 클라우드 기반 API 서비스입니다. 다음은 시작하고 기능을 자세히 살펴보는 데 도움이 되는 자세한 가이드입니다.

API 키 등록 및 받기

  1. 공식 웹사이트 방문하기브라우저를 열고 다음을 입력합니다. https://www.assemblyai.com/홈 페이지로 이동합니다.
  2. 계정 등록하기오른쪽 상단의 '가입하기'를 클릭하고 이메일 주소와 비밀번호를 입력하여 등록 절차를 완료하세요. 등록을 마치면 자동으로 대시보드에 들어가게 됩니다.
  3. 키 받기대시보드에서 'API 키' 영역을 찾아 '복사'를 클릭하여 키를 복사합니다. 이 키는 API 호출을 위한 유일한 인증 정보이므로 안전하게 보관해야 합니다.
  4. 무료 평가판신규 사용자를 위한 무료 크레딧, 결제 수단을 즉시 바인딩할 필요가 없습니다.

핵심 기능 작동

다음은 Python에서 유니버설 모델 제품군을 사용하는 방법의 예입니다. 웹사이트의 설명서를 참조하여 다른 언어(예: Java, Node.js)를 사용할 수도 있습니다.

음성 텍스트 변환(범용-2)

  • 예비오디오 파일이 있는지 확인합니다(예 sample.mp3) 또는 URL 링크를 클릭합니다.
  • SDK 설치하기: 터미널에서 실행됩니다:
pip install assemblyai
  • 코드 예제::
import assemblyai as aai
aai.settings.api_key = "你的API密钥"  # 替换为你的密钥
transcriber = aai.Transcriber()
transcript = transcriber.transcribe("sample.mp3")
print(transcript.text)  # 输出文本,如“今天天气很好。”
  • 범용-2 강점기본적으로 고유 명사(예: "장 웨이")와 형식이 지정된 숫자(예: "2025년 3월 6일")를 Universal-1보다 몇 초 만에 더 정확하게 인식하는 Universal-2 모델이 사용됩니다. 처리 시간은 보통 몇 초에 불과합니다.

실시간 트랜스크립션

  • 적용 가능한 시나리오라이브 스트리밍, 원격 회의 및 기타 실시간 요구 사항.
  • 코드 예제::
    from assemblyai import RealtimeTranscriber
    import asyncio
    async def on_data(data):
    print(data.text)  # 实时输出文本
    transcriber = RealtimeTranscriber(
    api_key="你的API密钥",
    sample_rate=16000,
    on_data=on_data
    )
    async def start():
    await transcriber.connect()
    await transcriber.stream()  # 开始接收音频流
    asyncio.run(start())
    
  • 워크플로실행 후 마이크에 대고 말하면 텍스트가 실시간으로 표시됩니다. 유니버설-2의 짧은 지연 시간 기능으로 빠르고 정확한 결과를 보장합니다.

화자 감지

  • 활성화 방법::
    config = aai.TranscriptionConfig(speaker_labels=True)
    transcript = transcriber.transcribe("sample.mp3", config=config)
    for utterance in transcript.utterances:
    print(f"说话人 {utterance.speaker}: {utterance.text}")
    
  • 결과의 예::
    说话人 A: 你好,今天会议几点?
    说话人 B: 下午两点。
    
  • STH에 주목하세요.Universal-2는 여러 사람이 대화할 때 더 일관성 있게 작동하고 혼란을 줄입니다.

감정 분석

  • 활성화 방법::
    config = aai.TranscriptionConfig(sentiment_analysis=True)
    transcript = transcriber.transcribe("sample.mp3", config=config)
    for result in transcript.sentiment_analysis:
    print(f"文本: {result.text}, 情感: {result.sentiment}")
    
  • 결과의 예::
    文本: 我很喜欢这个产品, 情感: POSITIVE
    文本: 服务有点慢, 情感: NEGATIVE
    

자막 생성

  • 운영 코드::
    transcript = transcriber.transcribe("sample.mp3")
    with open("captions.srt", "w") as f:
    f.write(transcript.export_subtitles_srt())
    
  • 결국: 생성 .srt 파일을 동영상 편집 소프트웨어로 직접 가져올 수 있습니다.

기능: LeMUR 프레임워크

  • 기능 소개LeMUR은 대규모 언어 모델링을 결합하여 전사 결과를 처리합니다(예: 초록 생성).
  • 절차::
    1. 성적증명서 ID를 얻습니다:
      transcript = transcriber.transcribe("sample.mp3")
      transcript_id = transcript.id
      
    2. 요약을 생성합니다:
      from assemblyai import Lemur
      lemur = Lemur(api_key="你的API密钥")
      summary = lemur.summarize(transcript_id)
      print(summary.response)
      
    3. 샘플 출력: "회의에서 프로젝트 진행 상황이 논의되었으며 다음 주에 완료될 예정입니다."

주의

  • 지원되는 형식MP3, WAV 등 33개의 오디오/비디오 형식과 호환됩니다.
  • 언어 설정99개 이상의 언어가 지원되며 다음을 통해 액세스할 수 있습니다. language_code="zh" 중국어를 지정합니다.
  • 청구오디오 시간당 요금이 청구되며, 가격은 공식 웹사이트를 참조하세요.

다음 단계를 수행하면 Universal-2의 강력한 기능을 최대한 활용하여 효율적인 음성 애플리케이션을 구축할 수 있습니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...