Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão

Introdução geral

A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de áudio e de fala para texto. O principal destaque é a série de modelos Universal, especialmente o recém-lançado Universal-2, que é o modelo de fala para texto mais avançado da AssemblyAI até o momento. O universal-2 baseia-se no Universal-1, com mais de 12,5 milhões de horas de dados de treinamento de áudio multilíngue, e é capaz de capturar com precisão a complexidade de conversas reais e fornecer dados de áudio altamente precisos. O Universal-2 baseia-se no Universal-1 com mais de 12,5 milhões de horas de dados de treinamento de áudio multilíngue para capturar com precisão a complexidade do diálogo real e fornecer dados de áudio altamente precisos. Em comparação com o Universal-1, o Universal-2 melhora 241 TP3T no reconhecimento de nomes próprios (por exemplo, nomes, marcas), 211 TP3T em conteúdo numérico-alfabético misto (por exemplo, números de telefone, caixas de correio) e 151 TP3T na formatação de texto (por exemplo, pontuação, letras maiúsculas), reduzindo significativamente a precisão da "última milha" do modelo tradicional. "O AssemblyAI abre essas tecnologias de ponta para usuários globais por meio de APIs fáceis de usar e tem sido usado pelo Spotify, Fireflies e outras empresas para criar produtos de fala inteligentes que abrangem áreas como gravação de reuniões e análise de conteúdo.

AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão-1


 

Lista de funções

  • conversão de voz em textoConverta arquivos de áudio ou fluxos de áudio ao vivo em texto de alta precisão, com suporte a vários idiomas e formatos de áudio.
  • Detecção de alto-falanteIdentificação automática de diferentes alto-falantes no áudio para cenários de diálogo com várias pessoas.
  • Análise de sentimentoAnálise de tendências emocionais na fala, como positivas, negativas ou neutras, para aprimorar a experiência do usuário.
  • transcrição em tempo realFuncionalidade de fala para texto em tempo real de baixa latência, adequada para agentes de voz ou legendas ao vivo.
  • Modelagem de inteligência de áudioInclui recursos avançados, como revisão de conteúdo, detecção de tópicos, pesquisa de palavras-chave e muito mais.
  • Estrutura LeMURProcessamento de texto transcrito usando um modelo de linguagem em grande escala, com suporte para geração de resumo, perguntas e respostas e muito mais.
  • Geração de subtítulosSuporte à exportação de arquivos de legenda no formato SRT ou VTT para facilitar a criação de conteúdo de vídeo.
  • Privacidade de PIIIdentificação e bloqueio automático de informações confidenciais no áudio, como nomes ou números de telefone.

 

Usando a Ajuda

O AssemblyAI é um serviço de API baseado em nuvem que não requer instalação local para usar seus recursos avançados. Aqui está um guia detalhado para ajudá-lo a começar e a se aprofundar em seus recursos.

Registro e obtenção de chaves de API

  1. Visite o site oficialAbra seu navegador e digite https://www.assemblyai.com/Vá para a página inicial.
  2. Registrar uma contaClique em "Sign Up" (Registrar-se) no canto superior direito e digite seu e-mail e senha para concluir o registro. Depois de se registrar, você entrará automaticamente no Dashboard.
  3. Obter a chaveChave de API: Localize a área "Chave de API" no painel e clique em "Copiar" para copiar a chave. Essa é a única credencial para chamar a API e deve ser mantida em segurança.
  4. Avaliação gratuitaCrédito gratuito para novos usuários, sem necessidade de vincular métodos de pagamento imediatamente.

Operação da função principal

O núcleo do AssemblyAI é a integração de sua API, e o seguinte é um exemplo de como usar a família de modelos Universal em Python. Você também pode usar outras linguagens (por exemplo, Java, Node.js) consultando a documentação no site.

Conversão de fala em texto (Universal-2)

  • preliminarVerifique se há um arquivo de áudio (por exemplo sample.mp3) ou link de URL.
  • Instalação do SDKExecuta no terminal:
pip install assemblyai
  • exemplo de código::
importar assemblyai como aai
aai.settings.api_key = "sua chave de API" # Substitua por sua chave
transcriber = aai.Transcriber()
transcript = transcriber.transcribe("sample.mp3")
print(transcript.text) # Texto de saída, como "It's a beautiful day".
  • Pontos fortes da Universal-2Universal-2: Por padrão, é usado o modelo Universal-2, que reconhece nomes próprios (por exemplo, "Zhang Wei") e números formatados (por exemplo, "6 March 2025") com mais precisão do que o Universal-1, geralmente em questão de segundos. O tempo de processamento geralmente é de apenas alguns segundos.

transcrição em tempo real

  • Cenários aplicáveisTransmissão ao vivo, teleconferência e outras necessidades em tempo real.
  • exemplo de código::
    from assemblyai import RealtimeTranscriber
    import asyncio
    async def on_data(data).
    print(data.text) # saída de texto em tempo real
    transcriber = RealtimeTranscriber(
    api_key="Sua chave de API",
    sample_rate=16000, on_data=on_data
    on_data=on_data
    )
    async def start():
    await transcriber.connect()
    await transcriber.stream() # começa a receber fluxos de áudio
    asyncio.run(start())
    
  • fluxo de trabalhoO recurso de baixa latência do Universal-2 garante resultados rápidos e precisos.

Detecção de alto-falante

  • Método de ativação::
    config = aai.TranscriptionConfig(speaker_labels=True)
    transcrição = transcriber.transcribe("sample.mp3", config=config)
    for utterance in transcript.
    print(f "locutor {utterance.speaker}: {utterance.text}")
    
  • Exemplos de resultados::
    Orador A: Olá, a que horas é a reunião de hoje?
    Orador B: Às duas horas da tarde.
    
  • chamar a atenção para algoUniversal-2: o Universal-2 tem um desempenho mais consistente em conversas com várias pessoas e reduz a confusão.

Análise de sentimento

  • Método de ativação::
    config = aai.TranscriptionConfig(sentiment_analysis=True)
    transcript = transcriber.transcribe("sample.mp3", config=config)
    for result in transcript.sentiment_analysis: print(f "sample.mp3", config=config)
    print(f "Text: {result.text}, sentiment: {result.sentiment}")
    
  • Exemplos de resultados::
    Texto: Eu realmente gosto desse produto, Sentimento: POSITIVO
    Texto: O serviço é um pouco lento, Sentimento: NEGATIVO
    

Geração de subtítulos

  • código operacional::
    transcrição = transcriber.transcribe("sample.mp3")
    with open("captions.srt", "w") as f.
    f.write(transcript.export_subtitles_srt())
    
  • no final: Gerar .srt que pode ser importado diretamente para um software de edição de vídeo.

Recursos: Estrutura LeMUR

  • Introdução à funçãoLeMUR: o LeMUR processa os resultados da transcrição em conjunto com um grande modelo de linguagem, por exemplo, para gerar resumos.
  • procedimento::
    1. Obter um ID de transcrição:
      transcrição = transcriber.transcribe("sample.mp3")
      transcript_id = transcript.id
      
    2. Gerar um resumo:
      from assemblyai import Lemur
      lemur = Lemur(api_key="sua chave de API")
      resumo = lemur.summarise(transcript_id)
      print(summary.response)
      
    3. Exemplo de saída: "O progresso do projeto foi discutido na reunião e está programado para ser concluído na próxima semana."

advertência

  • Formatos suportadosCompatível com 33 formatos de áudio/vídeo, como MP3, WAV, etc.
  • Configurações de idioma: Mais de 99 idiomas são suportados e podem ser acessados por meio de código_idioma="zh" Especifique o chinês.
  • faturamentoCobrado por hora de áudio, consulte o site oficial para obter os preços.

Seguindo essas etapas, você poderá aproveitar ao máximo os recursos avançados do Universal-2 para criar aplicativos de voz eficientes.

CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil