Introdução geral O realtime-transcription-fastrtc é um projeto de código aberto que se concentra na conversão de fala em texto em tempo real. Ele usa a tecnologia FastRTC para processar fluxos de áudio de baixa latência, combinada com modelos nativos do Whisper para um reconhecimento de fala eficiente. O projeto é mantido pelo desenvolvedor sofi444 e hospedado no G...
Introdução geral O Transkriptor é uma ferramenta de transcrição orientada por IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 100 idiomas com uma taxa de precisão de até 99% e é adequado para uma ampla variedade de cenários, como reuniões, entrevistas, anotações em sala de aula e muito mais. Os usuários podem fazer upload de arquivos, gravar diretamente ou transcrever por meio de links...
Habilite o modo de programação inteligente Builder, uso ilimitado do DeepSeek-R1 e DeepSeek-V3, experiência mais suave do que a versão internacional. Basta digitar os comandos chineses, sem conhecimento de programação, para escrever seus próprios aplicativos.
Introdução geral O Otter.ai é uma ferramenta de transcrição de voz e gerenciamento de reuniões com tecnologia de IA, com funcionalidade central para converter voz em texto em tempo real e gerar automaticamente notas de reunião, resumos e itens de ação. Ele oferece suporte inteligente por meio do AI Meeting Agent, que pode participar automaticamente de reuniões como Zoom, Google Meet...
Descrição geral O TurboScribe é uma ferramenta de transcrição baseada em IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 98 idiomas com uma taxa de precisão de 99,8%, adequado para usuários que precisam processar conteúdo de voz com eficiência. Os usuários podem fazer upload de arquivos para gerar transcrições ou legendas com uma simples...
Introdução geral O Aqua Voice é uma ferramenta inteligente de geração de texto baseada em fala, focada na conversão rápida da fala do usuário em texto formatado. Foi criada em 2023 por Finnian Brown e Jack McIntire, e está sediada em São Francisco, EUA, no âmbito do programa de incubação Y Combinator W24.
Introdução abrangente O Dolphin é um modelo de código aberto desenvolvido pela DataoceanAI em colaboração com a Universidade de Tsinghua, com foco no reconhecimento de fala e de idioma para idiomas asiáticos. Ele é compatível com 40 idiomas do Leste Asiático, do Sul da Ásia, do Sudeste Asiático e do Oriente Médio, além de 22 dialetos chineses. O modelo é baseado em mais de 210.000 horas de...
O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "ajuda você a se lembrar de tudo". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinM...
Descrição geral O Wispr Flow é uma ferramenta de entrada de texto habilitada para voz que ajuda os usuários a escrever rapidamente em seus computadores. É uma experiência "3x mais rápida do que digitar" que permite aos usuários inserir texto em qualquer aplicativo, como Word, Slack ou Gmail, apenas falando naturalmente.O Wispr Flow suporta 100...
Introdução geral O Meeting Minutes (também conhecido como Meetily) é uma ferramenta gratuita e de código aberto de assistente de reuniões com IA, desenvolvida pela Zackriya Solutions, que se concentra na captura de áudio de reuniões em tempo real, na geração de texto transcrito e na extração automática de resumos de reuniões. A ferramenta é executada inteiramente em dispositivos nativos e é compatível com o macOS ...
Introdução geral O Local-NotebookLM é um projeto de código aberto que visa a fornecer ferramentas inteligentes de processamento de documentos e geração de conteúdo executadas localmente. Ele é inspirado no Google NotebookLM, com foco em ajudar os usuários a transformar PDFs e outros documentos em uma variedade de formatos de saída, como podcasts, entrevistas ou palestras etc., ao mesmo tempo em que oferece suporte ...
Introdução geral A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é o modelo de fala mais avançado da AssemblyAI...
Introdução abrangente O FireRedASR é um modelo de reconhecimento de fala desenvolvido e de código aberto pela equipe do Little Red Book FireRed, com foco no fornecimento de soluções de reconhecimento automático de fala (ASR) de alta precisão e com suporte a vários idiomas. O projeto está hospedado no GitHub para desenvolvedores e pesquisadores, oferece um design de nível industrial e é compatível com mandarim, chinês...
Introdução geral O WhisperChain é um projeto de código aberto baseado em IA hospedado no GitHub e liderado pelo desenvolvedor Chris Choy. Ele é usado principalmente para converter a fala em texto e otimizar automaticamente a expressão por meio da tecnologia de IA, removendo palavras coloquiais redundantes (por exemplo, palavras de preenchimento como "ah", "hmm" etc.)...
Introdução geral O LLPlayer é um reprodutor de mídia de código aberto projetado para alunos de idiomas, hospedado no GitHub e criado pelo desenvolvedor umlx5h. Ele integra uma variedade de recursos úteis, como exibição de legendas bilíngues, legendas geradas automaticamente por IA, tradução em tempo real e pesquisa de palavras etc. Ele foi projetado para ajudar os usuários a assistir a vídeos...
Introdução geral O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para converter fala em texto e arquivos de áudio/vídeo em legendas, além de oferecer suporte à gravação ilimitada...
O Whisper Input é uma ferramenta de transcrição de fala de código aberto que permite que os usuários comecem a gravar a fala pressionando o botão Option e terminem a gravação levantando o botão. A ferramenta chama o modelo Groq Whisper Large V3 Turbo para tradução de fala e pode fornecer feedback rápido em 1-2 segundos...
Introdução geral O LiberSonora, que significa "som livre", é um poderoso conjunto de ferramentas de audiolivro de código aberto habilitado para IA que oferece suporte à extração inteligente de legendas, geração de títulos com IA e outros recursos. Ele oferece suporte à extração inteligente de legendas, geração de títulos com IA, tradução em vários idiomas etc., e é capaz de processar off-line em lote com aceleração de GPU.
O AudioNotes é um sistema de notas estruturadas de áudio/vídeo baseado no FunASR e no Qwen2. Ele pode extrair rapidamente o conteúdo de áudio e vídeo e chamar o grande modelo de organização para gerar notas estruturadas em Markdown, o que é conveniente para os usuários lerem e encontrarem informações rapidamente. O sistema é compatível com vários ...
Descrição geral O Orate é um kit de ferramentas de IA voltado para a geração e transcrição de fala. Ele fornece uma API unificada que se integra perfeitamente aos principais provedores de IA, como OpenAI, ElevenLabs e AssemblyAI, para ajudar os usuários a criar uma fala realista e semelhante à humana e transcrever áudio em texto.
Não consegue encontrar ferramentas de IA? Tente aqui!
Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.