Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife
Total de 52 artigos

Tags: ai speech to text

实时语音转文字的开源工具-首席AI分享圈

Ferramenta de código aberto para conversão de fala em texto em tempo real

Introdução geral O realtime-transcription-fastrtc é um projeto de código aberto que se concentra na conversão de fala em texto em tempo real. Ele usa a tecnologia FastRTC para processar fluxos de áudio de baixa latência, combinada com modelos nativos do Whisper para um reconhecimento de fala eficiente. O projeto é mantido pelo desenvolvedor sofi444 e hospedado no G...

Transkriptor:将音频和视频转为文字的AI智能转录工具-首席AI分享圈

Transkriptor: a ferramenta de transcrição inteligente de IA que transforma áudio e vídeo em texto

Introdução geral O Transkriptor é uma ferramenta de transcrição orientada por IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 100 idiomas com uma taxa de precisão de até 99% e é adequado para uma ampla variedade de cenários, como reuniões, entrevistas, anotações em sala de aula e muito mais. Os usuários podem fazer upload de arquivos, gravar diretamente ou transcrever por meio de links...

Otter.ai:智能会议助手与实时语音转录工具-首席AI分享圈

Otter.ai: assistente de reunião inteligente com ferramenta de transcrição de voz em tempo real

Introdução geral O Otter.ai é uma ferramenta de transcrição de voz e gerenciamento de reuniões com tecnologia de IA, com funcionalidade central para converter voz em texto em tempo real e gerar automaticamente notas de reunião, resumos e itens de ação. Ele oferece suporte inteligente por meio do AI Meeting Agent, que pode participar automaticamente de reuniões como Zoom, Google Meet...

TurboScribe:快速将音频和视频转为文字的在线工具-首席AI分享圈

TurboScribe: a ferramenta on-line para conversão rápida de áudio e vídeo em texto

Descrição geral O TurboScribe é uma ferramenta de transcrição baseada em IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 98 idiomas com uma taxa de precisão de 99,8%, adequado para usuários que precisam processar conteúdo de voz com eficiência. Os usuários podem fazer upload de arquivos para gerar transcrições ou legendas com uma simples...

Dolphin:面向亚洲语言识别与语音转文本模型-首席AI分享圈

Dolphin: reconhecimento de idiomas asiáticos e modelagem de fala para texto para idiomas asiáticos

Introdução abrangente O Dolphin é um modelo de código aberto desenvolvido pela DataoceanAI em colaboração com a Universidade de Tsinghua, com foco no reconhecimento de fala e de idioma para idiomas asiáticos. Ele é compatível com 40 idiomas do Leste Asiático, do Sul da Ásia, do Sudeste Asiático e do Oriente Médio, além de 22 dialetos chineses. O modelo é baseado em mais de 210.000 horas de...

TwinMind:免费离线语音转录文字的APP-首席AI分享圈

TwinMind: aplicativo gratuito de transcrição de voz para texto off-line

O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "ajuda você a se lembrar de tudo". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinM...

Meeting:本地实时转录和生成会议纪要的开源客户端-首席AI分享圈

Reunião: transcrição local em tempo real e geração de atas de reunião do cliente de código aberto

Introdução geral O Meeting Minutes (também conhecido como Meetily) é uma ferramenta gratuita e de código aberto de assistente de reuniões com IA, desenvolvida pela Zackriya Solutions, que se concentra na captura de áudio de reuniões em tempo real, na geração de texto transcrito e na extração automática de resumos de reuniões. A ferramenta é executada inteiramente em dispositivos nativos e é compatível com o macOS ...

Local-NotebookLM:本地PDF生成语音播客的开源工具-首席AI分享圈

Local-NotebookLM: PDF local para gerar podcasts de voz de ferramentas de código aberto

Introdução geral O Local-NotebookLM é um projeto de código aberto que visa a fornecer ferramentas inteligentes de processamento de documentos e geração de conteúdo executadas localmente. Ele é inspirado no Google NotebookLM, com foco em ajudar os usuários a transformar PDFs e outros documentos em uma variedade de formatos de saída, como podcasts, entrevistas ou palestras etc., ao mesmo tempo em que oferece suporte ...

AssemblyAI:高精度语音转文字与音频智能分析平台-首席AI分享圈

AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão

Introdução geral A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é o modelo de fala mais avançado da AssemblyAI...

FireRedASR:多语言高精度语音识别开源模型-首席AI分享圈

FireRedASR: um modelo de código aberto para reconhecimento de fala multilíngue de alta precisão

Introdução abrangente O FireRedASR é um modelo de reconhecimento de fala desenvolvido e de código aberto pela equipe do Little Red Book FireRed, com foco no fornecimento de soluções de reconhecimento automático de fala (ASR) de alta precisão e com suporte a vários idiomas. O projeto está hospedado no GitHub para desenvolvedores e pesquisadores, oferece um design de nível industrial e é compatível com mandarim, chinês...

WhisperChain:实时语音转文字并优化口语化词语-首席AI分享圈

WhisperChain: conversão de voz em texto em tempo real e otimização de palavras faladas

Introdução geral O WhisperChain é um projeto de código aberto baseado em IA hospedado no GitHub e liderado pelo desenvolvedor Chris Choy. Ele é usado principalmente para converter a fala em texto e otimizar automaticamente a expressão por meio da tecnologia de IA, removendo palavras coloquiais redundantes (por exemplo, palavras de preenchimento como "ah", "hmm" etc.)...

LLPlayer:生成实时字幕并双语翻译的视频播放器-首席AI分享圈

LLPlayer: reprodutor de vídeo que gera legendas em tempo real com tradução bilíngue

Introdução geral O LLPlayer é um reprodutor de mídia de código aberto projetado para alunos de idiomas, hospedado no GitHub e criado pelo desenvolvedor umlx5h. Ele integra uma variedade de recursos úteis, como exibição de legendas bilíngues, legendas geradas automaticamente por IA, tradução em tempo real e pesquisa de palavras etc. Ele foi projetado para ajudar os usuários a assistir a vídeos...

CapsWriter-Offline:PC端的语音输入和字幕转录工具-首席AI分享圈

CapsWriter-Offline: ferramenta de entrada de fala e transcrição de legendas para PC

Introdução geral O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para converter fala em texto e arquivos de áudio/vídeo em legendas, além de oferecer suporte à gravação ilimitada...

Whisper Input:利用Groq免费且高速的语音转录文本服务-首席AI分享圈

Whisper Input: um serviço de transcrição de voz para texto gratuito e de alta velocidade que usa o Groq

O Whisper Input é uma ferramenta de transcrição de fala de código aberto que permite que os usuários comecem a gravar a fala pressionando o botão Option e terminem a gravação levantando o botão. A ferramenta chama o modelo Groq Whisper Large V3 Turbo para tradução de fala e pode fornecer feedback rápido em 1-2 segundos...

LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言-首席AI分享圈

LiberSonora: extração de legendas de audiolivros e tradução multilíngue, transcrição de audiolivros em vários idiomas

Introdução geral O LiberSonora, que significa "som livre", é um poderoso conjunto de ferramentas de audiolivro de código aberto habilitado para IA que oferece suporte à extração inteligente de legendas, geração de títulos com IA e outros recursos. Ele oferece suporte à extração inteligente de legendas, geração de títulos com IA, tradução em vários idiomas etc., e é capaz de processar off-line em lote com aceleração de GPU.

AudioNotes:快速提取音视频内容并生成结构化笔记-首席AI分享圈

AudioNotes: extraia rapidamente o conteúdo de áudio e vídeo e gere notas estruturadas

O AudioNotes é um sistema de notas estruturadas de áudio/vídeo baseado no FunASR e no Qwen2. Ele pode extrair rapidamente o conteúdo de áudio e vídeo e chamar o grande modelo de organização para gerar notas estruturadas em Markdown, o que é conveniente para os usuários lerem e encontrarem informações rapidamente. O sistema é compatível com vários ...

Orate:集成知名语音生成、语音转录与变声模型的统一API-首席AI分享圈

Orate: uma API unificada para integrar a geração de fala, a transcrição de fala e a modelagem de voz do Well-Known

Descrição geral O Orate é um kit de ferramentas de IA voltado para a geração e transcrição de fala. Ele fornece uma API unificada que se integra perfeitamente aos principais provedores de IA, como OpenAI, ElevenLabs e AssemblyAI, para ajudar os usuários a criar uma fala realista e semelhante à humana e transcrever áudio em texto.

pt_BRPortuguês do Brasil