Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜
Total de 45 artigos

Tags: ai speech to text

Meeting:本地实时转录和生成会议纪要的开源客户端-首席AI分享圈

Reunião: transcrição local em tempo real e geração de atas de reunião do cliente de código aberto

Introdução geral O Meeting Minutes (também conhecido como Meetily) é uma ferramenta gratuita e de código aberto de assistente de reuniões com IA, desenvolvida pela Zackriya Solutions, que se concentra na captura de áudio de reuniões em tempo real, na geração de texto transcrito e na extração automática de resumos de reuniões. A ferramenta é executada inteiramente em dispositivos nativos e é compatível com o macOS ...

Local-NotebookLM:本地PDF生成语音播客的开源工具-首席AI分享圈

Local-NotebookLM: PDF local para gerar podcasts de voz de ferramentas de código aberto

Introdução geral O Local-NotebookLM é um projeto de código aberto que visa a fornecer ferramentas inteligentes de processamento de documentos e geração de conteúdo executadas localmente. Ele é inspirado no Google NotebookLM, com foco em ajudar os usuários a transformar PDFs e outros documentos em uma variedade de formatos de saída, como podcasts, entrevistas ou palestras etc., ao mesmo tempo em que oferece suporte ...

AssemblyAI:高精度语音转文字与音频智能分析平台-首席AI分享圈

AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão

Introdução geral A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é o modelo de fala mais avançado da AssemblyAI...

FireRedASR:多语言高精度语音识别开源模型-首席AI分享圈

FireRedASR: um modelo de código aberto para reconhecimento de fala multilíngue de alta precisão

Introdução abrangente O FireRedASR é um modelo de reconhecimento de fala desenvolvido e de código aberto pela equipe do Little Red Book FireRed, com foco no fornecimento de soluções de reconhecimento automático de fala (ASR) de alta precisão e com suporte a vários idiomas. O projeto está hospedado no GitHub para desenvolvedores e pesquisadores, oferece um design de nível industrial e é compatível com mandarim, chinês...

WhisperChain:实时语音转文字并优化口语化词语-首席AI分享圈

WhisperChain: conversão de voz em texto em tempo real e otimização de palavras faladas

Introdução geral O WhisperChain é um projeto de código aberto baseado em IA hospedado no GitHub e liderado pelo desenvolvedor Chris Choy. Ele é usado principalmente para converter a fala em texto e otimizar automaticamente a expressão por meio da tecnologia de IA, removendo palavras coloquiais redundantes (por exemplo, palavras de preenchimento como "ah", "hmm" etc.)...

LLPlayer:生成实时字幕并双语翻译的视频播放器-首席AI分享圈

LLPlayer: reprodutor de vídeo que gera legendas em tempo real com tradução bilíngue

Introdução geral O LLPlayer é um reprodutor de mídia de código aberto projetado para alunos de idiomas, hospedado no GitHub e criado pelo desenvolvedor umlx5h. Ele integra uma variedade de recursos úteis, como exibição de legendas bilíngues, legendas geradas automaticamente por IA, tradução em tempo real e pesquisa de palavras etc. Ele foi projetado para ajudar os usuários a assistir a vídeos...

CapsWriter-Offline:PC端的语音输入和字幕转录工具-首席AI分享圈

CapsWriter-Offline: ferramenta de entrada de fala e transcrição de legendas para PC

Introdução geral O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para converter fala em texto e arquivos de áudio/vídeo em legendas, além de oferecer suporte à gravação ilimitada...

Whisper Input:利用Groq免费且高速的语音转录文本服务-首席AI分享圈

Whisper Input: um serviço de transcrição de voz para texto gratuito e de alta velocidade que usa o Groq

O Whisper Input é uma ferramenta de transcrição de fala de código aberto que permite que os usuários comecem a gravar a fala pressionando o botão Option e terminem a gravação levantando o botão. A ferramenta chama o modelo Groq Whisper Large V3 Turbo para tradução de fala e pode fornecer feedback rápido em 1-2 segundos...

LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言-首席AI分享圈

LiberSonora: extração de legendas de audiolivros e tradução multilíngue, transcrição de audiolivros em vários idiomas

Introdução geral O LiberSonora, que significa "som livre", é um poderoso conjunto de ferramentas de audiolivro de código aberto habilitado para IA que oferece suporte à extração inteligente de legendas, geração de títulos com IA e outros recursos. Ele oferece suporte à extração inteligente de legendas, geração de títulos com IA, tradução em vários idiomas etc., e é capaz de processar off-line em lote com aceleração de GPU.

AudioNotes:快速提取音视频内容并生成结构化笔记-首席AI分享圈

AudioNotes: extraia rapidamente o conteúdo de áudio e vídeo e gere notas estruturadas

O AudioNotes é um sistema de notas estruturadas de áudio/vídeo baseado no FunASR e no Qwen2. Ele pode extrair rapidamente o conteúdo de áudio e vídeo e chamar o grande modelo de organização para gerar notas estruturadas em Markdown, o que é conveniente para os usuários lerem e encontrarem informações rapidamente. O sistema é compatível com vários ...

Orate:集成知名语音生成、语音转录与变声模型的统一API-首席AI分享圈

Orate: uma API unificada para integrar a geração de fala, a transcrição de fala e a modelagem de voz do Well-Known

Descrição geral O Orate é um kit de ferramentas de IA voltado para a geração e transcrição de fala. Ele fornece uma API unificada que se integra perfeitamente aos principais provedores de IA, como OpenAI, ElevenLabs e AssemblyAI, para ajudar os usuários a criar uma fala realista e semelhante à humana e transcrever áudio em texto.

PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具-首席AI分享圈

PengChengStarling: ferramenta de conversão de fala em texto multilíngue menor e mais rápida que o Whisper-Large v3

Introdução abrangente O PengChengStarling (PengCheng Labs) é uma ferramenta de reconhecimento automático de fala (ASR) multilíngue capaz de converter a fala em diferentes idiomas em texto correspondente. Esse kit de ferramentas foi desenvolvido com base no projeto icefall e oferece um processo completo de reconhecimento de fala, incluindo processamento de dados, treinamento de modelos,...

RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别-首席AI分享圈

RealtimeSTT: ferramenta de conversão de fala em texto em tempo real para reconhecimento de fala em streaming de baixa latência com base no Whisper

Introdução geral O RealtimeSTT é uma biblioteca de conversão de fala em texto eficiente, de baixa latência e em tempo real, com detecção avançada de atividade de fala e ativação de palavras de alerta. Ela foi desenvolvida por Kolja Beigel para dar suporte a aplicativos que exigem conversão rápida e precisa de fala para texto. Quer você seja um assistente de voz ou precise encontrar...

Sherpa-ONNX:使用ONNXRuntime实现离线语音识别和合成-首席AI分享圈

Sherpa-ONNX: reconhecimento e síntese de fala off-line com o ONNXRuntime

Introdução geral O sherpa-onnx é um projeto de código aberto desenvolvido pela equipe do Next-gen Kaldi para fornecer soluções eficientes de reconhecimento e síntese de fala off-line. Ele é compatível com uma variedade de plataformas, incluindo Android, iOS, Raspberry Pi etc., e pode ser usado na ausência de conectividade de rede em tempo real...

Acoust:在线AI语音生成和文本转语音(TTS)服务平台-首席AI分享圈

Acoust: plataformas de serviços de geração de fala com IA on-line e de conversão de texto em fala (TTS)

A Acoust é uma plataforma on-line de geração de voz com IA e de serviços de conversão de texto em fala (TTS) que usa a mais recente tecnologia de IA para gerar fala realista. A plataforma também oferece ferramentas avançadas de edição de vídeo que permitem aos usuários criar vídeos sem a necessidade de usar vários softwares.

Notta:AI会议记录与音频转录工具,自动转录会议、采访或录音-首席AI分享圈

Notta: ferramenta de transcrição de áudio e gravação de reuniões com IA para transcrever automaticamente reuniões, entrevistas ou gravações

Introdução geral O Notta é uma poderosa ferramenta de transcrição de áudio e gravação de reuniões com IA projetada para ajudar os usuários a converter automaticamente reuniões, entrevistas ou gravações de áudio em texto pesquisável. Com o Notta, os usuários podem facilmente transcrever, editar, resumir e colaborar para aumentar a produtividade.O Notta suporta transcrição em 58 idiomas...

AI no jimaku gumi: geração e tradução automáticas de legendas multilíngues para vídeos com a ajuda da IA

Introdução abrangente O AI no jimaku gumi (AI no subtitle group) é uma poderosa ferramenta de processamento de legendas de vídeo em linha de comando, cujo foco é permitir funções automatizadas de extração, transcrição e tradução de legendas de vídeo. A ferramenta integra tecnologias avançadas de IA, incluindo o modelo de reconhecimento de fala Whisper e uma variedade de back-ends de tradução (como o Dee...

FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪-首席AI分享圈

FunClip: edição inteligente de conteúdo de vídeo em curtas-metragens, fácil de obter extração/corte precisos de clipes de vídeo

Introdução abrangente O FunClip é uma ferramenta de edição de vídeo automatizada, localizada e de código aberto, desenvolvida pelo TONGYI Speech Lab do Alibaba Dharma Institute. A ferramenta integra o modelo de reconhecimento de fala Paraformer-Large de nível industrial, que pode reconhecer com precisão o conteúdo da fala em vídeos e convertê-lo em texto. Recursos especiais...

pt_BRPortuguês do Brasil