Introdução geral
A Supametas.AI é uma plataforma de processamento de dados especializada em organizar a confusão de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ela é compatível com a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc., e, em seguida, a saída em formato JSON ou Markdown. A plataforma não requer experiência em programação, portanto, pessoas comuns podem começar a usá-la rapidamente. Sua principal vantagem é que ela reduz o tempo de processamento de dados, que tradicionalmente leva meses, para 30 minutos, o que a torna particularmente adequada para empresas e desenvolvedores criarem bases de conhecimento de IA (LLM RAGs.) A Supametas.AI oferece serviços de nuvem e implementações privadas futuras para atender às necessidades de diferentes usuários.
Lista de funções
- Coleta de dados de várias fontesSuporte à extração de dados de URLs de páginas da Web, interfaces de API e arquivos locais (PDF, Word, imagens, áudio e vídeo).
- Saída estruturadaConverta dados não ordenados em JSON ou Markdown para ajustar modelos de IA.
- Integração da base de conhecimentoDocking para o OpenAI Storage, Dify Datasets ou integração personalizada via API.
- extração de linguagem natural (NLE)Solicitação de campos extraídos em linguagem simples, por exemplo, "Grab title and body".
- Rastreamento complexo da WebPáginas de lista, paginação, páginas de várias camadas e suporte a atualizações cronometradas: tratam automaticamente páginas de lista, paginação, páginas de várias camadas e suporte a atualizações cronometradas.
- Manuseio de arquivos grandesSuporte para arquivos de centenas de MB, como documentos longos ou vídeos em HD.
- Processamento de áudio e vídeoExtrair linha do tempo, legendas, diálogos, etc.
- interface no-codeFácil de operar, sem necessidade de conhecimento técnico.
- privacidade de dadosOferece serviços de nuvem e opções de implementação privada do Docker.
Usando a Ajuda
O Supametas.AI não requer a instalação de software complexo e opera diretamente na Web. Abaixo está uma descrição detalhada de como usar seus principais recursos para ajudar os usuários a começar rapidamente.
Registro e login
- show (um ingresso)
https://supametas.ai/zh
Clique em "Get Started" (Iniciar). - Inscreva-se com seu endereço de e-mail ou escolha uma conta do Google para fazer login.
- Ao se inscrever, você entra em um modo de avaliação gratuita que inclui a funcionalidade básica e alguns recursos.
Coleta e processamento de dados
rastreador da web
- Depois de fazer o login, clique em New Dataset (Novo conjunto de dados).
- Selecione a fonte de dados "URL" e insira a página da Web de destino, por exemplo
https://example.com/blog
. - Define os parâmetros de rastreamento:
- "Depth Value" (Valor de profundidade): defina como 3 para rastrear três níveis de páginas.
- "Loop Time Value": Defina como 24 para atualizações diárias.
- Clique em "Start Processing" (Iniciar processamento) e o sistema extrairá automaticamente o título, o corpo do texto, etc.
- Quando o processo estiver concluído, clique em Exportar e escolha JSON ou Markdown para fazer o download.
Processamento de documentos locais
- Na tela New Dataset (Novo conjunto de dados), selecione Local File (Arquivo local).
- Clique em "Upload File" para arrastar e soltar ou selecionar arquivos.
- Os formatos compatíveis incluem:
- Documentação:
.docx
e.pdf
e.txt
- Foto:
.jpg
e.png
- Áudio e vídeo:
.mp3
e.mp4
e.mov
- Documentação:
- Após o upload, o sistema extrai automaticamente o conteúdo. Por exemplo, o PDF extrai parágrafos e o MP3 transcreve o texto.
- Verifique os resultados e clique em "Export" para salvar.
Extração de dados da API
- Selecione a fonte de dados "API".
- Digite a configuração da API, por exemplo:
{
"contentUrl": "https://api.example.com/data",
"getDemandFormat": "json",
"customKeys": [{"key": "category", "desc": "分类"}]
}
- Clique em "Test" para garantir que os dados sejam retornados corretamente.
- Depois que o teste for aprovado, clique em "Start Processing" (Iniciar processamento) para gerar dados estruturados.
base de conhecimento integrada
- Após processar os dados, clique em Integrate (Integrar).
- Selecione uma plataforma de destino, como o OpenAI Storage ou o Dify Conjuntos de dados.
- Insira a chave de API da plataforma (gerada na plataforma de destino).
- Clique em "Connect" (Conectar) e os dados serão carregados automaticamente.
- Ao personalizar a integração, copie o código da API fornecido pela plataforma para seu projeto.
Definição de tarefas com tempo determinado
- Na página Dataset, clique em Settings (Configurações).
- Selecione Schedule Update e defina-o como Every 24 hours (A cada 24 horas).
- Após salvar, o sistema capturará e processará automaticamente os dados em segundo plano.
Operação da função em destaque
Extração de áudio e vídeo
- carregar
.mp4
Documentação. - O sistema gera uma linha do tempo e um texto de diálogo, como "00:01 - Hello".
- Visualize os resultados e exporte-os, adequados para pessoas digitais ou processamento de dados de podcast.
extração de campos de linguagem natural
- Nas configurações de rastreamento, insira um prompt, como "Extrair título e data do artigo".
- O sistema identifica e agrupa automaticamente os campos com base em avisos.
Manuseio de arquivos grandes
- Faça upload de centenas de MB de PDFs ou vídeos.
- O sistema é processado em segmentos e fornece dados totalmente estruturados após a conclusão.
advertência
- A versão gratuita limita o número de conjuntos de dados e a capacidade de processamento; a atualização da versão paga libera mais recursos.
- Arquivos grandes ou tarefas complexas podem exigir mais tokens, que podem ser vinculados a um modelo externo (por exemplo, OpenAI).
- Você pode visualizar o progresso ou abortar uma tarefa no Gerenciador de tarefas.
- Uma versão de implantação privada (Docker) está sendo desenvolvida para usuários corporativos.
O Supametas.AI tem uma interface fácil de usar com guias para cada etapa. Recomenda-se que você experimente a versão gratuita primeiro e faça o upgrade conforme necessário quando estiver familiarizado com ela.
cenário do aplicativo
- Construção de base de conhecimento empresarial
As empresas financeiras podem usá-lo para rastrear páginas da Web e PDFs regulatórios, reuni-los em dados estruturados e alimentá-los com IA para análise. - Desenvolvimento humano digital
Faça upload de clipes de áudio e vídeo, extraia diálogos e linhas do tempo e gere um conjunto de dados de treinamento. - Gerenciamento de dados de comércio eletrônico
Capture regularmente listagens e detalhes de produtos, agrupe-os em JSON e otimize a análise de inventário.
QA
- Quais são as limitações da versão gratuita?
A versão gratuita não tem limite de tempo, mas o número de conjuntos de dados e a capacidade de processamento são limitados, o que a torna adequada para testes. - Qual é o tamanho dos arquivos suportados?
Lida com arquivos de centenas de megabytes, como documentos longos ou vídeos em HD. - Como você garante a privacidade dos dados?
Os serviços de nuvem criptografam a transmissão, e o Docker Private Deployment Edition torna os dados totalmente localizados.