Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM

Introdução geral

A Supametas.AI é uma plataforma de processamento de dados especializada em organizar a confusão de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ela é compatível com a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc., e, em seguida, a saída em formato JSON ou Markdown. A plataforma não requer experiência em programação, portanto, pessoas comuns podem começar a usá-la rapidamente. Sua principal vantagem é que ela reduz o tempo de processamento de dados, que tradicionalmente leva meses, para 30 minutos, o que a torna particularmente adequada para empresas e desenvolvedores criarem bases de conhecimento de IA (LLM RAGs.) A Supametas.AI oferece serviços de nuvem e implementações privadas futuras para atender às necessidades de diferentes usuários.

Supametas.AI:提取非结构化数据为LLM高可用数据-1


 

Lista de funções

  • Coleta de dados de várias fontesSuporte à extração de dados de URLs de páginas da Web, interfaces de API e arquivos locais (PDF, Word, imagens, áudio e vídeo).
  • Saída estruturadaConverta dados não ordenados em JSON ou Markdown para ajustar modelos de IA.
  • Integração da base de conhecimentoDocking para o OpenAI Storage, Dify Datasets ou integração personalizada via API.
  • extração de linguagem natural (NLE)Solicitação de campos extraídos em linguagem simples, por exemplo, "Grab title and body".
  • Rastreamento complexo da WebPáginas de lista, paginação, páginas de várias camadas e suporte a atualizações cronometradas: tratam automaticamente páginas de lista, paginação, páginas de várias camadas e suporte a atualizações cronometradas.
  • Manuseio de arquivos grandesSuporte para arquivos de centenas de MB, como documentos longos ou vídeos em HD.
  • Processamento de áudio e vídeoExtrair linha do tempo, legendas, diálogos, etc.
  • interface no-codeFácil de operar, sem necessidade de conhecimento técnico.
  • privacidade de dadosOferece serviços de nuvem e opções de implementação privada do Docker.

 

Usando a Ajuda

O Supametas.AI não requer a instalação de software complexo e opera diretamente na Web. Abaixo está uma descrição detalhada de como usar seus principais recursos para ajudar os usuários a começar rapidamente.

Registro e login

  1. show (um ingresso) https://supametas.ai/zhClique em "Get Started" (Iniciar).
  2. Inscreva-se com seu endereço de e-mail ou escolha uma conta do Google para fazer login.
  3. Ao se inscrever, você entra em um modo de avaliação gratuita que inclui a funcionalidade básica e alguns recursos.

Coleta e processamento de dados

rastreador da web

  1. Depois de fazer o login, clique em New Dataset (Novo conjunto de dados).
  2. Selecione a fonte de dados "URL" e insira a página da Web de destino, por exemplo https://example.com/blog.
  3. Define os parâmetros de rastreamento:
    • "Depth Value" (Valor de profundidade): defina como 3 para rastrear três níveis de páginas.
    • "Loop Time Value": Defina como 24 para atualizações diárias.
  4. Clique em "Start Processing" (Iniciar processamento) e o sistema extrairá automaticamente o título, o corpo do texto, etc.
  5. Quando o processo estiver concluído, clique em Exportar e escolha JSON ou Markdown para fazer o download.

Processamento de documentos locais

  1. Na tela New Dataset (Novo conjunto de dados), selecione Local File (Arquivo local).
  2. Clique em "Upload File" para arrastar e soltar ou selecionar arquivos.
  3. Os formatos compatíveis incluem:
    • Documentação:.docxe.pdfe.txt
    • Foto:.jpge.png
    • Áudio e vídeo:.mp3e.mp4e.mov
  4. Após o upload, o sistema extrai automaticamente o conteúdo. Por exemplo, o PDF extrai parágrafos e o MP3 transcreve o texto.
  5. Verifique os resultados e clique em "Export" para salvar.

Extração de dados da API

  1. Selecione a fonte de dados "API".
  2. Digite a configuração da API, por exemplo:
{
"contentUrl": "https://api.example.com/data",
"getDemandFormat": "json",
"customKeys": [{"key": "category", "desc": "分类"}]
}
  1. Clique em "Test" para garantir que os dados sejam retornados corretamente.
  2. Depois que o teste for aprovado, clique em "Start Processing" (Iniciar processamento) para gerar dados estruturados.

base de conhecimento integrada

  1. Após processar os dados, clique em Integrate (Integrar).
  2. Selecione uma plataforma de destino, como o OpenAI Storage ou o Dify Conjuntos de dados.
  3. Insira a chave de API da plataforma (gerada na plataforma de destino).
  4. Clique em "Connect" (Conectar) e os dados serão carregados automaticamente.
  5. Ao personalizar a integração, copie o código da API fornecido pela plataforma para seu projeto.

Definição de tarefas com tempo determinado

  1. Na página Dataset, clique em Settings (Configurações).
  2. Selecione Schedule Update e defina-o como Every 24 hours (A cada 24 horas).
  3. Após salvar, o sistema capturará e processará automaticamente os dados em segundo plano.

Operação da função em destaque

Extração de áudio e vídeo

  1. carregar .mp4 Documentação.
  2. O sistema gera uma linha do tempo e um texto de diálogo, como "00:01 - Hello".
  3. Visualize os resultados e exporte-os, adequados para pessoas digitais ou processamento de dados de podcast.

extração de campos de linguagem natural

  1. Nas configurações de rastreamento, insira um prompt, como "Extrair título e data do artigo".
  2. O sistema identifica e agrupa automaticamente os campos com base em avisos.

Manuseio de arquivos grandes

  1. Faça upload de centenas de MB de PDFs ou vídeos.
  2. O sistema é processado em segmentos e fornece dados totalmente estruturados após a conclusão.

advertência

  • A versão gratuita limita o número de conjuntos de dados e a capacidade de processamento; a atualização da versão paga libera mais recursos.
  • Arquivos grandes ou tarefas complexas podem exigir mais tokens, que podem ser vinculados a um modelo externo (por exemplo, OpenAI).
  • Você pode visualizar o progresso ou abortar uma tarefa no Gerenciador de tarefas.
  • Uma versão de implantação privada (Docker) está sendo desenvolvida para usuários corporativos.

O Supametas.AI tem uma interface fácil de usar com guias para cada etapa. Recomenda-se que você experimente a versão gratuita primeiro e faça o upgrade conforme necessário quando estiver familiarizado com ela.

 

cenário do aplicativo

  1. Construção de base de conhecimento empresarial
    As empresas financeiras podem usá-lo para rastrear páginas da Web e PDFs regulatórios, reuni-los em dados estruturados e alimentá-los com IA para análise.
  2. Desenvolvimento humano digital
    Faça upload de clipes de áudio e vídeo, extraia diálogos e linhas do tempo e gere um conjunto de dados de treinamento.
  3. Gerenciamento de dados de comércio eletrônico
    Capture regularmente listagens e detalhes de produtos, agrupe-os em JSON e otimize a análise de inventário.

 

QA

  1. Quais são as limitações da versão gratuita?
    A versão gratuita não tem limite de tempo, mas o número de conjuntos de dados e a capacidade de processamento são limitados, o que a torna adequada para testes.
  2. Qual é o tamanho dos arquivos suportados?
    Lida com arquivos de centenas de megabytes, como documentos longos ou vídeos em HD.
  3. Como você garante a privacidade dos dados?
    Os serviços de nuvem criptografam a transmissão, e o Docker Private Deployment Edition torna os dados totalmente localizados.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM
pt_BRPortuguês do Brasil