Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Morphik Core: uma plataforma RAG de código aberto para processamento de dados multimodais

Introdução geral

O Morphik Core é um projeto de código aberto desenvolvido pela equipe morphik-org e hospedado no GitHub. Essa ferramenta é um banco de dados projetado para aplicativos de IA que podem lidar com uma ampla variedade de dados, como texto, imagens, PDFs, vídeos etc. Ela oferece a poderosa funcionalidade RAG (Retrieval Augmented Generation) para ajudar os usuários a recuperar e gerar informações rapidamente. O Morphik Core oferece recursos poderosos de RAG (Retrieval Augmented Generation) para ajudar os usuários a recuperar e gerar informações rapidamente. O Morphik Core oferece suporte ao processamento de dados em larga escala e pode gerenciar milhões de documentos, mantendo a recuperação rápida. O Morphik Core é compatível com o processamento de dados em grande escala e pode gerenciar milhões de documentos, mantendo a recuperação rápida. Atualmente, ele está em desenvolvimento e planeja lançar um serviço hospedado no qual os usuários podem entrar em uma lista de espera.

Morphik Core: uma plataforma RAG de código aberto para processamento de dados multimodais-1


 

Lista de funções

  • Suporte a dados multimodais: pode lidar com texto, PDF, imagens, vídeo e outros formatos.
  • Análise inteligente de arquivos: divide automaticamente os arquivos em partes menores e gera incorporação.
  • Incorporação multimodal ColPali: combinação de conteúdo de texto e imagem para recuperação eficiente.
  • Suporte a gráficos de conhecimento: extraia automaticamente entidades e relacionamentos para aprimorar os resultados da recuperação.
  • Regras de linguagem natural: definição de regras para dados desordenados para extrair informações estruturadas.
  • Cache eficiente: pré-processamento de dados para reduzir os custos computacionais e acelerar a resposta.
  • Arquitetura extensível: suporte para analisadores personalizados e vários métodos de armazenamento.
  • MCP Protocolos: facilitam o compartilhamento de conhecimento com sistemas de IA.

 

Usando a Ajuda

O Morphik Core é uma ferramenta para que os desenvolvedores obtenham o código e o utilizem principalmente por meio do GitHub. Abaixo está um guia detalhado de instalação e operação para ajudá-lo a começar rapidamente.

Processo de instalação

Para começar a usar o Morphik Core, você precisa baixar o código do GitHub e configurar seu ambiente. As etapas são as seguintes:

  1. armazém de clones
    Digite o comando no terminal para fazer o download do projeto:
git clone https://github.com/morphik-org/morphik-core.git

Em seguida, vá para o diretório do projeto:

cd morphik-core
  1. Criação de um ambiente virtual
    Crie um ambiente autônomo com o Python 3.12 para evitar conflitos de dependência:
python3.12 -m venv .venv

Ativar o ambiente:

  • Linux/macOS:
    source .venv/bin/activate
    
  • Windows:
    .venv\Scripts\activate
    
  1. Instalação de dependências
    Os projetos são requirements.txt para instalar os pacotes necessários:
pip install -r requirements.txt

Se estiverem faltando arquivos, verifique o LEIAME do GitHub para obter as dependências mais recentes.

  1. Início dos serviços
    Configure e execute o servidor:
python quick_setup.py
python start_server.py

Após a conclusão, o serviço será localhost:8000 Em execução.

Funções principais

No centro do Morphik Core está a capacidade de processar dados multimodais e fornecer RAG Função. Veja como fazer isso:

1. importação de dados

Você pode importar texto ou arquivos usando o Python SDK. Por exemplo, importe um trecho de texto:

from databridge import DataBridge
db = DataBridge("databridge://localhost:8000")
doc = db.ingest_text("这是关于AI技术的示例文档。", metadata={"category": "tech"})
  • Instruções de operaçãoApós a conexão com o servidor, importe o texto e adicione metadados.
  • no finalO texto é processado e armazenado para recuperação.

Importar arquivos PDF:

doc = db.ingest_file("path/to/document.pdf", metadata={"category": "research"})
  • funcionalidadeSuporte para PDF, vídeo e outros formatos, com análise automática de conteúdo.

2. pesquisa multimodal (ColPali)

O Morphik Core usa o ColPali para processar documentos que contêm imagens. Exemplo:

doc = db.ingest_file("report_with_charts.pdf", use_colpali=True)
chunks = db.retrieve_chunks("显示第二季度收入图表", use_colpali=True, k=3)
  • moverColPali: ativa o ColPali ao importar arquivos e retorna texto e imagens ao recuperá-los.
  • efeitoVocê pode encontrar o conteúdo de um gráfico ou imagem diretamente.

3. definição de regras

As regras podem ser definidas em linguagem natural para extrair informações:

rules = [
{"type": "metadata_extraction", "schema": {"title": "string", "author": "string"}},
{"type": "natural_language", "prompt": "删除所有个人信息"}
]
doc = db.ingest_file("document.pdf", rules=rules)
  • corresponde ao inglês -ity, -ism, -izationExtraia títulos e autores de arquivos ou limpe dados sob demanda.
  • sugestãoRegras de adaptação: As regras devem ser adaptadas ao conteúdo do documento.

4. mapeamento do conhecimento

Criar e usar gráficos de conhecimento para aprimorar a recuperação:

db.create_graph("tech_graph", filters={"category": "tech"})
response = db.query("AI如何与云计算相关?", graph_name="tech_graph", hop_depth=2)
  • equipamentoApós gerar um mapa, a consulta retorna as informações associadas.
  • de pontaResultados: os resultados são mais precisos e adequados para problemas complexos.

5. processamento em lote

Suporta a importação em lote de arquivos em pastas:

docs = db.ingest_directory("data/documents", recursive=True, pattern="*.pdf")
  • funcionalidadeDigitalização recursiva do catálogo e importação de todos os PDFs: digitalização recursiva do catálogo e importação de todos os PDFs.
  • tomarAdequado para processar grandes quantidades de dados.

Operação da função em destaque

Os destaques do Morphik Core são o suporte multimodal e a eficiência. Aqui está uma descrição detalhada:

Incorporação multimodal ColPali

O ColPali permite que o texto e as imagens trabalhem juntos. Por exemplo:

db.ingest_file("report.pdf", use_colpali=True)
chunks = db.retrieve_chunks("查找2024年的销售数据图", use_colpali=True)
  • efeitoNão apenas retorna texto, mas também encontra gráficos.
  • usoAnálise de documentos com conteúdo visual: analise documentos com conteúdo visual.

Cache eficiente

Pré-processe os dados para obter uma recuperação mais rápida:

db.cache_documents(filters={"category": "research"})
chunks = db.retrieve_chunks("AI最新进展", k=5)
  • milhagem: Tempos de resposta mais curtos e custos computacionais mais baixos 80%.
  • tomar nota deO cache ocupa espaço e é limpo regularmente.

escalabilidade

Conecte-se a bancos de dados e processe dados em grande escala:

db.connect_storage("postgresql://user:password@localhost:5432/dbname")
docs = db.ingest_directory("large_data")
  • apoiar algoGerencie milhões de documentos com o PostgreSQL ou o MongoDB.
  • tempoTempo de recuperação: Os tempos de recuperação permanecem em segundos.

advertência

  • Antes de usá-lo pela primeira vez, leia a seção README.md e documentação oficial.
  • Certifique-se de que a versão do Python seja a 3.12 e que as dependências estejam instaladas corretamente.
  • As perguntas podem ser enviadas como problemas no Discord (https://discord.gg/BwMtv3Zaju) ou no GitHub.

Com essas etapas, você pode instalar e usar facilmente o Morphik Core para lidar com uma variedade de necessidades de dados.

 

cenário do aplicativo

  1. Gerenciamento de artigos de pesquisa
    O pesquisador importa o PDF do artigo, extrai o título e o resumo usando regras, gera um gráfico de conhecimento e encontra rapidamente pesquisas relacionadas.
  2. Análise de dados corporativos
    A empresa processa relatórios e contratos, recupera gráficos e textos com o ColPali e armazena dados em cache para aumentar a eficiência.
  3. Coleta de recursos educacionais
    Os professores importam livros didáticos e vídeos, definem regras para extrair pontos-chave e os alunos podem consultar o conteúdo do curso.

 

QA

  1. O Morphik Core cobra alguma taxa?
    Sem custo, é um projeto de código aberto licenciado pelo MIT e de uso gratuito.
  2. Precisa de um servidor?
    Sim, a auto-hospedagem requer um servidor executado localmente, e haverá opções de hospedagem na nuvem no futuro.
  3. Ele é compatível com vídeo?
    Suporte que analisa vídeos e extrai texto e conteúdo.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Morphik Core: uma plataforma RAG de código aberto para processamento de dados multimodais
pt_BRPortuguês do Brasil