Introdução geral
O Morphik Core é um projeto de código aberto desenvolvido pela equipe morphik-org e hospedado no GitHub. Essa ferramenta é um banco de dados projetado para aplicativos de IA que podem lidar com uma ampla variedade de dados, como texto, imagens, PDFs, vídeos etc. Ela oferece a poderosa funcionalidade RAG (Retrieval Augmented Generation) para ajudar os usuários a recuperar e gerar informações rapidamente. O Morphik Core oferece recursos poderosos de RAG (Retrieval Augmented Generation) para ajudar os usuários a recuperar e gerar informações rapidamente. O Morphik Core oferece suporte ao processamento de dados em larga escala e pode gerenciar milhões de documentos, mantendo a recuperação rápida. O Morphik Core é compatível com o processamento de dados em grande escala e pode gerenciar milhões de documentos, mantendo a recuperação rápida. Atualmente, ele está em desenvolvimento e planeja lançar um serviço hospedado no qual os usuários podem entrar em uma lista de espera.
Lista de funções
- Suporte a dados multimodais: pode lidar com texto, PDF, imagens, vídeo e outros formatos.
- Análise inteligente de arquivos: divide automaticamente os arquivos em partes menores e gera incorporação.
- Incorporação multimodal ColPali: combinação de conteúdo de texto e imagem para recuperação eficiente.
- Suporte a gráficos de conhecimento: extraia automaticamente entidades e relacionamentos para aprimorar os resultados da recuperação.
- Regras de linguagem natural: definição de regras para dados desordenados para extrair informações estruturadas.
- Cache eficiente: pré-processamento de dados para reduzir os custos computacionais e acelerar a resposta.
- Arquitetura extensível: suporte para analisadores personalizados e vários métodos de armazenamento.
- MCP Protocolos: facilitam o compartilhamento de conhecimento com sistemas de IA.
Usando a Ajuda
O Morphik Core é uma ferramenta para que os desenvolvedores obtenham o código e o utilizem principalmente por meio do GitHub. Abaixo está um guia detalhado de instalação e operação para ajudá-lo a começar rapidamente.
Processo de instalação
Para começar a usar o Morphik Core, você precisa baixar o código do GitHub e configurar seu ambiente. As etapas são as seguintes:
- armazém de clones
Digite o comando no terminal para fazer o download do projeto:
git clone https://github.com/morphik-org/morphik-core.git
Em seguida, vá para o diretório do projeto:
cd morphik-core
- Criação de um ambiente virtual
Crie um ambiente autônomo com o Python 3.12 para evitar conflitos de dependência:
python3.12 -m venv .venv
Ativar o ambiente:
- Linux/macOS:
source .venv/bin/activate
- Windows:
.venv\Scripts\activate
- Instalação de dependências
Os projetos sãorequirements.txt
para instalar os pacotes necessários:
pip install -r requirements.txt
Se estiverem faltando arquivos, verifique o LEIAME do GitHub para obter as dependências mais recentes.
- Início dos serviços
Configure e execute o servidor:
python quick_setup.py
python start_server.py
Após a conclusão, o serviço será localhost:8000
Em execução.
Funções principais
No centro do Morphik Core está a capacidade de processar dados multimodais e fornecer RAG Função. Veja como fazer isso:
1. importação de dados
Você pode importar texto ou arquivos usando o Python SDK. Por exemplo, importe um trecho de texto:
from databridge import DataBridge
db = DataBridge("databridge://localhost:8000")
doc = db.ingest_text("这是关于AI技术的示例文档。", metadata={"category": "tech"})
- Instruções de operaçãoApós a conexão com o servidor, importe o texto e adicione metadados.
- no finalO texto é processado e armazenado para recuperação.
Importar arquivos PDF:
doc = db.ingest_file("path/to/document.pdf", metadata={"category": "research"})
- funcionalidadeSuporte para PDF, vídeo e outros formatos, com análise automática de conteúdo.
2. pesquisa multimodal (ColPali)
O Morphik Core usa o ColPali para processar documentos que contêm imagens. Exemplo:
doc = db.ingest_file("report_with_charts.pdf", use_colpali=True)
chunks = db.retrieve_chunks("显示第二季度收入图表", use_colpali=True, k=3)
- moverColPali: ativa o ColPali ao importar arquivos e retorna texto e imagens ao recuperá-los.
- efeitoVocê pode encontrar o conteúdo de um gráfico ou imagem diretamente.
3. definição de regras
As regras podem ser definidas em linguagem natural para extrair informações:
rules = [
{"type": "metadata_extraction", "schema": {"title": "string", "author": "string"}},
{"type": "natural_language", "prompt": "删除所有个人信息"}
]
doc = db.ingest_file("document.pdf", rules=rules)
- corresponde ao inglês -ity, -ism, -izationExtraia títulos e autores de arquivos ou limpe dados sob demanda.
- sugestãoRegras de adaptação: As regras devem ser adaptadas ao conteúdo do documento.
4. mapeamento do conhecimento
Criar e usar gráficos de conhecimento para aprimorar a recuperação:
db.create_graph("tech_graph", filters={"category": "tech"})
response = db.query("AI如何与云计算相关?", graph_name="tech_graph", hop_depth=2)
- equipamentoApós gerar um mapa, a consulta retorna as informações associadas.
- de pontaResultados: os resultados são mais precisos e adequados para problemas complexos.
5. processamento em lote
Suporta a importação em lote de arquivos em pastas:
docs = db.ingest_directory("data/documents", recursive=True, pattern="*.pdf")
- funcionalidadeDigitalização recursiva do catálogo e importação de todos os PDFs: digitalização recursiva do catálogo e importação de todos os PDFs.
- tomarAdequado para processar grandes quantidades de dados.
Operação da função em destaque
Os destaques do Morphik Core são o suporte multimodal e a eficiência. Aqui está uma descrição detalhada:
Incorporação multimodal ColPali
O ColPali permite que o texto e as imagens trabalhem juntos. Por exemplo:
db.ingest_file("report.pdf", use_colpali=True)
chunks = db.retrieve_chunks("查找2024年的销售数据图", use_colpali=True)
- efeitoNão apenas retorna texto, mas também encontra gráficos.
- usoAnálise de documentos com conteúdo visual: analise documentos com conteúdo visual.
Cache eficiente
Pré-processe os dados para obter uma recuperação mais rápida:
db.cache_documents(filters={"category": "research"})
chunks = db.retrieve_chunks("AI最新进展", k=5)
- milhagem: Tempos de resposta mais curtos e custos computacionais mais baixos 80%.
- tomar nota deO cache ocupa espaço e é limpo regularmente.
escalabilidade
Conecte-se a bancos de dados e processe dados em grande escala:
db.connect_storage("postgresql://user:password@localhost:5432/dbname")
docs = db.ingest_directory("large_data")
- apoiar algoGerencie milhões de documentos com o PostgreSQL ou o MongoDB.
- tempoTempo de recuperação: Os tempos de recuperação permanecem em segundos.
advertência
- Antes de usá-lo pela primeira vez, leia a seção
README.md
e documentação oficial. - Certifique-se de que a versão do Python seja a 3.12 e que as dependências estejam instaladas corretamente.
- As perguntas podem ser enviadas como problemas no Discord (https://discord.gg/BwMtv3Zaju) ou no GitHub.
Com essas etapas, você pode instalar e usar facilmente o Morphik Core para lidar com uma variedade de necessidades de dados.
cenário do aplicativo
- Gerenciamento de artigos de pesquisa
O pesquisador importa o PDF do artigo, extrai o título e o resumo usando regras, gera um gráfico de conhecimento e encontra rapidamente pesquisas relacionadas. - Análise de dados corporativos
A empresa processa relatórios e contratos, recupera gráficos e textos com o ColPali e armazena dados em cache para aumentar a eficiência. - Coleta de recursos educacionais
Os professores importam livros didáticos e vídeos, definem regras para extrair pontos-chave e os alunos podem consultar o conteúdo do curso.
QA
- O Morphik Core cobra alguma taxa?
Sem custo, é um projeto de código aberto licenciado pelo MIT e de uso gratuito. - Precisa de um servidor?
Sim, a auto-hospedagem requer um servidor executado localmente, e haverá opções de hospedagem na nuvem no futuro. - Ele é compatível com vídeo?
Suporte que analisa vídeos e extrai texto e conteúdo.