Morphik Core: una plataforma RAG de código abierto para el tratamiento de datos multimodales

Introducción general

Morphik Core es un proyecto de código abierto desarrollado por el equipo morphik-org y alojado en GitHub. Antes se llamaba DataBridge Core, pero ahora ha cambiado su nombre a Morphik Core.Esta herramienta es una base de datos diseñada para aplicaciones de IA que puede manejar una amplia variedad de datos como texto, imágenes, PDFs, vídeos, etc. Ofrece potentes funcionalidades RAG (Retrieval Augmented Generation) para ayudar a los usuarios a recuperar y generar información rápidamente. Ofrece potentes funciones RAG (Retrieval Augmented Generation) para ayudar a los usuarios a recuperar y generar información rápidamente.Morphik Core admite el procesamiento de datos a gran escala y puede gestionar millones de documentos manteniendo una rápida recuperación. Tanto si desea probar una nueva idea como crear un entorno de producción, Morphik Core le ofrece todo su apoyo. Actualmente se encuentra en fase de desarrollo y tiene previsto lanzar un servicio alojado en el que los usuarios podrán inscribirse en una lista de espera.

Morphik Core:处理多模态数据的开源 RAG 平台

 

Lista de funciones

  • Compatibilidad con datos multimodales: puede manejar texto, PDF, imágenes, vídeo y otros formatos.
  • Análisis sintáctico inteligente de archivos: divide automáticamente los archivos en trozos más pequeños y genera incrustaciones.
  • Incrustación multimodal ColPali: combinación de contenidos de texto e imagen para una recuperación eficaz.
  • Soporte de grafos de conocimiento: extracción automática de entidades y relaciones para mejorar los resultados de la recuperación.
  • Reglas del lenguaje natural: establecer reglas para datos desordenados con el fin de extraer información estructurada.
  • Almacenamiento eficiente en caché: preprocesamiento de datos para reducir los costes computacionales y acelerar la respuesta.
  • Arquitectura extensible: compatibilidad con analizadores personalizados y múltiples métodos de almacenamiento.
  • MCP Protocolos: facilitan el intercambio de conocimientos con los sistemas de IA.

 

Utilizar la ayuda

Morphik Core es una herramienta para que los desarrolladores obtengan el código y lo utilicen principalmente a través de GitHub. A continuación encontrarás una guía detallada de instalación y funcionamiento que te ayudará a empezar rápidamente.

Proceso de instalación

Para empezar con Morphik Core, necesitas descargar el código de GitHub y configurar tu entorno. Los pasos son los siguientes:

  1. almacén de clones
    Introduzca el comando en el terminal para descargar el proyecto:
git clone https://github.com/morphik-org/morphik-core.git

A continuación, vaya al directorio del proyecto:

cd morphik-core
  1. Creación de un entorno virtual
    Crea un entorno independiente con Python 3.12 para evitar conflictos de dependencias:
python3.12 -m venv .venv

Activar el entorno:

  • Linux/macOS:
    source .venv/bin/activate
    
  • Ventanas:
    .venv\Scripts\activate
    
  1. Instalación de dependencias
    Los proyectos son requirements.txt para instalar los paquetes necesarios:
pip install -r requirements.txt

Si te faltan archivos, consulta el LÉEME de GitHub para ver las últimas dependencias.

  1. Inicio de los servicios
    Configura y ejecuta el servidor:
python quick_setup.py
python start_server.py

Una vez finalizado, el servicio será localhost:8000 Corriendo.

Funciones principales

En el corazón de Morphik Core está la capacidad de procesar datos multimodales y proporcionar RAG Función. He aquí cómo hacerlo:

1. Importación de datos

Puede importar texto o archivos utilizando el SDK de Python. Por ejemplo, importar un trozo de texto:

from databridge import DataBridge
db = DataBridge("databridge://localhost:8000")
doc = db.ingest_text("这是关于AI技术的示例文档。", metadata={"category": "tech"})
  • Instrucciones de uso: Tras conectarte al servidor, importa el texto y añade los metadatos.
  • al finalEl texto se procesa y almacena para su recuperación.

Importar archivos PDF:

doc = db.ingest_file("path/to/document.pdf", metadata={"category": "research"})
  • funcionalidadSoporte para PDF, vídeo y otros formatos, con análisis automático del contenido.

2. Búsqueda multimodal (ColPali)

Morphik Core utiliza ColPali para procesar documentos que contienen imágenes. Ejemplo:

doc = db.ingest_file("report_with_charts.pdf", use_colpali=True)
chunks = db.retrieve_chunks("显示第二季度收入图表", use_colpali=True, k=3)
  • mover: Activa ColPali al importar archivos y devuelve texto e imágenes al recuperarlos.
  • efecto: Puede encontrar directamente el contenido de un gráfico o una imagen.

3. Establecimiento de normas

Se pueden definir reglas en lenguaje natural para extraer información:

rules = [
{"type": "metadata_extraction", "schema": {"title": "string", "author": "string"}},
{"type": "natural_language", "prompt": "删除所有个人信息"}
]
doc = db.ingest_file("document.pdf", rules=rules)
  • corresponde al inglés -ity, -ism, -izationExtraiga títulos y autores de archivos, o limpie datos a petición.
  • sugerencia: Las normas deben adaptarse al contenido del documento.

4. Cartografía del conocimiento

Crear y utilizar gráficos de conocimiento para mejorar la recuperación:

db.create_graph("tech_graph", filters={"category": "tech"})
response = db.query("AI如何与云计算相关?", graph_name="tech_graph", hop_depth=2)
  • plataforma: Tras generar un mapa, la consulta devuelve la información asociada.
  • vanguardiaLos resultados son más precisos y adecuados para problemas complejos.

5. Tratamiento por lotes

Admite la importación por lotes de archivos en carpetas:

docs = db.ingest_directory("data/documents", recursive=True, pattern="*.pdf")
  • funcionalidad: Escanea recursivamente el catálogo e importa todos los PDF.
  • toma: Adecuado para procesar grandes cantidades de datos.

Función destacada Operación

Los aspectos más destacados de Morphik Core son el soporte multimodal y la eficacia. He aquí una descripción detallada:

Incrustación multimodal ColPali

ColPali permite que el texto y las imágenes trabajen juntos. Por ejemplo:

db.ingest_file("report.pdf", use_colpali=True)
chunks = db.retrieve_chunks("查找2024年的销售数据图", use_colpali=True)
  • efecto: No sólo devuelve texto, sino que también encuentra gráficos.
  • utilice: Analizar documentos con contenido visual.

Caché eficiente

Preprocesamiento de datos para una recuperación más rápida:

db.cache_documents(filters={"category": "research"})
chunks = db.retrieve_chunks("AI最新进展", k=5)
  • kilometrajeTiempos de respuesta más cortos y menores costes de cálculo 80%.
  • tenga en cuentaLa caché ocupa espacio y se limpia regularmente.

escalabilidad

Conéctese a bases de datos y procese datos a gran escala:

db.connect_storage("postgresql://user:password@localhost:5432/dbname")
docs = db.ingest_directory("large_data")
  • adyuvante: Gestione millones de documentos con PostgreSQL o MongoDB.
  • tempo: Los tiempos de recuperación permanecen en los segundos.

advertencia

  • Antes de utilizarlo por primera vez, lea el manual de GitHub README.md y documentación oficial.
  • Asegúrese de que la versión de Python es 3.12 y que las dependencias están instaladas correctamente.
  • Las preguntas pueden enviarse como temas en Discord (https://discord.gg/BwMtv3Zaju) o GitHub.

Con estos pasos, usted puede instalar y utilizar fácilmente Morphik Core para manejar una variedad de necesidades de datos.

 

escenario de aplicación

  1. Gestión de documentos de investigación
    El investigador importa el PDF del artículo, extrae el título y el resumen mediante reglas, genera un grafo de conocimiento y encuentra rápidamente investigaciones relacionadas.
  2. Análisis de datos empresariales
    La empresa procesa informes y contratos, recupera gráficos y texto con ColPali y almacena datos en caché para mayor eficacia.
  3. Recopilación de recursos educativos
    Los profesores importan libros de texto y vídeos, establecen reglas para extraer los puntos clave y los alumnos pueden consultar el contenido del curso.

 

CONTROL DE CALIDAD

  1. ¿Tiene Morphik Core algún coste?
    Sin coste alguno, es un proyecto de código abierto licenciado por el MIT y de uso libre.
  2. ¿Necesita un servidor?
    Sí, el autoalojamiento requiere un servidor local, y en el futuro habrá opciones de alojamiento en la nube.
  3. ¿Admite vídeo?
    Soporte que analiza el vídeo y extrae texto y contenido.
© declaración de copyright
AiPPT

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...