Morphik Core: 멀티모달 데이터 처리를 위한 오픈소스 RAG 플랫폼

최신 AI 리소스5개월 전 업데이트 AI 공유 서클
12.1K 00

일반 소개

모픽 코어는 morphik-org 팀에서 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트입니다. 예전에는 DataBridge Core라고 불렸지만 지금은 Morphik Core로 이름이 바뀌었으며, 텍스트, 이미지, PDF, 동영상 등 다양한 데이터를 처리할 수 있는 AI 애플리케이션용으로 설계된 데이터베이스로, 사용자가 정보를 빠르게 검색하고 생성할 수 있도록 강력한 RAG(Retrieval Augmented Generation) 기능을 제공합니다. 사용자가 정보를 빠르게 검색하고 생성할 수 있도록 강력한 RAG(검색 증강 생성) 기능을 제공하며, 대규모 데이터 처리를 지원하고 검색 속도를 유지하면서 수백만 개의 문서를 관리할 수 있는 Morphik Core입니다. 새로운 아이디어를 시도하거나 프로덕션 환경을 구축하고자 하는 모든 사용자에게 지원을 제공합니다. 현재 개발 중이며 사용자가 대기자 명단에 참여할 수 있는 호스팅 서비스를 출시할 계획입니다.

Morphik Core:处理多模态数据的开源 RAG 平台

 

기능 목록

  • 멀티모달 데이터 지원: 텍스트, PDF, 이미지, 동영상 및 기타 형식을 처리할 수 있습니다.
  • 지능형 파일 파싱: 파일을 자동으로 작은 덩어리로 나누고 임베딩을 생성합니다.
  • ColPali 멀티모달 임베딩: 텍스트와 이미지 콘텐츠를 결합하여 효율적으로 검색할 수 있습니다.
  • 지식 그래프 지원: 엔터티와 관계를 자동으로 추출하여 검색 결과를 개선합니다.
  • 자연어 규칙: 복잡한 데이터에 대한 규칙을 설정하여 구조화된 정보를 추출합니다.
  • 효율적인 캐싱: 데이터를 사전 처리하여 계산 비용을 절감하고 응답 속도를 높입니다.
  • 확장 가능한 아키텍처: 사용자 정의 구문 분석기 및 여러 저장 방법을 지원합니다.
  • MCP 프로토콜: AI 시스템과의 지식 공유를 촉진합니다.

 

도움말 사용

모픽 코어는 개발자가 코드를 다운로드하여 사용할 수 있는 도구로 주로 GitHub를 통해 제공됩니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 운영 가이드입니다.

설치 프로세스

모픽 코어를 시작하려면 GitHub에서 코드를 다운로드하고 환경을 구성해야 합니다. 단계는 다음과 같습니다:

  1. 클론 창고
    터미널에 명령을 입력하여 프로젝트를 다운로드합니다:
git clone https://github.com/morphik-org/morphik-core.git

그런 다음 프로젝트 디렉토리로 이동합니다:

cd morphik-core
  1. 가상 환경 만들기
    의존성 충돌을 피하기 위해 Python 3.12로 독립 실행형 환경을 만드세요:
python3.12 -m venv .venv

환경을 활성화합니다:

  • Linux/macOS:
    source .venv/bin/activate
    
  • Windows:
    .venv\Scripts\activate
    
  1. 종속성 설치
    프로젝트는 다음과 같습니다. requirements.txt 파일을 열어 필요한 패키지를 설치합니다:
pip install -r requirements.txt

파일이 누락된 경우 GitHub README에서 최신 종속성을 확인하세요.

  1. 서비스 시작
    서버를 구성하고 실행합니다:
python quick_setup.py
python start_server.py

완료되면 서비스는 다음과 같습니다. localhost:8000 실행 중입니다.

주요 기능

모픽 코어의 핵심은 멀티모달 데이터를 처리하고 다음을 제공하는 기능입니다. RAG 기능을 사용하세요. 사용 방법은 다음과 같습니다:

1. 데이터 가져오기

Python SDK를 사용하여 텍스트 또는 파일을 가져올 수 있습니다. 예를 들어 텍스트를 가져옵니다:

from databridge import DataBridge
db = DataBridge("databridge://localhost:8000")
doc = db.ingest_text("这是关于AI技术的示例文档。", metadata={"category": "tech"})
  • 운영 지침서버에 연결한 후 텍스트를 가져오고 메타데이터를 추가합니다.
  • 결국검색을 위해 텍스트가 처리되고 저장됩니다.

PDF 파일 가져오기:

doc = db.ingest_file("path/to/document.pdf", metadata={"category": "research"})
  • 기능자동 콘텐츠 구문 분석 기능을 통해 PDF, 동영상 및 기타 형식을 지원합니다.

2. 멀티모달 검색(콜팔리)

Morphik Core는 이미지가 포함된 문서를 처리하는 데 ColPali를 사용합니다. 예시:

doc = db.ingest_file("report_with_charts.pdf", use_colpali=True)
chunks = db.retrieve_chunks("显示第二季度收入图表", use_colpali=True, k=3)
  • 이동: 파일을 가져올 때 ColPali를 활성화하고 검색할 때 텍스트와 이미지를 반환합니다.
  • 효과차트 또는 그림의 내용을 바로 찾을 수 있습니다.

3. 규칙 설정

자연어로 규칙을 정의하여 정보를 추출할 수 있습니다:

rules = [
{"type": "metadata_extraction", "schema": {"title": "string", "author": "string"}},
{"type": "natural_language", "prompt": "删除所有个人信息"}
]
doc = db.ingest_file("document.pdf", rules=rules)
  • 영어 -ity, -ism, -ization에 해당합니다.파일에서 제목, 작성자를 추출하거나 필요에 따라 데이터를 정리합니다.
  • 제안규칙은 문서의 내용에 맞게 조정해야 합니다.

4. 지식 매핑

지식 그래프를 만들어 검색을 개선하는 데 사용하세요:

db.create_graph("tech_graph", filters={"category": "tech"})
response = db.query("AI如何与云计算相关?", graph_name="tech_graph", hop_depth=2)
  • rig맵을 생성한 후 쿼리는 관련 정보를 반환합니다.
  • 최첨단결과가 더 정확하고 복잡한 문제에 적합합니다.

5. 일괄 처리

폴더에 있는 파일의 일괄 가져오기를 지원합니다:

docs = db.ingest_directory("data/documents", recursive=True, pattern="*.pdf")
  • 기능: 카탈로그를 재귀적으로 스캔하고 모든 PDF를 가져옵니다.
  • take대용량 데이터 처리에 적합합니다.

주요 기능 작동

모픽 코어의 가장 큰 특징은 멀티모달 지원과 효율성입니다. 자세한 설명은 다음과 같습니다:

콜팔리 멀티모달 임베딩

ColPali를 사용하면 텍스트와 이미지를 함께 작업할 수 있습니다. 예를 들어

db.ingest_file("report.pdf", use_colpali=True)
chunks = db.retrieve_chunks("查找2024年的销售数据图", use_colpali=True)
  • 효과: 텍스트를 반환할 뿐만 아니라 차트도 찾을 수 있습니다.
  • 사용시각적 콘텐츠가 포함된 문서를 분석합니다.

효율적인 캐싱

빠른 검색을 위해 데이터를 사전 처리합니다:

db.cache_documents(filters={"category": "research"})
chunks = db.retrieve_chunks("AI最新进展", k=5)
  • 마일리지응답 시간 단축 및 컴퓨팅 비용 절감 80%.
  • 다음 사항에 유의하십시오.캐시는 공간을 차지하며 정기적으로 청소됩니다.

확장성

데이터베이스에 연결하여 대규모 데이터를 처리하세요:

db.connect_storage("postgresql://user:password@localhost:5432/dbname")
docs = db.ingest_directory("large_data")
  • 지원PostgreSQL 또는 몽고DB로 수백만 개의 문서를 관리하세요.
  • 템포검색 시간은 초 단위로 유지됩니다.

주의

  • 처음 사용하기 전에 GitHub의 README.md 및 공식 문서.
  • Python 버전이 3.12이고 종속성이 올바르게 설치되었는지 확인합니다.
  • 질문은 Discord(https://discord.gg/BwMtv3Zaju) 또는 GitHub에서 이슈로 제출할 수 있습니다.

이 단계를 통해 다양한 데이터 요구 사항을 처리하기 위해 Morphik Core를 쉽게 설치하고 사용할 수 있습니다.

 

애플리케이션 시나리오

  1. 연구 논문 관리
    연구자는 논문 PDF를 가져와서 규칙을 사용하여 제목과 초록을 추출하고 지식 그래프를 생성하여 관련 연구를 빠르게 찾습니다.
  2. 엔터프라이즈 데이터 분석
    이 회사는 보고서와 계약을 처리하고, ColPali로 차트와 텍스트를 검색하며, 효율성을 위해 데이터를 캐시합니다.
  3. 교육 리소스 수집
    교사는 교과서와 비디오를 가져오고, 규칙을 설정하여 핵심 사항을 추출하고, 학생은 코스 콘텐츠를 조회할 수 있습니다.

 

QA

  1. 모픽 코어는 수수료를 부과하나요?
    MIT에서 라이선스를 취득한 오픈 소스 프로젝트로 무료로 사용할 수 있습니다.
  2. 서버가 필요하신가요?
    예, 셀프 호스팅에는 로컬에서 실행되는 서버가 필요하며 향후 클라우드 호스팅 옵션이 추가될 예정입니다.
  3. 동영상을 지원하나요?
    동영상을 구문 분석하고 텍스트와 콘텐츠를 추출하는 기능을 지원합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...