일반 소개
모픽 코어는 morphik-org 팀에서 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트입니다. 예전에는 DataBridge Core라고 불렸지만 지금은 Morphik Core로 이름이 바뀌었으며, 텍스트, 이미지, PDF, 동영상 등 다양한 데이터를 처리할 수 있는 AI 애플리케이션용으로 설계된 데이터베이스로, 사용자가 정보를 빠르게 검색하고 생성할 수 있도록 강력한 RAG(Retrieval Augmented Generation) 기능을 제공합니다. 사용자가 정보를 빠르게 검색하고 생성할 수 있도록 강력한 RAG(검색 증강 생성) 기능을 제공하며, 대규모 데이터 처리를 지원하고 검색 속도를 유지하면서 수백만 개의 문서를 관리할 수 있는 Morphik Core입니다. 새로운 아이디어를 시도하거나 프로덕션 환경을 구축하고자 하는 모든 사용자에게 지원을 제공합니다. 현재 개발 중이며 사용자가 대기자 명단에 참여할 수 있는 호스팅 서비스를 출시할 계획입니다.

기능 목록
- 멀티모달 데이터 지원: 텍스트, PDF, 이미지, 동영상 및 기타 형식을 처리할 수 있습니다.
- 지능형 파일 파싱: 파일을 자동으로 작은 덩어리로 나누고 임베딩을 생성합니다.
- ColPali 멀티모달 임베딩: 텍스트와 이미지 콘텐츠를 결합하여 효율적으로 검색할 수 있습니다.
- 지식 그래프 지원: 엔터티와 관계를 자동으로 추출하여 검색 결과를 개선합니다.
- 자연어 규칙: 복잡한 데이터에 대한 규칙을 설정하여 구조화된 정보를 추출합니다.
- 효율적인 캐싱: 데이터를 사전 처리하여 계산 비용을 절감하고 응답 속도를 높입니다.
- 확장 가능한 아키텍처: 사용자 정의 구문 분석기 및 여러 저장 방법을 지원합니다.
- MCP 프로토콜: AI 시스템과의 지식 공유를 촉진합니다.
도움말 사용
모픽 코어는 개발자가 코드를 다운로드하여 사용할 수 있는 도구로 주로 GitHub를 통해 제공됩니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 운영 가이드입니다.
설치 프로세스
모픽 코어를 시작하려면 GitHub에서 코드를 다운로드하고 환경을 구성해야 합니다. 단계는 다음과 같습니다:
- 클론 창고
터미널에 명령을 입력하여 프로젝트를 다운로드합니다:
git clone https://github.com/morphik-org/morphik-core.git
그런 다음 프로젝트 디렉토리로 이동합니다:
cd morphik-core
- 가상 환경 만들기
의존성 충돌을 피하기 위해 Python 3.12로 독립 실행형 환경을 만드세요:
python3.12 -m venv .venv
환경을 활성화합니다:
- Linux/macOS:
source .venv/bin/activate
- Windows:
.venv\Scripts\activate
- 종속성 설치
프로젝트는 다음과 같습니다.requirements.txt
파일을 열어 필요한 패키지를 설치합니다:
pip install -r requirements.txt
파일이 누락된 경우 GitHub README에서 최신 종속성을 확인하세요.
- 서비스 시작
서버를 구성하고 실행합니다:
python quick_setup.py
python start_server.py
완료되면 서비스는 다음과 같습니다. localhost:8000
실행 중입니다.
주요 기능
모픽 코어의 핵심은 멀티모달 데이터를 처리하고 다음을 제공하는 기능입니다. RAG 기능을 사용하세요. 사용 방법은 다음과 같습니다:
1. 데이터 가져오기
Python SDK를 사용하여 텍스트 또는 파일을 가져올 수 있습니다. 예를 들어 텍스트를 가져옵니다:
from databridge import DataBridge
db = DataBridge("databridge://localhost:8000")
doc = db.ingest_text("这是关于AI技术的示例文档。", metadata={"category": "tech"})
- 운영 지침서버에 연결한 후 텍스트를 가져오고 메타데이터를 추가합니다.
- 결국검색을 위해 텍스트가 처리되고 저장됩니다.
PDF 파일 가져오기:
doc = db.ingest_file("path/to/document.pdf", metadata={"category": "research"})
- 기능자동 콘텐츠 구문 분석 기능을 통해 PDF, 동영상 및 기타 형식을 지원합니다.
2. 멀티모달 검색(콜팔리)
Morphik Core는 이미지가 포함된 문서를 처리하는 데 ColPali를 사용합니다. 예시:
doc = db.ingest_file("report_with_charts.pdf", use_colpali=True)
chunks = db.retrieve_chunks("显示第二季度收入图表", use_colpali=True, k=3)
- 이동: 파일을 가져올 때 ColPali를 활성화하고 검색할 때 텍스트와 이미지를 반환합니다.
- 효과차트 또는 그림의 내용을 바로 찾을 수 있습니다.
3. 규칙 설정
자연어로 규칙을 정의하여 정보를 추출할 수 있습니다:
rules = [
{"type": "metadata_extraction", "schema": {"title": "string", "author": "string"}},
{"type": "natural_language", "prompt": "删除所有个人信息"}
]
doc = db.ingest_file("document.pdf", rules=rules)
- 영어 -ity, -ism, -ization에 해당합니다.파일에서 제목, 작성자를 추출하거나 필요에 따라 데이터를 정리합니다.
- 제안규칙은 문서의 내용에 맞게 조정해야 합니다.
4. 지식 매핑
지식 그래프를 만들어 검색을 개선하는 데 사용하세요:
db.create_graph("tech_graph", filters={"category": "tech"})
response = db.query("AI如何与云计算相关?", graph_name="tech_graph", hop_depth=2)
- rig맵을 생성한 후 쿼리는 관련 정보를 반환합니다.
- 최첨단결과가 더 정확하고 복잡한 문제에 적합합니다.
5. 일괄 처리
폴더에 있는 파일의 일괄 가져오기를 지원합니다:
docs = db.ingest_directory("data/documents", recursive=True, pattern="*.pdf")
- 기능: 카탈로그를 재귀적으로 스캔하고 모든 PDF를 가져옵니다.
- take대용량 데이터 처리에 적합합니다.
주요 기능 작동
모픽 코어의 가장 큰 특징은 멀티모달 지원과 효율성입니다. 자세한 설명은 다음과 같습니다:
콜팔리 멀티모달 임베딩
ColPali를 사용하면 텍스트와 이미지를 함께 작업할 수 있습니다. 예를 들어
db.ingest_file("report.pdf", use_colpali=True)
chunks = db.retrieve_chunks("查找2024年的销售数据图", use_colpali=True)
- 효과: 텍스트를 반환할 뿐만 아니라 차트도 찾을 수 있습니다.
- 사용시각적 콘텐츠가 포함된 문서를 분석합니다.
효율적인 캐싱
빠른 검색을 위해 데이터를 사전 처리합니다:
db.cache_documents(filters={"category": "research"})
chunks = db.retrieve_chunks("AI最新进展", k=5)
- 마일리지응답 시간 단축 및 컴퓨팅 비용 절감 80%.
- 다음 사항에 유의하십시오.캐시는 공간을 차지하며 정기적으로 청소됩니다.
확장성
데이터베이스에 연결하여 대규모 데이터를 처리하세요:
db.connect_storage("postgresql://user:password@localhost:5432/dbname")
docs = db.ingest_directory("large_data")
- 지원PostgreSQL 또는 몽고DB로 수백만 개의 문서를 관리하세요.
- 템포검색 시간은 초 단위로 유지됩니다.
주의
- 처음 사용하기 전에 GitHub의
README.md
및 공식 문서. - Python 버전이 3.12이고 종속성이 올바르게 설치되었는지 확인합니다.
- 질문은 Discord(https://discord.gg/BwMtv3Zaju) 또는 GitHub에서 이슈로 제출할 수 있습니다.
이 단계를 통해 다양한 데이터 요구 사항을 처리하기 위해 Morphik Core를 쉽게 설치하고 사용할 수 있습니다.
애플리케이션 시나리오
- 연구 논문 관리
연구자는 논문 PDF를 가져와서 규칙을 사용하여 제목과 초록을 추출하고 지식 그래프를 생성하여 관련 연구를 빠르게 찾습니다. - 엔터프라이즈 데이터 분석
이 회사는 보고서와 계약을 처리하고, ColPali로 차트와 텍스트를 검색하며, 효율성을 위해 데이터를 캐시합니다. - 교육 리소스 수집
교사는 교과서와 비디오를 가져오고, 규칙을 설정하여 핵심 사항을 추출하고, 학생은 코스 콘텐츠를 조회할 수 있습니다.
QA
- 모픽 코어는 수수료를 부과하나요?
MIT에서 라이선스를 취득한 오픈 소스 프로젝트로 무료로 사용할 수 있습니다. - 서버가 필요하신가요?
예, 셀프 호스팅에는 로컬에서 실행되는 서버가 필요하며 향후 클라우드 호스팅 옵션이 추가될 예정입니다. - 동영상을 지원하나요?
동영상을 구문 분석하고 텍스트와 콘텐츠를 추출하는 기능을 지원합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...