Supametas.AI: 비정형 데이터를 LLM 고가용성 데이터로 추출하기

53.8K 00

일반 소개

Supametas.AI는 웹 페이지, 문서, 오디오 및 비디오의 복잡한 내용을 AI가 사용할 수 있는 구조화된 데이터로 정리하는 데 특화된 데이터 처리 플랫폼입니다. 웹 링크, API, 로컬 파일 등 다양한 소스에서 데이터를 수집한 다음 JSON 또는 마크다운 형식으로 출력하는 기능을 지원합니다. 이 플랫폼은 프로그래밍 경험이 필요하지 않으므로 일반인도 빠르게 시작할 수 있습니다. 이 플랫폼의 핵심 장점은 기존에 수개월이 걸리던 데이터 처리 시간을 30분으로 단축하여 기업과 개발자가 AI 지식 기반(LLM RAG)을 구축하는 데 특히 적합하다는 것입니다. Supametas.AI는 다양한 사용자의 요구를 충족하기 위해 클라우드 서비스 및 향후 출시될 프라이빗 배포를 제공합니다.

기능 목록

멀티 소스 데이터 수집웹 페이지 URL, API 인터페이스, 로컬 파일(PDF, Word, 이미지, 오디오, 동영상)에서 데이터 추출을 지원합니다.
구조화된 출력정렬되지 않은 데이터를 AI 모델에 맞게 JSON 또는 마크다운으로 변환합니다.
지식창고 통합OpenAI 스토리지, Dify 데이터세트에 도킹하거나 API를 통한 사용자 지정 통합.
자연어 추출(NLE): 간단한 언어로 추출된 필드에 대한 프롬프트(예: "제목 및 본문 가져오기")를 표시합니다.
복잡한 웹 크롤링목록 페이지, 페이지 매김, 다중 레이어 페이지를 자동으로 처리하고 시간 지정 업데이트를 지원합니다.
대용량 파일 처리긴 문서나 HD 동영상과 같은 수백 MB의 파일을 지원합니다.
오디오 및 비디오 처리타임라인, 자막, 대화 등을 추출합니다.
코드 없는 인터페이스간편한 조작, 기술적 배경 지식이 필요하지 않습니다.
데이터 프라이버시클라우드 서비스 및 Docker 프라이빗 배포 옵션을 제공합니다.

도움말 사용

Supametas.AI는 복잡한 소프트웨어 설치가 필요하지 않으며 웹에서 바로 작동합니다. 다음은 사용자가 빠르게 시작할 수 있도록 핵심 기능을 사용하는 방법에 대한 자세한 설명입니다.

등록 및 로그인

쇼(티켓) https://supametas.ai/zh'시작하기'를 클릭합니다.
이메일 주소로 가입하거나 Google 계정을 선택하여 로그인합니다.
가입하면 기본 기능과 몇 가지 리소스가 포함된 무료 평가판 모드로 전환됩니다.

데이터 수집 및 처리

웹 크롤러

로그인한 후 새 데이터 집합을 클릭합니다.
"URL" 데이터 소스를 선택하고 대상 웹 페이지를 입력합니다(예 https://example.com/blog.
크롤링 매개변수를 설정합니다:
- "깊이 값: 3으로 설정하면 세 단계의 페이지를 크롤링합니다.
- "루프 시간 값: 일일 업데이트의 경우 24로 설정합니다.
'처리 시작'을 클릭하면 시스템이 자동으로 제목, 본문 텍스트 등을 추출합니다.
프로세스가 완료되면 내보내기를 클릭하고 JSON 또는 마크다운 중 하나를 선택하여 다운로드합니다.

로컬 문서 처리

새 데이터 집합 화면에서 로컬 파일을 선택합니다.
'파일 업로드'를 클릭하여 파일을 끌어다 놓거나 선택합니다.
지원되는 형식은 다음과 같습니다:
- 문서화:.docx및.pdf및.txt
- 사진:.jpg및.png
- 오디오 비디오:.mp3및.mp4및.mov
업로드 후 시스템이 자동으로 콘텐츠를 추출합니다. 예를 들어 PDF는 단락을 추출하고 MP3는 텍스트를 전사합니다.
결과를 확인하고 '내보내기'를 클릭하여 저장합니다.

API 데이터 풀링

'API' 데이터 소스를 선택합니다.
예를 들어 API 구성을 입력합니다:

{
"contentUrl": "https://api.example.com/data",
"getDemandFormat": "json",
"customKeys": [{"key": "category", "desc": "分类"}]
}

'테스트'를 클릭하여 데이터가 올바르게 반환되는지 확인합니다.
테스트가 통과되면 '처리 시작'을 클릭하여 구조화된 데이터를 생성합니다.

통합 지식 기반

데이터를 처리한 후 통합을 클릭합니다.
대상 플랫폼(예: OpenAI 스토리지 또는 Dify 데이터 세트.
플랫폼의 API 키(대상 플랫폼에서 생성됨)를 입력합니다.
'연결'을 클릭하면 데이터가 자동으로 업로드됩니다.
연동 기능을 사용자 지정할 때 플랫폼에서 제공하는 API 코드를 프로젝트에 복사하세요.

시간 제한 작업 설정

데이터 집합 페이지에서 설정을 클릭합니다.
업데이트 예약을 선택하고 24시간마다로 설정합니다.
저장 후에는 시스템이 백그라운드에서 자동으로 데이터를 캡처하고 처리합니다.

주요 기능 작동

오디오 및 비디오 추출

업로드 .mp4 문서화.
시스템은 타임라인과 "00:01 - 안녕하세요"와 같은 대화 텍스트를 생성합니다.
결과를 미리 보고 내보낼 수 있어 디지털 인력이나 팟캐스트 데이터 처리에 적합합니다.

자연어 필드 추출

크롤링 설정에서 "문서 제목 및 날짜 추출"과 같은 프롬프트를 입력합니다.
시스템은 프롬프트에 따라 자동으로 필드를 식별하고 정렬합니다.

대용량 파일 처리

수백 MB의 PDF 또는 동영상을 업로드하세요.
이 시스템은 세그먼트 단위로 처리되며 완료 시 완전히 구조화된 데이터를 제공합니다.

주의

무료 버전은 데이터 세트 수와 처리 용량에 제한이 있으며, 유료 버전으로 업그레이드하면 더 많은 리소스를 사용할 수 있습니다.
대용량 파일이나 복잡한 작업에는 더 많은 토큰이 필요할 수 있으며, 이는 외부 모델(예: OpenAI)에 바인딩할 수 있습니다.
작업 관리자에서 진행 상황을 보거나 작업을 중단할 수 있습니다.
엔터프라이즈 사용자를 위한 비공개 배포 버전(Docker)이 개발 중입니다.

Supametas.AI에는 각 단계에 대한 가이드가 포함된 사용자 친화적인 인터페이스가 있습니다. 무료 버전을 먼저 사용해보고 익숙해지면 필요에 따라 업그레이드하는 것이 좋습니다.

애플리케이션 시나리오

엔터프라이즈 지식 기반 구축
금융 회사는 이를 사용하여 규제 웹 페이지와 PDF를 크롤링하고, 이를 구조화된 데이터로 수집하여 AI에 제공하여 분석할 수 있습니다.
디지털 인간 개발
오디오 및 비디오 클립을 업로드하고, 대화와 타임라인을 추출하고, 학습 데이터 세트를 생성합니다.
전자상거래 데이터 관리
정기적으로 제품 목록과 세부 정보를 캡처하여 JSON으로 대조하고 재고 분석을 최적화하세요.

QA

무료 버전의 제한 사항은 무엇인가요?
무료 버전은 시간 제한은 없지만 데이터 세트 수와 처리 용량이 제한되어 있어 시험용으로 적합합니다.
어떤 크기의 파일이 지원되나요?
긴 문서나 HD 동영상 등 수백 메가바이트의 파일을 처리할 수 있습니다.
데이터 프라이버시를 어떻게 보장하나요?
클라우드 서비스의 암호화된 전송을 통해 데이터를 완전히 현지화할 수 있는 Docker 프라이빗 배포 에디션.