일반 소개
Supametas.AI는 웹 페이지, 문서, 오디오 및 비디오의 복잡한 내용을 AI가 사용할 수 있는 구조화된 데이터로 정리하는 데 특화된 데이터 처리 플랫폼입니다. 웹 링크, API, 로컬 파일 등 다양한 소스에서 데이터를 수집한 다음 JSON 또는 마크다운 형식으로 출력하는 기능을 지원합니다. 이 플랫폼은 프로그래밍 경험이 필요하지 않으므로 일반인도 빠르게 시작할 수 있습니다. 이 플랫폼의 핵심 장점은 기존에 수개월이 걸리던 데이터 처리 시간을 30분으로 단축하여 기업과 개발자가 AI 지식 기반(LLM RAG)을 구축하는 데 특히 적합하다는 것입니다. Supametas.AI는 다양한 사용자의 요구를 충족하기 위해 클라우드 서비스 및 향후 출시될 프라이빗 배포를 제공합니다.

기능 목록
- 멀티 소스 데이터 수집웹 페이지 URL, API 인터페이스, 로컬 파일(PDF, Word, 이미지, 오디오, 동영상)에서 데이터 추출을 지원합니다.
- 구조화된 출력정렬되지 않은 데이터를 AI 모델에 맞게 JSON 또는 마크다운으로 변환합니다.
- 지식창고 통합OpenAI 스토리지, Dify 데이터세트에 도킹하거나 API를 통한 사용자 지정 통합.
- 자연어 추출(NLE): 간단한 언어로 추출된 필드에 대한 프롬프트(예: "제목 및 본문 가져오기")를 표시합니다.
- 복잡한 웹 크롤링목록 페이지, 페이지 매김, 다중 레이어 페이지를 자동으로 처리하고 시간 지정 업데이트를 지원합니다.
- 대용량 파일 처리긴 문서나 HD 동영상과 같은 수백 MB의 파일을 지원합니다.
- 오디오 및 비디오 처리타임라인, 자막, 대화 등을 추출합니다.
- 코드 없는 인터페이스간편한 조작, 기술적 배경 지식이 필요하지 않습니다.
- 데이터 프라이버시클라우드 서비스 및 Docker 프라이빗 배포 옵션을 제공합니다.
도움말 사용
Supametas.AI는 복잡한 소프트웨어 설치가 필요하지 않으며 웹에서 바로 작동합니다. 다음은 사용자가 빠르게 시작할 수 있도록 핵심 기능을 사용하는 방법에 대한 자세한 설명입니다.
등록 및 로그인
- 쇼(티켓)
https://supametas.ai/zh
'시작하기'를 클릭합니다. - 이메일 주소로 가입하거나 Google 계정을 선택하여 로그인합니다.
- 가입하면 기본 기능과 몇 가지 리소스가 포함된 무료 평가판 모드로 전환됩니다.
데이터 수집 및 처리
웹 크롤러
- 로그인한 후 새 데이터 집합을 클릭합니다.
- "URL" 데이터 소스를 선택하고 대상 웹 페이지를 입력합니다(예
https://example.com/blog
. - 크롤링 매개변수를 설정합니다:
- "깊이 값: 3으로 설정하면 세 단계의 페이지를 크롤링합니다.
- "루프 시간 값: 일일 업데이트의 경우 24로 설정합니다.
- '처리 시작'을 클릭하면 시스템이 자동으로 제목, 본문 텍스트 등을 추출합니다.
- 프로세스가 완료되면 내보내기를 클릭하고 JSON 또는 마크다운 중 하나를 선택하여 다운로드합니다.
로컬 문서 처리
- 새 데이터 집합 화면에서 로컬 파일을 선택합니다.
- '파일 업로드'를 클릭하여 파일을 끌어다 놓거나 선택합니다.
- 지원되는 형식은 다음과 같습니다:
- 문서화:
.docx
및.pdf
및.txt
- 사진:
.jpg
및.png
- 오디오 비디오:
.mp3
및.mp4
및.mov
- 문서화:
- 업로드 후 시스템이 자동으로 콘텐츠를 추출합니다. 예를 들어 PDF는 단락을 추출하고 MP3는 텍스트를 전사합니다.
- 결과를 확인하고 '내보내기'를 클릭하여 저장합니다.
API 데이터 풀링
- 'API' 데이터 소스를 선택합니다.
- 예를 들어 API 구성을 입력합니다:
{
"contentUrl": "https://api.example.com/data",
"getDemandFormat": "json",
"customKeys": [{"key": "category", "desc": "分类"}]
}
- '테스트'를 클릭하여 데이터가 올바르게 반환되는지 확인합니다.
- 테스트가 통과되면 '처리 시작'을 클릭하여 구조화된 데이터를 생성합니다.
통합 지식 기반
- 데이터를 처리한 후 통합을 클릭합니다.
- 대상 플랫폼(예: OpenAI 스토리지 또는 Dify 데이터 세트.
- 플랫폼의 API 키(대상 플랫폼에서 생성됨)를 입력합니다.
- '연결'을 클릭하면 데이터가 자동으로 업로드됩니다.
- 연동 기능을 사용자 지정할 때 플랫폼에서 제공하는 API 코드를 프로젝트에 복사하세요.
시간 제한 작업 설정
- 데이터 집합 페이지에서 설정을 클릭합니다.
- 업데이트 예약을 선택하고 24시간마다로 설정합니다.
- 저장 후에는 시스템이 백그라운드에서 자동으로 데이터를 캡처하고 처리합니다.
주요 기능 작동
오디오 및 비디오 추출
- 업로드
.mp4
문서화. - 시스템은 타임라인과 "00:01 - 안녕하세요"와 같은 대화 텍스트를 생성합니다.
- 결과를 미리 보고 내보낼 수 있어 디지털 인력이나 팟캐스트 데이터 처리에 적합합니다.
자연어 필드 추출
- 크롤링 설정에서 "문서 제목 및 날짜 추출"과 같은 프롬프트를 입력합니다.
- 시스템은 프롬프트에 따라 자동으로 필드를 식별하고 정렬합니다.
대용량 파일 처리
- 수백 MB의 PDF 또는 동영상을 업로드하세요.
- 이 시스템은 세그먼트 단위로 처리되며 완료 시 완전히 구조화된 데이터를 제공합니다.
주의
- 무료 버전은 데이터 세트 수와 처리 용량에 제한이 있으며, 유료 버전으로 업그레이드하면 더 많은 리소스를 사용할 수 있습니다.
- 대용량 파일이나 복잡한 작업에는 더 많은 토큰이 필요할 수 있으며, 이는 외부 모델(예: OpenAI)에 바인딩할 수 있습니다.
- 작업 관리자에서 진행 상황을 보거나 작업을 중단할 수 있습니다.
- 엔터프라이즈 사용자를 위한 비공개 배포 버전(Docker)이 개발 중입니다.
Supametas.AI에는 각 단계에 대한 가이드가 포함된 사용자 친화적인 인터페이스가 있습니다. 무료 버전을 먼저 사용해보고 익숙해지면 필요에 따라 업그레이드하는 것이 좋습니다.
애플리케이션 시나리오
- 엔터프라이즈 지식 기반 구축
금융 회사는 이를 사용하여 규제 웹 페이지와 PDF를 크롤링하고, 이를 구조화된 데이터로 수집하여 AI에 제공하여 분석할 수 있습니다. - 디지털 인간 개발
오디오 및 비디오 클립을 업로드하고, 대화와 타임라인을 추출하고, 학습 데이터 세트를 생성합니다. - 전자상거래 데이터 관리
정기적으로 제품 목록과 세부 정보를 캡처하여 JSON으로 대조하고 재고 분석을 최적화하세요.
QA
- 무료 버전의 제한 사항은 무엇인가요?
무료 버전은 시간 제한은 없지만 데이터 세트 수와 처리 용량이 제한되어 있어 시험용으로 적합합니다. - 어떤 크기의 파일이 지원되나요?
긴 문서나 HD 동영상 등 수백 메가바이트의 파일을 처리할 수 있습니다. - 데이터 프라이버시를 어떻게 보장하나요?
클라우드 서비스의 암호화된 전송을 통해 데이터를 완전히 현지화할 수 있는 Docker 프라이빗 배포 에디션.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...