문학적 마인드 지능 바디 튜토리얼: (4) 문서 처리 및 지식창고에 동기화하기

53.4K 00

지식창고 소개

지식 기반은 지능형 기관의 출력 답변의 데이터 기반이며, 전문적인 데이터 축적을 보유한 개발자와 출력 결과에 대한 정확성과 전문성이 요구되는 개발자에게 적합합니다.
지식창고 모듈, 빅 모델 및 사용자 상호작용 프로세스에 자체 데이터를 업로드하면 지식창고에서 검색된 유사한 콘텐츠에 따라 빅 모델이 손질하여 결과를 생성하므로 모델 생성 범위를 효과적으로 제한할 수 있습니다.
원신 지능형 신체 플랫폼은 사용자의 독점 데이터의 보안을 전적으로 존중하고 보호하며, 제출된 데이터를 범용 대형 모델을 학습하거나 개선하는 데 사용하지 않으며, 당분간 독점 모델 학습 기능을 개방하지 않습니다.

1. 사용 시나리오

지식 베이스를 참조하고 검색이 제한된 인텔리전스를 제로 코딩으로 개발할 수 있습니다;
로우 코드로 인텔리전스를 개발할 때 지식창고를 인용합니다;
지식창고를 인용하여 데이터 플러그인을 빠르게 개발하세요.

2. 지식창고 포털

입력 1: 플랫폼에 로그인한 후 왼쪽 탐색을 클릭하여 지식창고 모듈에 액세스합니다.

항목 2: 제로 코드 인텔리전스를 개발하려면 인텔리전스 만들기 페이지에서 '새 지식창고'를 클릭하여 데이터를 추가합니다;

항목 3: 로우코드 개발 지식창고 시각적 정리 페이지에서 지식창고 키트를 끌어다 놓은 다음 '새 지식창고'를 클릭하여 지식창고 모듈로 들어갑니다;

항목 4: 데이터 플러그인을 개발하려면 플러그인 편집 페이지에서 "새 지식창고"를 클릭하여 지식창고 모듈에 액세스합니다.

3. 지식창고 만들기

1단계: 데이터를 업로드합니다.

지식창고 데이터를 업로드하는 방법은 ①로컬 파일 업로드, ②웹 주소 제출, ③Baidu.com.hk 가져오기의 3가지가 있으며, 1개의 계정으로 100개의 지식창고를 만들 수 있고, 모든 지식창고의 총 용량은 1G를 넘을 수 없으며, 1개의 지식창고는 100개의 파일 또는 URL에 추가할 수 있고 총 용량은 200M를 넘지 못합니다.

로컬 파일

현재 텍스트 및 이미지 유형만 지원되며, 여기에는 txt, md, docx, pdf, xlsx, csv, png, jpg, jpeg, m4a, mp3, mp4, mov, mpeg 형식이 포함됩니다.동영상 업로드만 지원되며, 동영상 콘텐츠 인식은 당분간 지원되지 않습니다.

데이터 유형	닉네임	업로드 지침
복사본	텍스트	파일 크기가 50M를 초과하지 않음
	md	파일 크기가 50M를 초과하지 않음
	docx	파일 크기가 50M를 초과하지 않음
		그래픽은 당분간 지원되지 않으며, 파일의 이미지는 필터링되고 텍스트만 유지됩니다.
	pdf	파일 크기가 50M를 초과하지 않음
		그래픽은 당분간 지원되지 않으며, 파일의 이미지는 필터링되고 텍스트만 유지됩니다.
		최대 50페이지의 문서 스캔이 지원됩니다.
	xlsx	파일 크기가 50M를 초과하지 않음
		데이터 파일은 xlsx 형식으로 업로드하는 것이 좋습니다. xlsx 형식 파일이 분할된 후 모델이 데이터의 의미를 이해하여 보다 정확한 데이터 쿼리 및 통계를 수행할 수 있도록 하려면 업로드된 xlsx에 테이블 헤더가 포함되어야 합니다.
	csv	파일 크기가 50M를 초과하지 않음
사진	png	30px ≤ 측면 길이 ≤ 4096px, 3:1 비율 이내, 크기는 20M를 초과할 수 없습니다.
		하나의 지식창고에 최대 500개의 이미지를 업로드할 수 있습니다.
		이미지에 실제 물품이 포함되어 있을 때 더 정확한 인식 결과를 얻을 수 있습니다.
	jpg	30px ≤ 측면 길이 ≤ 4096px, 3:1 비율 이내, 크기는 20M를 초과할 수 없습니다.
		하나의 지식창고 세트에 최대 500개의 이미지를 업로드할 수 있습니다.
		이미지에 실제 물품이 포함되어 있을 때 더 정확한 인식 결과를 얻을 수 있습니다.
	jpeg	30px ≤ 측면 길이 ≤ 4096px, 3:1 비율 이내, 크기는 20M를 초과할 수 없습니다.
		하나의 지식창고에 최대 500개의 이미지를 업로드할 수 있습니다.
		이미지에 실제 물품이 포함되어 있을 때 더 정확한 인식 결과를 얻을 수 있습니다.
사운드 주파수	m4a	파일 크기가 50M를 초과하지 않음
		지능형 인식을 통해 오디오를 텍스트로 변환합니다.
	mp3	파일 크기가 50M를 초과하지 않음
		지능형 인식을 통해 오디오를 텍스트로 변환합니다.
비디오	mp4	파일 크기가 200M를 초과하지 않음
		지능형 인식을 통해 비디오를 텍스트로 변환합니다.
	mov	파일 크기가 200M를 초과하지 않음
		지능형 인식을 통해 비디오를 텍스트로 변환합니다.
	mpeg	파일 크기가 200M를 초과하지 않음
		지능형 인식을 통해 비디오를 텍스트로 변환합니다.

웹 사이트 제출

웹 페이지 주소를 입력한 후 '식별' 버튼을 클릭하면 웹 페이지의 텍스트 데이터를 식별할 수 있으며, 공개적으로 액세스할 수 있고 바이두에서 색인한 웹 페이지 주소만 식별할 수 있으며, 로그인하여 액세스해야 하거나 바이두에서 색인할 수 있는 권한이 없는 경우 웹 페이지 주소를 식별하지 못합니다.
웹 페이지 업데이트 주기에 따라 자동 인식을 통해 지식창고 업데이트 주기를 설정할 수 있습니다.

바이두닷컴 가져오기

처음으로 Baidu.com 계정 데이터를 인증해야 하며, 인증에 성공하면 넷북에서 파일을 선택할 수 있습니다.
넷북 가져오기 시간 제한은 넷북 파일의 다운로드 속도에 따라 제한되며, 시간이 오래 걸리는 경우 백그라운드 처리를 선택할 수 있습니다.

2단계: 데이터 처리.

이 단계에서 빅 모델은 입력 및 출력 문자에 엄격한 제한이 있고 지식 기반도 일종의 입력 콘텐츠이므로 빅 모델의 입력 문자 수 제한을 따라야하므로 텍스트 분할의 목적은 긴 텍스트를 짧은 단락으로 자르고 관련없는 정보를 제거하며 입력 문자가 제한을 초과하지 않는다는 전제하에 가장 관련성이 높은 콘텐츠를 입력하는 것입니다. 큰 모델이 그림 내용을 더 정확하게 이해할 수 있도록 하기 위해 그림 내용에 먼저 주석을 달도록 모델을 호출합니다. 현재 빅모델에는 2~3개의 지식베이스 단락을 입력할 수 있으며, 관련 내용은 가급적 3개 이하의 단락으로 나눠서 입력해야 합니다.

텍스트 세분화: 이 플랫폼은 개발자가 텍스트, 구두점, 공백, 캐리지 리턴 등을 사용하여 긴 텍스트를 여러 세그먼트의 텍스트 콘텐츠로 잘라낼 수 있도록 지원하는 '기본 분할'과 '사용자 정의 분할'을 제공하여 모델이 텍스트 콘텐츠를 더 정확하게 이해할 수 있도록 지원합니다. 분할 처리 시 설정된 분할 방법에 따라 최대 분할 문자가 잘릴 수 있도록 보장됩니다.

소설, 고객 서비스 및 기타 Q&A 콘텐츠, 데이터 및 기타 콘텐츠의 시나리오, 세그먼트 설정 방법 파일 세그먼트 설정 방법(예제 포함)을 참조하세요.

양식 설정: 폼 파일의 테이블 헤더는 빅 모델이 테이블의 내용을 이해하기 위한 핵심 정보로 사용되며, 기본적으로 테이블의 첫 번째 줄이 헤더로 설정되며, 실제 테이블 구조에 따라 사용자 지정 레이블을 지정할 수 있도록 지원됩니다.

멀티미디어 설정: 기본적으로 사진의 큰 모델, 지능형 인식을 위한 오디오 콘텐츠를 호출하고 텍스트 주석을 생성하여 사진에 대한 링크 검색, 오디오 이해 및 보다 정확한 리콜 검색을 지원합니다. 생성된 주석 정보가 잘못된 경우 잘못된 내용을 수동으로 수정할 수 있습니다.곧 출시될 비디오 인식 기능을 기대해 주세요!

4. 지식창고 사용

방법 1: 제로 코드 개발: 지식창고 본문 만들기 페이지에서 지식창고를 선택합니다. 지식창고 호출을 관찰하고 검색 매개 변수를 디버깅하여 지식창고 검색 리콜 효과를 최적화할 수 있습니다. 자세한 내용은 지식창고 호출의 일반적인 QA를 참조하세요.

방법 2: 로우코드 개발: 시각적 오케스트레이션 페이지에서 지식창고 제품군을 끌어서 놓아 이미 만들어진 지식창고를 선택합니다.

방법 3: 데이터 플러그인을 개발하고 이미 만들어진 지식창고를 선택합니다.

문서 세분화 설정 방법(예제 포함)

1. 문서 세그먼트는 언제 변경해야 하나요?

구조화된 데이터
스마트바디 또는 플러그인 출력 결과 지식창고에 성공적으로 도달했지만 관련 없는 정보가 너무 많이 포함된 경우

파일 세분화 설정 방법 2.

데이터 세분화 처리의 목적은 긴 텍스트를 짧은 단락으로 잘라 검색된 콘텐츠에서 관련 없는 정보를 최대한 많이 제거하여 모델이 보다 효율적으로 처리하고 이해할 수 있도록 하는 것입니다.

웬신 지능형 본문 플랫폼은 기본 세분화 및 사용자 지정 세분화를 제공합니다. 문서 유형에 따라 서로 다른 세분화 구성을 전환해야 합니다.

최대 세그먼트 문자 수: 긴 텍스트를 잘라낸 후 단락의 최대 글자 수로, 각 단락의 글자 수 대신 50자에서 512자까지 원하는 숫자를 입력할 수 있습니다;

단락 겹치는 문자: 각 세그먼트의 시작과 이전 세그먼트의 끝에서 반복 가능한 최대 문자 수로, 0에서 500 사이의 숫자를 입력할 수 있으며, 잘린 세그먼트의 원래 의미를 최대한 유지하고, 분할로 인한 불완전한 표현을 방지하며, 모델이 더 정확하고 완벽하게 이해할 수 있도록 겹치는 문자 수는 단락 최대 문자 수보다 작아야 한다는 점에 유의하세요;

세분화 모드: 긴 텍스트 자르기를 위한 세분화 기호, 일반적으로 사용되는 세분화 기호를 선택하거나 기호를 입력할 수 있으며, 텍스트를 자를 때 세분화 기호 정렬에 따라 자르기 위치가 선택됩니다.

참고: 단일 지식창고의 세그먼트 수는 700W를 초과할 수 없으므로 세그먼트를 합리적으로 설정하세요.

3. 세분화된 사례

사례 1: 긴 텍스트 콘텐츠 세분화의 경우

적용 범위: 소설, 전자책, 텍스트, 회사 소개서, 논문, 특허 문서 등 긴 텍스트 콘텐츠의 맥락에서 의미를 이해해야 하는 경우에 적용할 수 있습니다.

예제 파일입니다:수트를 입은 남자.docx

세분화된 생각:

권장 기본 세분화구체적인 세분화 결과는 예제 파일을 다운로드하고 지식창고를 만들어서 볼 수 있습니다.
- 최대 단락 문자 : 긴 텍스트 콘텐츠 단락은 일반적으로 더 길고 단락과 단락 사이에 약간의 관계가 있으므로 최대 단락 문자를 조금 더 크게 설정하고 단락에 완전한 의미가 포함되어 있는지 확인하고 모델이 더 좋고 더 정확하게 이해할 수 있도록 노력하십시오.
- 문단 겹침 문자: 문단을 맥락에서 이해해야 하는 경우 문단 겹침 문자를 필요에 따라 입력하여 문단 간 관련 콘텐츠를 하나의 문단에 표시할 수 있습니다.
- 세분화: 세분화 기호의 기본 세분화에는 기본적으로 대부분의 텍스트 세분화가 포함되어 있으며, 세분화 결과가 적절하지 않은 경우 세분화 기호의 위치를 자르기에 적합한 문서를 보거나 선택하거나 입력하여 세분화 기호를 추가할 수 있으며, 세분화 기호의 순서에 따라 잘라내기를 선택할 수 있습니다.

후속 최적화를 위한 아이디어: 동일한 의미를 가진 텍스트는 한 단락에서 잘라내도록 하세요.문단의 글자 수 제한으로 인해 문단을 하나의 문단으로 나눌 수 없는 경우, 문단의 겹치는 문자를 통해 문단 간의 상관관계를 수행하여 모델이 검색 시 동시에 검색될 확률을 높이고 출력 결과를 종합적으로 이해할 수 있도록 합니다.

모델 검색 결과:

文心智能体教程：（四）加工文档并同步到知识库 모델 검색 출력:

사례 2: 구조적 콘텐츠 세분화 사례

적용 범위: 고객 서비스 채팅 기록, 영업 대화 및 기타 질문과 답변 시나리오, 텍스트 양식 등에 적용됩니다.특징적인 구조적 특징의 내용모델 필요구조 내에서 콘텐츠의 의미를 이해합니다.

예제 파일입니다:웬신 인텔리전트 바디 플랫폼 FAQ.docx

세분화된 생각:

단락에서 잘라낸 텍스트 내에서 동일한 구조가 유지되도록 하려면 사용자 지정 세그먼테이션을 사용하는 것이 좋습니다.구체적인 세분화 결과는 예제 파일을 다운로드하고 지식창고를 만들어서 볼 수 있습니다.
- 최대 단락 문자 수: 먼저 원본 텍스트의 구조를 살펴보고 각 구조의 평균 글자 수는 얼마인지, 최대 글자 수는 몇 단락으로 설정할 것인지, 아마도 몇 개의 대표적인 단락을 선택하여 평균 글자 수를 계산할 수 있습니다. 예를 들어 샘플 문서는 질문과 답변 구조이고 단락이 2개이며 평균 글자 수는 340자, 최대 단락 글자 수는 340자로 설정되어 있습니다.
- 단락 오버레이 문자겹치는 문자는 0으로 설정되며, 글자 수의 제한으로 인해 단락을 하나의 단락으로 나눌 수 없는 경우 겹치는 문자를 사용하여 단락을 연결하여 모델이 출력 결과의 종합적인 이해를 검색할 때 동시에 검색될 확률을 높일 수 있습니다.
- 세분화질문과 답변의 각 그룹은 "질문", "답변"으로 표시되며, 질문과 답변 세분화의 구조에 따라 세분화 기호로 "질문"을 사용할 수 있으며, 세분화 앞의 "질문" 기호에서 세분화 결과의 질문과 답변 구조를 얻을 수 있습니다.

모델 검색 결과:

文心智能体教程：（四）加工文档并同步到知识库 모델 검색 출력:

文心智能体教程：（四）加工文档并同步到知识库

사례 3: Excel 데이터 클래스 콘텐츠 세분화 사례

적용 범위: 특정 사례에 적용데이터 쿼리, 데이터 통계 카테고리통계 이외의 상관관계가 없는 Excel 테이블 데이터 클래스의 행과 행 사이를 연결합니다.

예제 파일입니다:2023년 영화 박스오피스 데이터.xlsx

세분화된 생각:

통계 분석이 필요한 경우 함께 계산할 데이터를 최대한 1~3개의 세그먼트로 나누고(현재 모델은 지식 베이스를 최대 2,000자로 제한), 모델에 입력되는 원본 데이터의 완전성을 확보하여 최종 통계 결과의 정답률이 높도록 노력해야 합니다;

사용자 지정 세그먼트를 사용하여 모델에 입력된 원시 데이터의 무결성을 보장하여 최종 통계가 정확하도록 하는 것이 좋습니다.예제 파일을 다운로드하여 지식창고를 만들면 구체적인 세분화 결과를 볼 수 있습니다.
- 최대 단락 문자 수: 검색된 단락의 무결성을 보장하려면 최대 단락 문자 수를 최대 512자 제한으로 설정해야 합니다.
- 단락 겹치는 문자: 겹치는 문자가 차지하는 단락의 문자 수를 줄이려면 단락 겹치는 문자를 0으로 설정해야 합니다.
- 세분화: 표 유형 데이터를 줄 단위로 직접 잘라낼 수 있으며, 세분화 모드에서는 '줄 바꿈'을 선택합니다.

세분화 아이디어의 후속 최적화: 모델에서 지식창고를 최대 2,000자로 제한하는 경우에는 계산할 데이터를 가능한 한 1~3개 단락으로 나누어야 합니다. 더 큰 통계의 경우 통계에 필요한 모든 데이터가 모델에 입력된 3개 단락에 포함될 수 있도록 열이 2개 이하인 Excel 스프레드시트를 업로드하는 것이 좋습니다.

모델 검색 결과:

文心智能体教程：（四）加工文档并同步到知识库 출력 결과를 수정합니다:

文心智能体教程：（四）加工文档并同步到知识库

주의:

테이블 헤더는 세그먼트화된 결과를 검색하는 데 중요합니다.는 모델이 데이터를 이해하는 데 필요한 핵심 정보이므로 데이터 테이블 헤더는 명확한 의미를 가져야 하며, 모델이 이해할 수 없는 엉뚱한 단어를 사용하지 않도록 해야 합니다.
통계 분석이 필요한 플러그인 또는 인텔리전스의 경우 해당 플러그인 또는 인텔리전스를 다음과 같이 추가해야 합니다.자세한 계산 단계를 설명하는 명령 프롬프트는 모델의 통계 결과의 정확도를 향상시킬 수 있습니다.

지식창고에서 일반적인 QA 호출

Q1: 지식창고 호출의 효과를 미리 볼 때 "시스템 예외" 및 "서비스 예외"라는 메시지가 표시되는데 어떻게 처리해야 하나요?
A: "시스템 예외", "서비스 예외"는 가끔 발생하는 상황으로, 메시지가 표시된 후 새로 고침을 시도하거나 현재 페이지를 종료하여 다시 방문하고 캐시를 지우는 등의 방법으로 다시 시도할 수 있으며, 사용을 재개할 수 있습니다.

Q2: 지식창고가 리콜되지 않으면 어떻게 하나요?
A: 지식창고에 질문과 관련된 내용이 없을 수도 있습니다.지식창고 관리 페이지관련 콘텐츠가 있는지 확인합니다. 관련 콘텐츠가 없는 경우 질문에 따라 지식창고를 보강할 수 있으며, 관련 콘텐츠가 있지만 회수되지 않은 경우 3단계로 이관할 수 있습니다.

Q3: 지식창고에 관련 콘텐츠가 있는데 "관련 지식창고를 불러올 수 없습니다"라는 메시지가 계속 표시되는데 지식창고를 불러오려면 어떻게 해야 하나요?
A: 이 문제는 다음과 같이 해결할 수 있습니다.
먼저지식창고 관리 페이지의미론적 문제가 있는 경우 먼저 콘텐츠를 편집하여 의미론적 문제를 최적화할 수 있습니다;

둘째, 지식창고의 리콜 설정 기능을 통해 [검색 관련성 임계값]을 낮추어 리콜 효과를 디버깅할 수 있습니다.참고: [관련성 임계값 검색]은 현재 스마트 바디에 대해 전 세계적으로 적용되며, 문제의 개별 사례만 최적화하면 되는 등 대부분의 수요 시나리오를 통합하여 구성해야 하며, [피드백]을 통해 이상적인 답변을 제출하여 모델을 수정하여 답변을 생성할 수 있습니다.

Q4: 지식창고 리콜 결과가 사용자의 질문과 관련이 없는데 시스템에서 제공한 관련성 값이 상당히 높은데 어떻게 해결해야 하나요?
A: 이 문제를 해결하는 방법에는 세 가지가 있습니다:
1. 리콜 단락의 내용을 수정하고 관련 설명을 삭제한 다음 리콜 여부를 다시 검토합니다;
2. 지식창고 리콜 설정 디버깅, 리콜 결과에서 관련성 없는 리콜 결과가 하위권에 랭크되면 [검색 관련성 임계값]을 개선하거나 [리콜되는 최대 단락 수], [최대 단락 글자 수]를 줄여볼 수 있습니다;
3. 예제 문제만 최적화해야 하는 경우, [피드백]을 통해 이상적인 답을 제출하여 모델을 수정하여 답을 생성할 수 있습니다.

Q5: 지식창고의 관련 결과 중 일부만 리콜되었는데 다른 결과도 리콜되기를 원하는 경우에는 어떻게 해야 하나요?
A: 이 문제를 해결하는 방법에는 두 가지가 있습니다:
지식창고의 리콜 구성을 디버깅하여 [검색 관련성 임계값]을 줄이고, [리콜되는 최대 단락 수], [최대 단락 글자 수]를 개선해 볼 수 있습니다;
2. 예제 문제만 최적화해야 하는 경우, [피드백]을 통해 이상적인 답을 제출하여 모델을 수정하여 답을 생성할 수 있습니다.

Q6: 리콜 결과는 모두 괜찮지만 최종 결과물은 제 지식창고와는 아무런 관련이 없죠?
A: 이 문제는 모델이 답변을 꾸밀 때 지식창고 리콜 결과를 필터링하기 때문에 발생하며, 이 문제를 해결하려면 지식창고 적용에 대한 요구 사항으로 지능의 문자 설정을 보완하세요. 예시:
- 템플릿 1: 사용자가 질문을 하면 지식창고를 검색해야 하며, 검색 결과가 없으면 "죄송합니다, 이 문제에 대해 잘 모르니 다른 주제로 이야기할 수 있습니다~"라고 출력합니다.
- 템플릿 2: 사용자가 질문을 하면 검색된 지식창고에서 불러온 결과의 우선 순위를 정하여 답변이 생성됩니다.