문학적 마인드 지능 바디 튜토리얼: (4) 문서 처리 및 지식창고에 동기화하기
지식창고 소개
지식 기반은 지능형 기관의 출력 답변의 데이터 기반이며, 전문적인 데이터 축적을 보유한 개발자와 출력 결과에 대한 정확성과 전문성이 요구되는 개발자에게 적합합니다.
지식창고 모듈, 빅 모델 및 사용자 상호작용 프로세스에 자체 데이터를 업로드하면 지식창고에서 검색된 유사한 콘텐츠에 따라 빅 모델이 손질하여 결과를 생성하므로 모델 생성 범위를 효과적으로 제한할 수 있습니다.
원신 지능형 신체 플랫폼은 사용자의 독점 데이터의 보안을 전적으로 존중하고 보호하며, 제출된 데이터를 범용 대형 모델을 학습하거나 개선하는 데 사용하지 않으며, 당분간 독점 모델 학습 기능을 개방하지 않습니다.

1. 사용 시나리오
- 지식 베이스를 참조하고 검색이 제한된 인텔리전스를 제로 코딩으로 개발할 수 있습니다;
- 로우 코드로 인텔리전스를 개발할 때 지식창고를 인용합니다;
- 지식창고를 인용하여 데이터 플러그인을 빠르게 개발하세요.
2. 지식창고 포털
입력 1: 플랫폼에 로그인한 후 왼쪽 탐색을 클릭하여 지식창고 모듈에 액세스합니다.

항목 2: 제로 코드 인텔리전스를 개발하려면 인텔리전스 만들기 페이지에서 '새 지식창고'를 클릭하여 데이터를 추가합니다;


항목 3: 로우코드 개발 지식창고 시각적 정리 페이지에서 지식창고 키트를 끌어다 놓은 다음 '새 지식창고'를 클릭하여 지식창고 모듈로 들어갑니다;

항목 4: 데이터 플러그인을 개발하려면 플러그인 편집 페이지에서 "새 지식창고"를 클릭하여 지식창고 모듈에 액세스합니다.

3. 지식창고 만들기
1단계: 데이터를 업로드합니다.
지식창고 데이터를 업로드하는 방법은 ①로컬 파일 업로드, ②웹 주소 제출, ③Baidu.com.hk 가져오기의 3가지가 있으며, 1개의 계정으로 100개의 지식창고를 만들 수 있고, 모든 지식창고의 총 용량은 1G를 넘을 수 없으며, 1개의 지식창고는 100개의 파일 또는 URL에 추가할 수 있고 총 용량은 200M를 넘지 못합니다.
로컬 파일
- 현재 텍스트 및 이미지 유형만 지원되며, 여기에는 txt, md, docx, pdf, xlsx, csv, png, jpg, jpeg, m4a, mp3, mp4, mov, mpeg 형식이 포함됩니다.동영상 업로드만 지원되며, 동영상 콘텐츠 인식은 당분간 지원되지 않습니다.
데이터 유형 | 닉네임 | 업로드 지침 |
---|---|---|
복사본 | 텍스트 | 파일 크기가 50M를 초과하지 않음 |
md | 파일 크기가 50M를 초과하지 않음 | |
docx | 파일 크기가 50M를 초과하지 않음 | |
그래픽은 당분간 지원되지 않으며, 파일의 이미지는 필터링되고 텍스트만 유지됩니다. | ||
파일 크기가 50M를 초과하지 않음 | ||
그래픽은 당분간 지원되지 않으며, 파일의 이미지는 필터링되고 텍스트만 유지됩니다. | ||
최대 50페이지의 문서 스캔이 지원됩니다. | ||
xlsx | 파일 크기가 50M를 초과하지 않음 | |
데이터 파일은 xlsx 형식으로 업로드하는 것이 좋습니다. xlsx 형식 파일이 분할된 후 모델이 데이터의 의미를 이해하여 보다 정확한 데이터 쿼리 및 통계를 수행할 수 있도록 하려면 업로드된 xlsx에 테이블 헤더가 포함되어야 합니다. | ||
csv | 파일 크기가 50M를 초과하지 않음 | |
사진 | png | 30px ≤ 측면 길이 ≤ 4096px, 3:1 비율 이내, 크기는 20M를 초과할 수 없습니다. |
하나의 지식창고에 최대 500개의 이미지를 업로드할 수 있습니다. | ||
이미지에 실제 물품이 포함되어 있을 때 더 정확한 인식 결과를 얻을 수 있습니다. | ||
jpg | 30px ≤ 측면 길이 ≤ 4096px, 3:1 비율 이내, 크기는 20M를 초과할 수 없습니다. | |
하나의 지식창고 세트에 최대 500개의 이미지를 업로드할 수 있습니다. | ||
이미지에 실제 물품이 포함되어 있을 때 더 정확한 인식 결과를 얻을 수 있습니다. | ||
jpeg | 30px ≤ 측면 길이 ≤ 4096px, 3:1 비율 이내, 크기는 20M를 초과할 수 없습니다. | |
하나의 지식창고에 최대 500개의 이미지를 업로드할 수 있습니다. | ||
이미지에 실제 물품이 포함되어 있을 때 더 정확한 인식 결과를 얻을 수 있습니다. | ||
사운드 주파수 | m4a | 파일 크기가 50M를 초과하지 않음 |
지능형 인식을 통해 오디오를 텍스트로 변환합니다. | ||
mp3 | 파일 크기가 50M를 초과하지 않음 | |
지능형 인식을 통해 오디오를 텍스트로 변환합니다. | ||
비디오 | mp4 | 파일 크기가 200M를 초과하지 않음 |
지능형 인식을 통해 비디오를 텍스트로 변환합니다. | ||
mov | 파일 크기가 200M를 초과하지 않음 | |
지능형 인식을 통해 비디오를 텍스트로 변환합니다. | ||
mpeg | 파일 크기가 200M를 초과하지 않음 | |
지능형 인식을 통해 비디오를 텍스트로 변환합니다. |

웹 사이트 제출
- 웹 페이지 주소를 입력한 후 '식별' 버튼을 클릭하면 웹 페이지의 텍스트 데이터를 식별할 수 있으며, 공개적으로 액세스할 수 있고 바이두에서 색인한 웹 페이지 주소만 식별할 수 있으며, 로그인하여 액세스해야 하거나 바이두에서 색인할 수 있는 권한이 없는 경우 웹 페이지 주소를 식별하지 못합니다.
- 웹 페이지 업데이트 주기에 따라 자동 인식을 통해 지식창고 업데이트 주기를 설정할 수 있습니다.

바이두닷컴 가져오기
- 처음으로 Baidu.com 계정 데이터를 인증해야 하며, 인증에 성공하면 넷북에서 파일을 선택할 수 있습니다.
- 넷북 가져오기 시간 제한은 넷북 파일의 다운로드 속도에 따라 제한되며, 시간이 오래 걸리는 경우 백그라운드 처리를 선택할 수 있습니다.

2단계: 데이터 처리.
이 단계에서 빅 모델은 입력 및 출력 문자에 엄격한 제한이 있고 지식 기반도 일종의 입력 콘텐츠이므로 빅 모델의 입력 문자 수 제한을 따라야하므로 텍스트 분할의 목적은 긴 텍스트를 짧은 단락으로 자르고 관련없는 정보를 제거하며 입력 문자가 제한을 초과하지 않는다는 전제하에 가장 관련성이 높은 콘텐츠를 입력하는 것입니다. 큰 모델이 그림 내용을 더 정확하게 이해할 수 있도록 하기 위해 그림 내용에 먼저 주석을 달도록 모델을 호출합니다. 현재 빅모델에는 2~3개의 지식베이스 단락을 입력할 수 있으며, 관련 내용은 가급적 3개 이하의 단락으로 나눠서 입력해야 합니다.
- 텍스트 세분화: 이 플랫폼은 개발자가 텍스트, 구두점, 공백, 캐리지 리턴 등을 사용하여 긴 텍스트를 여러 세그먼트의 텍스트 콘텐츠로 잘라낼 수 있도록 지원하는 '기본 분할'과 '사용자 정의 분할'을 제공하여 모델이 텍스트 콘텐츠를 더 정확하게 이해할 수 있도록 지원합니다. 분할 처리 시 설정된 분할 방법에 따라 최대 분할 문자가 잘릴 수 있도록 보장됩니다.
소설, 고객 서비스 및 기타 Q&A 콘텐츠, 데이터 및 기타 콘텐츠의 시나리오, 세그먼트 설정 방법 파일 세그먼트 설정 방법(예제 포함)을 참조하세요.

- 양식 설정: 폼 파일의 테이블 헤더는 빅 모델이 테이블의 내용을 이해하기 위한 핵심 정보로 사용되며, 기본적으로 테이블의 첫 번째 줄이 헤더로 설정되며, 실제 테이블 구조에 따라 사용자 지정 레이블을 지정할 수 있도록 지원됩니다.

- 멀티미디어 설정: 기본적으로 사진의 큰 모델, 지능형 인식을 위한 오디오 콘텐츠를 호출하고 텍스트 주석을 생성하여 사진에 대한 링크 검색, 오디오 이해 및 보다 정확한 리콜 검색을 지원합니다. 생성된 주석 정보가 잘못된 경우 잘못된 내용을 수동으로 수정할 수 있습니다.곧 출시될 비디오 인식 기능을 기대해 주세요!

4. 지식창고 사용
방법 1: 제로 코드 개발: 지식창고 본문 만들기 페이지에서 지식창고를 선택합니다. 지식창고 호출을 관찰하고 검색 매개 변수를 디버깅하여 지식창고 검색 리콜 효과를 최적화할 수 있습니다. 자세한 내용은 지식창고 호출의 일반적인 QA를 참조하세요.

방법 2: 로우코드 개발: 시각적 오케스트레이션 페이지에서 지식창고 제품군을 끌어서 놓아 이미 만들어진 지식창고를 선택합니다.

방법 3: 데이터 플러그인을 개발하고 이미 만들어진 지식창고를 선택합니다.

문서 세분화 설정 방법(예제 포함)
1. 문서 세그먼트는 언제 변경해야 하나요?
- 구조화된 데이터
- 스마트바디 또는 플러그인 출력 결과 지식창고에 성공적으로 도달했지만 관련 없는 정보가 너무 많이 포함된 경우
파일 세분화 설정 방법 2.
데이터 세분화 처리의 목적은 긴 텍스트를 짧은 단락으로 잘라 검색된 콘텐츠에서 관련 없는 정보를 최대한 많이 제거하여 모델이 보다 효율적으로 처리하고 이해할 수 있도록 하는 것입니다.
웬신 지능형 본문 플랫폼은 기본 세분화 및 사용자 지정 세분화를 제공합니다. 문서 유형에 따라 서로 다른 세분화 구성을 전환해야 합니다.
- 최대 세그먼트 문자 수: 긴 텍스트를 잘라낸 후 단락의 최대 글자 수로, 각 단락의 글자 수 대신 50자에서 512자까지 원하는 숫자를 입력할 수 있습니다;

- 단락 겹치는 문자: 각 세그먼트의 시작과 이전 세그먼트의 끝에서 반복 가능한 최대 문자 수로, 0에서 500 사이의 숫자를 입력할 수 있으며, 잘린 세그먼트의 원래 의미를 최대한 유지하고, 분할로 인한 불완전한 표현을 방지하며, 모델이 더 정확하고 완벽하게 이해할 수 있도록 겹치는 문자 수는 단락 최대 문자 수보다 작아야 한다는 점에 유의하세요;

- 세분화 모드: 긴 텍스트 자르기를 위한 세분화 기호, 일반적으로 사용되는 세분화 기호를 선택하거나 기호를 입력할 수 있으며, 텍스트를 자를 때 세분화 기호 정렬에 따라 자르기 위치가 선택됩니다.

참고: 단일 지식창고의 세그먼트 수는 700W를 초과할 수 없으므로 세그먼트를 합리적으로 설정하세요.
3. 세분화된 사례
사례 1: 긴 텍스트 콘텐츠 세분화의 경우
적용 범위: 소설, 전자책, 텍스트, 회사 소개서, 논문, 특허 문서 등 긴 텍스트 콘텐츠의 맥락에서 의미를 이해해야 하는 경우에 적용할 수 있습니다.
예제 파일입니다:수트를 입은 남자.docx
세분화된 생각:
권장 기본 세분화구체적인 세분화 결과는 예제 파일을 다운로드하고 지식창고를 만들어서 볼 수 있습니다.
- 최대 단락 문자 : 긴 텍스트 콘텐츠 단락은 일반적으로 더 길고 단락과 단락 사이에 약간의 관계가 있으므로 최대 단락 문자를 조금 더 크게 설정하고 단락에 완전한 의미가 포함되어 있는지 확인하고 모델이 더 좋고 더 정확하게 이해할 수 있도록 노력하십시오.
- 문단 겹침 문자: 문단을 맥락에서 이해해야 하는 경우 문단 겹침 문자를 필요에 따라 입력하여 문단 간 관련 콘텐츠를 하나의 문단에 표시할 수 있습니다.
- 세분화: 세분화 기호의 기본 세분화에는 기본적으로 대부분의 텍스트 세분화가 포함되어 있으며, 세분화 결과가 적절하지 않은 경우 세분화 기호의 위치를 자르기에 적합한 문서를 보거나 선택하거나 입력하여 세분화 기호를 추가할 수 있으며, 세분화 기호의 순서에 따라 잘라내기를 선택할 수 있습니다.
후속 최적화를 위한 아이디어: 동일한 의미를 가진 텍스트는 한 단락에서 잘라내도록 하세요.문단의 글자 수 제한으로 인해 문단을 하나의 문단으로 나눌 수 없는 경우, 문단의 겹치는 문자를 통해 문단 간의 상관관계를 수행하여 모델이 검색 시 동시에 검색될 확률을 높이고 출력 결과를 종합적으로 이해할 수 있도록 합니다.
모델 검색 결과:
모델 검색 출력:

사례 2: 구조적 콘텐츠 세분화 사례
적용 범위: 고객 서비스 채팅 기록, 영업 대화 및 기타 질문과 답변 시나리오, 텍스트 양식 등에 적용됩니다.특징적인 구조적 특징의 내용모델 필요구조 내에서 콘텐츠의 의미를 이해합니다.
예제 파일입니다:웬신 인텔리전트 바디 플랫폼 FAQ.docx
세분화된 생각:
단락에서 잘라낸 텍스트 내에서 동일한 구조가 유지되도록 하려면 사용자 지정 세그먼테이션을 사용하는 것이 좋습니다.구체적인 세분화 결과는 예제 파일을 다운로드하고 지식창고를 만들어서 볼 수 있습니다.
- 최대 단락 문자 수: 먼저 원본 텍스트의 구조를 살펴보고 각 구조의 평균 글자 수는 얼마인지, 최대 글자 수는 몇 단락으로 설정할 것인지, 아마도 몇 개의 대표적인 단락을 선택하여 평균 글자 수를 계산할 수 있습니다. 예를 들어 샘플 문서는 질문과 답변 구조이고 단락이 2개이며 평균 글자 수는 340자, 최대 단락 글자 수는 340자로 설정되어 있습니다.
- 단락 오버레이 문자겹치는 문자는 0으로 설정되며, 글자 수의 제한으로 인해 단락을 하나의 단락으로 나눌 수 없는 경우 겹치는 문자를 사용하여 단락을 연결하여 모델이 출력 결과의 종합적인 이해를 검색할 때 동시에 검색될 확률을 높일 수 있습니다.
- 세분화질문과 답변의 각 그룹은 "질문", "답변"으로 표시되며, 질문과 답변 세분화의 구조에 따라 세분화 기호로 "질문"을 사용할 수 있으며, 세분화 앞의 "질문" 기호에서 세분화 결과의 질문과 답변 구조를 얻을 수 있습니다.
모델 검색 결과:
모델 검색 출력:
사례 3: Excel 데이터 클래스 콘텐츠 세분화 사례
적용 범위: 특정 사례에 적용데이터 쿼리, 데이터 통계 카테고리통계 이외의 상관관계가 없는 Excel 테이블 데이터 클래스의 행과 행 사이를 연결합니다.
예제 파일입니다:2023년 영화 박스오피스 데이터.xlsx
세분화된 생각:
통계 분석이 필요한 경우 함께 계산할 데이터를 최대한 1~3개의 세그먼트로 나누고(현재 모델은 지식 베이스를 최대 2,000자로 제한), 모델에 입력되는 원본 데이터의 완전성을 확보하여 최종 통계 결과의 정답률이 높도록 노력해야 합니다;
사용자 지정 세그먼트를 사용하여 모델에 입력된 원시 데이터의 무결성을 보장하여 최종 통계가 정확하도록 하는 것이 좋습니다.예제 파일을 다운로드하여 지식창고를 만들면 구체적인 세분화 결과를 볼 수 있습니다.
- 최대 단락 문자 수: 검색된 단락의 무결성을 보장하려면 최대 단락 문자 수를 최대 512자 제한으로 설정해야 합니다.
- 단락 겹치는 문자: 겹치는 문자가 차지하는 단락의 문자 수를 줄이려면 단락 겹치는 문자를 0으로 설정해야 합니다.
- 세분화: 표 유형 데이터를 줄 단위로 직접 잘라낼 수 있으며, 세분화 모드에서는 '줄 바꿈'을 선택합니다.
세분화 아이디어의 후속 최적화: 모델에서 지식창고를 최대 2,000자로 제한하는 경우에는 계산할 데이터를 가능한 한 1~3개 단락으로 나누어야 합니다. 더 큰 통계의 경우 통계에 필요한 모든 데이터가 모델에 입력된 3개 단락에 포함될 수 있도록 열이 2개 이하인 Excel 스프레드시트를 업로드하는 것이 좋습니다.
모델 검색 결과:
출력 결과를 수정합니다:
주의:
- 테이블 헤더는 세그먼트화된 결과를 검색하는 데 중요합니다.는 모델이 데이터를 이해하는 데 필요한 핵심 정보이므로 데이터 테이블 헤더는 명확한 의미를 가져야 하며, 모델이 이해할 수 없는 엉뚱한 단어를 사용하지 않도록 해야 합니다.
- 통계 분석이 필요한 플러그인 또는 인텔리전스의 경우 해당 플러그인 또는 인텔리전스를 다음과 같이 추가해야 합니다.자세한 계산 단계를 설명하는 명령 프롬프트는 모델의 통계 결과의 정확도를 향상시킬 수 있습니다.
지식창고에서 일반적인 QA 호출
Q1: 지식창고 호출의 효과를 미리 볼 때 "시스템 예외" 및 "서비스 예외"라는 메시지가 표시되는데 어떻게 처리해야 하나요?
A: "시스템 예외", "서비스 예외"는 가끔 발생하는 상황으로, 메시지가 표시된 후 새로 고침을 시도하거나 현재 페이지를 종료하여 다시 방문하고 캐시를 지우는 등의 방법으로 다시 시도할 수 있으며, 사용을 재개할 수 있습니다.
Q2: 지식창고가 리콜되지 않으면 어떻게 하나요?
A: 지식창고에 질문과 관련된 내용이 없을 수도 있습니다.지식창고 관리 페이지관련 콘텐츠가 있는지 확인합니다. 관련 콘텐츠가 없는 경우 질문에 따라 지식창고를 보강할 수 있으며, 관련 콘텐츠가 있지만 회수되지 않은 경우 3단계로 이관할 수 있습니다.
Q3: 지식창고에 관련 콘텐츠가 있는데 "관련 지식창고를 불러올 수 없습니다"라는 메시지가 계속 표시되는데 지식창고를 불러오려면 어떻게 해야 하나요?
A: 이 문제는 다음과 같이 해결할 수 있습니다.
먼저지식창고 관리 페이지의미론적 문제가 있는 경우 먼저 콘텐츠를 편집하여 의미론적 문제를 최적화할 수 있습니다;

둘째, 지식창고의 리콜 설정 기능을 통해 [검색 관련성 임계값]을 낮추어 리콜 효과를 디버깅할 수 있습니다.참고: [관련성 임계값 검색]은 현재 스마트 바디에 대해 전 세계적으로 적용되며, 문제의 개별 사례만 최적화하면 되는 등 대부분의 수요 시나리오를 통합하여 구성해야 하며, [피드백]을 통해 이상적인 답변을 제출하여 모델을 수정하여 답변을 생성할 수 있습니다.


Q4: 지식창고 리콜 결과가 사용자의 질문과 관련이 없는데 시스템에서 제공한 관련성 값이 상당히 높은데 어떻게 해결해야 하나요?
A: 이 문제를 해결하는 방법에는 세 가지가 있습니다:
1. 리콜 단락의 내용을 수정하고 관련 설명을 삭제한 다음 리콜 여부를 다시 검토합니다;
2. 지식창고 리콜 설정 디버깅, 리콜 결과에서 관련성 없는 리콜 결과가 하위권에 랭크되면 [검색 관련성 임계값]을 개선하거나 [리콜되는 최대 단락 수], [최대 단락 글자 수]를 줄여볼 수 있습니다;
3. 예제 문제만 최적화해야 하는 경우, [피드백]을 통해 이상적인 답을 제출하여 모델을 수정하여 답을 생성할 수 있습니다.
A: 이 문제를 해결하는 방법에는 세 가지가 있습니다:
1. 리콜 단락의 내용을 수정하고 관련 설명을 삭제한 다음 리콜 여부를 다시 검토합니다;
2. 지식창고 리콜 설정 디버깅, 리콜 결과에서 관련성 없는 리콜 결과가 하위권에 랭크되면 [검색 관련성 임계값]을 개선하거나 [리콜되는 최대 단락 수], [최대 단락 글자 수]를 줄여볼 수 있습니다;
3. 예제 문제만 최적화해야 하는 경우, [피드백]을 통해 이상적인 답을 제출하여 모델을 수정하여 답을 생성할 수 있습니다.

Q5: 지식창고의 관련 결과 중 일부만 리콜되었는데 다른 결과도 리콜되기를 원하는 경우에는 어떻게 해야 하나요?
A: 이 문제를 해결하는 방법에는 두 가지가 있습니다:
지식창고의 리콜 구성을 디버깅하여 [검색 관련성 임계값]을 줄이고, [리콜되는 최대 단락 수], [최대 단락 글자 수]를 개선해 볼 수 있습니다;
2. 예제 문제만 최적화해야 하는 경우, [피드백]을 통해 이상적인 답을 제출하여 모델을 수정하여 답을 생성할 수 있습니다.
A: 이 문제를 해결하는 방법에는 두 가지가 있습니다:
지식창고의 리콜 구성을 디버깅하여 [검색 관련성 임계값]을 줄이고, [리콜되는 최대 단락 수], [최대 단락 글자 수]를 개선해 볼 수 있습니다;
2. 예제 문제만 최적화해야 하는 경우, [피드백]을 통해 이상적인 답을 제출하여 모델을 수정하여 답을 생성할 수 있습니다.

Q6: 리콜 결과는 모두 괜찮지만 최종 결과물은 제 지식창고와는 아무런 관련이 없죠?
A: 이 문제는 모델이 답변을 꾸밀 때 지식창고 리콜 결과를 필터링하기 때문에 발생하며, 이 문제를 해결하려면 지식창고 적용에 대한 요구 사항으로 지능의 문자 설정을 보완하세요. 예시:
- 템플릿 1: 사용자가 질문을 하면 지식창고를 검색해야 하며, 검색 결과가 없으면 "죄송합니다, 이 문제에 대해 잘 모르니 다른 주제로 이야기할 수 있습니다~"라고 출력합니다.
- 템플릿 2: 사용자가 질문을 하면 검색된 지식창고에서 불러온 결과의 우선 순위를 정하여 답변이 생성됩니다.
A: 이 문제는 모델이 답변을 꾸밀 때 지식창고 리콜 결과를 필터링하기 때문에 발생하며, 이 문제를 해결하려면 지식창고 적용에 대한 요구 사항으로 지능의 문자 설정을 보완하세요. 예시:
- 템플릿 1: 사용자가 질문을 하면 지식창고를 검색해야 하며, 검색 결과가 없으면 "죄송합니다, 이 문제에 대해 잘 모르니 다른 주제로 이야기할 수 있습니다~"라고 출력합니다.
- 템플릿 2: 사용자가 질문을 하면 검색된 지식창고에서 불러온 결과의 우선 순위를 정하여 답변이 생성됩니다.

© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...