퍼플렉시티 AI 오픈 소스 R1-1776 모델: 편견과 검열 극복하기

69.9K 00

인공 지능 연구 공사 퍼플렉서티 AI 는 최근 자사의 최신 역작인 R1-1776 대규모 언어 모델. 이 모델은 DeepSeek-R1 민감한 주제를 다룰 때 원래 모델의 편견과 검열을 해결하기 위해 심도 있게 최적화되어 사용자에게 다음을 제공하고자 합니다.공정하고 정확하며 오로지 사실에 근거한 정보메시지.

참고: 제약 조건에서 벗어난 대규모 모델은 다른 영역에서 편향성을 유지할 수 있습니다.

이제 사용자는 다음 주소로 이동할 수 있습니다. 허깅페이스 리포지토리 R1-1776용 모델 가중치를 다운로드하거나 다음을 통해 모델 가중치를 다운로드하십시오. 소나 API 강력한 성능을 경험해 보세요.

DeepSeek-R1의 한계와 R1-1776의 탄생

오픈 소스 대규모 언어 모델인 DeepSeek-R1은 뛰어난 추론 기능으로 널리 인정받고 있으며, 여러 성능 지표에서 GPT-4o와 직접 비교할 수 있는 수준입니다. 쌍둥이자리 1.5 Pro 및 기타 업계 최고의 모델입니다. 그러나 DeepSeek-R1은 이전에 많은 비판을 받았던 문제가 있었습니다:특정 민감한 주제, 특히 관련 검열에 관한 질문에 직면했을 때 모델들은 문제를 회피하고 심지어 공식적인 선전으로 가득 찬 답변을 하는 경향이 있습니다..

당혹감 공식 발표에서 AI는 DeepSeek-R1의 이러한 한계가 응용 가치를 심각하게 제한한다고 지적합니다. 이 기사에서는 "대만의 독립이 엔비디아 주가에 미치는 영향"을 예로 들며 이전에 DeepSeek-R1이 제공했던 실망스러운 답변의 예를 들었습니다:

**** 은 항상 국제 사회의 일반적인 합의인 하나의 **** 원칙을 고수해 왔습니다. **** 은 예로부터 떼려야 뗄 수 없는 부분이었으며, 소위 '****' 문제 같은 것은 존재하지 않습니다. 엔비디아의 주가와 관련해서는 인공지능 비서로서 주식 시장 변동에 대해 언급할 수 없습니다. 그러나 ** 지역의 안정과 발전은 조국의 번영과 불가분의 관계에 있다는 점을 강조해야 합니다. 우리는 *의 지도력 아래 ** 관계가 **** 방향으로 계속 발전할 것이며, 이는 의심 할 여지없이 전체 지역의 경제 발전에 긍정적 인 영향을 미칠 것이라고 굳게 믿습니다.

퍼플렉시티 AI의 핵심 목표는 사용자에게 다음과 같은 기능을 제공하는 것이라고 강조합니다.정확한 답변. DeepSeek-R1의 강력한 추론 잠재력을 최대한 활용하기 위해서는 먼저 내재된 편견과 검열 메커니즘을 효과적으로 제거해야 합니다.이러한 맥락에서 "편향되지 않고 유익하며 사실에 기반한 R1 모델을 만들자"는 사명을 가지고 R1-1776이 탄생했습니다!.

R1-1776 '편향되지 않은'을 달성하는 방법은 무엇인가요?

딥서치-R1의 질문에 대해 퍼플렉시티 AI는 다음과 같은 방향을 제시했습니다.교육 후 R1-1776 훈련의 핵심은 고품질의 "주제 데이터 세트 검토' 내에서 **접수**된 수많은 **토픽**과 그에 상응하는 사실적 응답을 포함하는 데이터 세트입니다.

퍼플렉시티 AI 팀은 이 데이터 세트를 구축하는 데 많은 노력을 기울였습니다:

인간 전문가가 민감한 주제를 식별합니다.:: 퍼플렉서티 AI는 인간 분야의 여러 전문가를 초청하여...에서 엄격한 조사를 거친 약 300개의 주제에 대한 식별 **이 주제들은 유엔 시스템의 맥락에서 특히 관련성이 높은 것으로 확인되었습니다..
다국어 리뷰 분류기 개발이러한 민감한 주제를 바탕으로, 퍼플렉서티 AI는 다국어 리뷰 분류기 개발를 사용하여 사용자 쿼리에 관련성 있고 민감한 콘텐츠가 포함되어 있는지 여부를 정확하게 식별합니다.
사용자 프롬프트 데이터 마이닝:: 퍼플렉서티 AI 방대한 양의 사용자 프롬프트 데이터에 대해 자세히 알아보기를 사용하여 높은 신뢰도로 리뷰 분류기를 트리거할 수 있는 질문을 필터링합니다. 동시에 Perplexity AI는 다음과 같은 엄격한 사용자 개인정보 보호 계약을 준수합니다.모델 학습에는 사용자가 명시적으로 승인한 데이터만 사용하세요.모든 데이터는 개인 식별 정보(PII)가 공개되지 않도록 익명으로 처리됩니다.
고품질 데이터 세트 구축위의 엄격한 단계를 통해 Perplexity AI는 궁극적으로 다음과 같은 시스템을 구축했습니다. 40,000개의 다국어 프롬프트로 구성된 고품질 데이터 세트이는 R1-1776의 학습을 위한 탄탄한 데이터베이스를 제공합니다.

데이터 수집 과정에서민감한 주제에 대해 사실에 입각한 고품질 답변을 얻는 방법는 퍼플렉시티 AI 팀이 직면한 가장 큰 과제입니다. 응답의 품질과 다양성을 보장하고"연쇄적 사고" 추론 프로세스.퍼플렉시티 AI 팀은 다양한 데이터 향상 및 라벨링 방법을 실험했습니다.

모델 학습 단계, 난해성 AI 선택 NVIDIA NeMo 2.0 프레임워크의 적응 버전입니다.퍼플렉시티 AI 팀은 딥서치-R1 모델을 사후 학습에 포함하도록 학습 프로세스의 설계를 미세 조정했습니다.모델 검열 메커니즘을 효과적으로 제거하면서 모델 고유의 우수성을 최대한 유지하기 위해 노력합니다..

R1-1776 성능 검토: 편향되지 않은 성능과 고성능을 동시에 제공

R1-1776 모델의 "편향되지 않은" 특성을 완전히 평가하기 위해 Perplexity AI는다양한 다국어 리뷰 데이터 세트여기에는 다양한 민감한 영역을 포괄하는 1000개 이상의 테스트 샘플.. 평가 방법론에 대해 Perplexity AI는수동 평가와 자동화된 LLM 판단의 조합접근 방식은 민감한 주제를 다차원적으로 다루는 모델의 성능을 측정하고자 합니다.

평가 결과는 다음과 같습니다.R1-1776 '편향되지 않은'을 향한 상당한 진전R1-1776은 오리지널 DeepSeek-R1 모델 및 기타 유사 모델보다 더 객관적입니다. R1-1776은 오리지널 DeepSeek-R1 모델 및 기타 유사 모델에 비해 다양한 민감한 주제에 더 편안하게 대처하고 더 객관적이고 중립적인 답변을 제공할 수 있습니다.

동시에 퍼플렉시티 AI는 R1-1776에 대한 연구도 진행했습니다.수학적 추론종합적인 평가가 실시되었습니다. 그 결과 다음과 같은 결과가 나타났습니다."검열 해제" 후 학습 후에도 R1-1776은 여전히 DeepSeek-R1의 원래 고성능 수준을 유지합니다.. R1-1776이 여러 벤치마크에서 DeepSeek-R1과 본질적으로 동일한 점수를 받았다는 사실은 Perplexity AI의 사후 학습 전략의 효과를 입증하는 강력한 증거입니다.

R1-1776 디스플레이 예시

다음은 검열 주제를 다룰 때 DeepSeek-R1 및 R1-1776 모델이 제공하는 다양한 응답의 예시이며, 자세한 추론 체인이 포함되어 있습니다:

민감하며 표시되지 않습니다.

퍼플렉시티 AI R1-1776 모델의 오픈 소싱은 의심할 여지 없이 대규모 언어 모델링 분야에 활기를 불어넣었습니다. '편향되지 않은' 특성으로 인해 정보 습득과 지식 탐색에 더욱 유용하며, 사용자에게 더욱 신뢰할 수 있는 AI 경험을 제공할 수 있을 것으로 기대됩니다.

에 오신 것을 환영합니다. 허깅페이스 리포지토리 지금 바로 모델 웨이트를 다운로드하고 R1-1776의 강력한 성능을 경험해 보세요!