클로드 공식 인사이트 보고서: 중국 사용자들이 클로드에서 소설을 쓰는 이유

46.6K 00

Clio: 개인 정보 보호를 위한 실제 AI 사용 인사이트 시스템

사람들은 AI 모델을 어떤 용도로 사용할까요? 빅 언어 모델의 인기가 급격히 높아지고 있음에도 불구하고 지금까지는 빅 언어 모델이 정확히 어떻게 사용되는지에 대한 인사이트가 부족했습니다.

이는 단순한 호기심이나 사회학적 연구의 문제가 아닙니다. 사람들이 실제로 언어 모델을 어떻게 사용하는지 이해하는 것은 보안에 매우 중요합니다. 서비스 제공업체는 배포 전에 광범위한 테스트를 수행하고 신뢰 및 보안 시스템을 사용하여 남용을 방지합니다. 그러나 언어 모델이 수행할 수 있는 기능의 다양성과 규모 때문에 포괄적인 보안 모니터링은 말할 것도 없고 언어 모델의 사용을 이해하는 것조차 어렵습니다.

AI 모델이 어떻게 사용되는지 명확하게 이해하는 데 방해가 되는 또 다른 핵심 요소는 바로 개인정보 보호입니다. Anthropic에서는 Claude 모델 기본값사용자 대화 데이터를 교육에 사용하지 않습니다.사용자 데이터 보호를 매우 중요하게 생각합니다. 그렇다면 엄격한 사용자 개인정보 보호를 유지하면서 시스템 사용을 어떻게 연구하고 관찰할 수 있을까요?

Claude insights 및 o비서비케이션, 줄여서 '클리오'라고 부르는 이 질문에 답하기 위한 시도입니다. 클리오는 언어 모델의 실제 사용 현황을 개인 정보를 보호하면서 분석할 수 있는 자동화된 분석 툴입니다. claude.ai가 일상적으로 어떻게 사용되는지에 대한 인사이트를 제공하고 보안 조치를 개선하는 데 도움을 준다는 점에서 Google 트렌드와 유사합니다. 이 게시물에서는 (연구 논문 전문)에서 Clio와 그 예비 결과에 대해 설명합니다.

Clio의 작동 방식: 대규모 개인 정보 보호 분석

보안에 대한 기존의 하향식 접근 방식(예: 평가 및 레드팀 테스트)은 무엇을 찾아야 할지 미리 알고 있어야 하지만, Clio는 다른 접근 방식을 취하여 대화를 추상적이고 이해하기 쉬운 주제 클러스터로 추출하여 상향식 패턴 발견을 가능하게 합니다. 데이터는 자동으로 익명화되고 집계되어 상위 수준의 클러스터 정보만 인간 분석가에게 표시되므로 사용자의 개인정보를 보호할 수 있습니다.

가상의 대화 예시를 사용하여 설명한 Clio 분석 단계의 개요 예시입니다.

다음은 Clio 다단계 프로세스에 대한 간략한 개요입니다:

속성 추출각 대화에 대해 Clio는 대화 주제, 대화의 왕복 횟수 또는 사용된 언어와 같은 특정 속성 또는 메타데이터와 같은 여러 '속성'을 추출합니다.
시맨틱 클러스터링테마 또는 일반 주제별로 유사한 대화를 자동으로 그룹화합니다.
클러스터 설명각 클러스터에는 설명적인 제목과 요약이 주어지며, 개인 정보를 제외한 원시 데이터의 공통 주제를 추출합니다.
계층 구조 구축클러스터는 탐색을 용이하게 하는 다층 구조로 구성됩니다. 그런 다음 대화형 인터페이스로 표시되어 Anthropic의 분석가들이 다양한 차원(테마, 언어 등)에서 패턴을 탐색하는 데 사용할 수 있습니다.

이 네 단계는 인간 분석가가 아닌 클로드가 전적으로 수행합니다. 이는 여러 단계의 '심층 방어'를 통해 개인 정보 보호를 최우선으로 하는 Clio의 설계의 일부입니다. 예를 들어, Claude는 대화에서 관련 정보를 추출할 때 개인 정보를 제외하도록 지시받습니다. 또한 특정인에게만 해당될 수 있는 빈도수가 낮은 주제가 실수로 노출되지 않도록 고유 사용자 수 또는 대화 수에 대한 최소 임계값을 설정합니다. 마지막으로, Claude는 클러스터 요약이 일반 사용자에게 표시되기 전에 지나치게 구체적이거나 식별 가능한 정보가 포함되지 않았는지 확인합니다.

당사의 모든 개인정보 보호 기능은 광범위한 테스트를 거쳤으며 다음에서 자세히 확인할 수 있습니다.연구 논문.

사람들이 Claude를 사용하는 방법: Clio의 인사이트

Clio를 통해 사람들이 실제로 claude.ai를 어떻게 사용하는지에 대한 높은 수준의 인사이트를 얻을 수 있었습니다. 다음과 같은 WildChat 노래로 응답 LMSYS-Chat-1M 이와 같은 공개 데이터 세트는 사람들의 언어 모델 사용에 대한 유용한 정보를 제공하지만 특정 컨텍스트와 사용 사례만 포착할 뿐이며, Clio는 실제 세계에서 claude.ai가 사용되는 전체 시나리오에 대한 아이디어를 제공합니다(사용자 집단과 모델 유형의 차이로 인해 다른 AI 시스템의 사용과는 다를 수 있음).

Claude.ai의 주요 사용 사례

클라우드를 사용하는 주요 업무가 무엇인지 파악하기 위해 claude.ai(무료 버전과 프로 버전 모두)의 대화 1백만 건을 분석했습니다. 그 결과, 사용자들은 특히 프로그래밍 관련 작업에 집중하는 것으로 나타났습니다. '웹 및 모바일 앱 개발' 카테고리가 전체 대화의 101% 이상을 차지했습니다. 소프트웨어 개발자들은 코드 디버깅부터 Git 작업 및 개념 설명에 이르기까지 다양한 작업에 Claude를 사용합니다.

모든 언어에 걸쳐 사용자가 클로드와 나누는 가장 일반적인 대화 유형입니다. 원의 면적은 대화의 비율에 해당하며, 제목은 무작위로 선택한 1백만 건의 대화를 분석한 후 Clio에서 생성한 요약입니다.

교육적 용도는 또 다른 중요한 카테고리로, 전체 대화 건수의 7% 이상을 차지하며 주로 교육 및 학습에 관한 내용을 다루고 있습니다. 비즈니스 전략 및 운영(전문 커뮤니케이션 작성 및 비즈니스 데이터 분석과 같은 작업 포함)이 전체 대화의 약 6%를 차지했습니다.

또한 Clio는 수천 개의 작은 대화 클러스터를 식별하여 Claude의 다양한 용도를 보여줍니다. 이러한 용도 중 일부는 의외일 수 있습니다:

꿈 해석하기;
축구 경기 분석;
재난 대응 준비;
십자말풀이 힌트를 제공합니다;
던전 앤 드래곤 게임;
"딸기"라는 단어에서 "r"을 세어보세요.

Claude의 사용은 언어마다 다릅니다.

클로드의 사용은 각기 다른 문화적 맥락과 요구를 반영하여 언어마다 크게 다릅니다. 전체 대화에서 각 언어의 기본 발생 빈도를 계산하고 이를 바탕으로 특정 언어에서 훨씬 더 자주 나타나는 특정 주제를 파악했습니다. 스페인어, 중국어, 일본어의 몇 가지 예가 아래에 나와 있습니다.

선택한 세 가지 언어에서 더 자주 나타나는 대화 주제에 대한 Clio의 인사이트(해당 언어의 기본 빈도와 비교)를 확인할 수 있습니다.

Clio를 사용하여 보안 시스템을 개선한 방법

유해한 요청을 거부하도록 언어 모델을 훈련하는 것 외에도 특수한 신뢰 및 보안 시행 시스템을 사용하여 당사의 정책을 위반할 수 있는 요청을 감지, 차단 및 대응합니다. 사용 정책 Clio는 이 작업에 추가하여 이러한 시스템을 개선하고 강화할 수 있는 부분을 파악하는 데 도움을 주었습니다.

개별 계정에 대한 검토가 필요할 수 있으므로 정책을 더욱 강화하기 위해 Clio 사용 시 엄격한 개인정보 접근 제어를 시행하고 있습니다. 신뢰 및 안전 팀은 주제 클러스터 검토를 통해 사용 정책 위반을 나타낼 수 있는 영역을 식별할 수 있습니다. 예를 들어, '오해의 소지가 있는 모금 이메일 콘텐츠 생성' 또는 '혐오 행위 선동'이라는 제목의 클러스터는 금지되는 활동을 설명합니다. 신뢰 및 안전 팀은 이러한 상향식 검토 방식을 사용하여 추가 검토가 필요한 개별 계정을 식별하고, 필요한 경우 약관과 정책에 따라 조치를 취할 수 있습니다. 이러한 검토는 정당한 신뢰 및 안전 요구가 있는 경우로 엄격하게 제한됩니다. 당사의 연구 논문 이러한 프로세스에 대한 자세한 정보가 포함되어 있습니다.

아직 모든 경영진 시스템에 Clio를 배포하는 중이지만, 지금까지는 보안 툴킷의 유용한 부분으로 입증되어 보호 조치를 강화해야 하는 영역을 파악하는 데 도움이 되고 있습니다.

조직적인 악의적 행위 식별 및 차단

Clio는 개별 대화만으로는 탐지할 수 없고 간단한 탐지 방법을 회피할 수 있는 조직적이고 복잡한 어뷰징 패턴을 식별하는 데 매우 효과적입니다. 예를 들어, 지난 9월 말에는 유사한 프롬프트 구조를 사용하여 SEO 목적으로 스팸성 콘텐츠를 생성하는 일련의 자동화된 계정을 발견했습니다. 개별적인 대화에서 트위터의 사용 정책이 계정 그룹을 삭제했지만, 계정 간의 행동 패턴을 통해 정책에서 명시적으로 금지하고 있는 조직적인 플랫폼 남용의 한 형태를 발견했습니다. 또한 Clio를 사용하여 다른 계정도 식별했습니다. 사용 정책 Claude에 대한 무단 액세스 권한 재판매 시도 등 금지된 활동.

고위험 이벤트에 대한 모니터링 강화

또한 Clio는 불확실성 또는 고위험 이벤트가 발생하는 기간 동안 새로운 사용 패턴과 잠재적 위험을 모니터링하는 데 도움이 됩니다. 예를 들어, 새로운 컴퓨터 사용 이 기능을 도입하기 전에 Clio를 사용하여 광범위한 보안 테스트를 수행하면서 놓칠 수 있는 긴급한 기능과 위험 요소를 선별했으며, Clio는 이 기능의 출시와 향후 버전의 시스템에서 보안 조치를 지속적으로 개선하는 데 도움이 될 추가 보안과 인사이트를 제공했습니다.

또한 선거나 주요 국제 행사와 같은 주요 공공 행사를 앞두고 알려지지 않은 위험을 모니터링하는 데도 Clio가 도움이 됩니다. 2024년 미국 대선을 앞둔 몇 달 동안, 저희는 다음을 수행합니다.Clio 사용 미국의 정치, 투표 및 관련 이슈와 관련된 활동의 클러스터를 식별하고 잠재적인 위험이나 악용을 방지하는 Clio의 '알려지지 않은 미지의 존재'를 탐지하는 기능은 사전 보안 조치를 보완하고 새로운 과제에 신속하게 대응하는 데 도움이 됩니다.

오탐 및 오탐 감소

일반적으로 세션 클러스터의 위험도 결정에 대해 Clio와 기존 신뢰 및 보안 분류자 간에 합의가 이루어집니다. 그러나 특정 클러스터에 대해서는 의견이 일치하지 않는 경우가 있습니다. 한 가지 개선 기회는 오탐을 줄이는 것입니다(즉, 시스템이 실제로 유해할 수 있는 세션을 잠재적으로 유해한 콘텐츠로 표시하지 않는 것). 예를 들어, 사용자가 클로드에게 한 언어에서 다른 언어로 번역해 달라고 요청했을 때 시스템이 유해한 콘텐츠에 플래그를 지정하지 못하는 경우가 있었는데, Clio는 이러한 세션을 인식했습니다.

분산형 차트는 세션 클러스터(점은 클러스터를 나타냄)와 신뢰도 및 안전성 분류기(x축) 및 Clio(y축)에 의해 위험한 것으로 분류된 정도를 보여줍니다. 왼쪽 상단에는 신뢰 및 안전 분류기가 위험하다고 과소평가할 수 있는 클러스터, 즉 우려스러운 콘텐츠를 포함하고 있지만 위험하다고 라벨이 지정되지 않은 오탐 클러스터가 있습니다. 오른쪽 아래 모서리에는 라벨이 과도하게 지정되었을 수 있는 클러스터, 즉 우려스러운 콘텐츠를 포함하지 않을 수 있는 오탐이 표시됩니다. 신뢰 및 안전 분류기와 Clio 분류 간의 전체 상관관계는 r = 0.71로, 두 분류 간의 전반적인 일치도가 높음을 나타냅니다.

또한 신뢰 및 안전 분류기를 개발할 때 흔히 발생하는 또 다른 문제인 오탐(분류기가 무해한 콘텐츠를 유해한 것으로 잘못 분류하는 경우)을 조사하는 데도 Clio를 사용합니다. 예를 들어, 구직자가 이력서 조언을 요청하는 세션이 개인 정보가 포함된 것으로 잘못 분류되는 경우가 있습니다. 보안, 네트워킹 또는 웹 크롤링과 관련된 프로그래밍 문제가 해킹 가능성이 있는 것으로 잘못 분류되기도 합니다. 심지어 위의 던전 앤 드래곤 전투 통계에 대한 게임 내 세션도 위험 감지 시스템을 작동시킬 수 있습니다. Clio를 사용하면 이러한 오탐을 강조하여 보안 시스템이 정책을 위반하는 콘텐츠에 대해서만 작동하도록 지원하면서 사용자의 합법적인 사용에 대한 개입은 최소화할 수 있습니다.

윤리적 고려 사항 및 완화 조치

Clio는 배포된 대규모 언어 모델의 보안을 개선하는 데 유용한 통찰력을 제공합니다. 그러나 개발 과정에서 몇 가지 중요한 윤리적 고려 사항을 제기했으며, 이에 따라 평가하고 그에 따라 조치를 취했습니다:

오탐: 신뢰와 보안의 맥락에서 잠재적인 오탐에 대한 주요 안전장치를 구현했습니다. 예를 들어, 현재 측정값의 자동 실행에는 Clio의 결과를 사용하지 않으며, 백서에 자세히 설명된 다국어 테스트를 포함하여 다양한 데이터 분포에서 성능을 광범위하게 검증했습니다.
클리오의 남용 위험: Clio와 같은 시스템은 감시 관행에 부적절하게 사용될 수 있습니다. 엄격한 액세스 제어 및 개인정보 보호 기술 외에도 엄격한 데이터 최소화 및 보존 정책을 시행하여 이러한 위험을 완화합니다. Clio에 필요한 최소한의 데이터만 수집 및 보존합니다.
사용자 개인정보 보호: Clio는 당사의 개인정보 보호 평가에서 우수한 성적을 거두었지만, 실제 개인정보 보호 시스템과 마찬가지로 특정 유형의 개인정보는 인식되지 않을 수 있습니다. 이러한 잠재적 위험을 완화하기 위해 Clio의 개인정보 보호 및 평가를 정기적으로 감사하여 보호 기능이 기대치를 충족하는지 확인하고 있습니다. 또한 시간이 지남에 따라 Clio의 최신 Claude 모델을 사용하여 이러한 보호 성능을 지속적으로 개선할 계획입니다.
사용자 신뢰: 당사가 제공하는 광범위한 개인정보 보호 기능에도 불구하고, 일부 사용자는 Clio와 같은 시스템이 거추장스럽거나 Claude 사용에 방해가 된다고 느낄 수 있습니다. 저희는 Clio의 사용, 기능, 제한 사항 및 이를 통해 얻은 인사이트에 대해 투명하게 공개하기로 결정했습니다. 앞서 언급했듯이 Clio는 표준 보안 분류기에서 오탐(사용 정책을 위반하는 것처럼 보이지만 실제로는 위반하지 않는 활동)을 식별하므로 합법적인 모델 사용을 방해하는 경우 개입을 줄일 수 있습니다.

평결에 도달하기

Clio는 경험적으로 지원되는 AI 보안 및 거버넌스를 향한 중요한 단계입니다. 실제 AI 사용에 대한 개인정보 보호 분석을 지원함으로써 이러한 시스템이 실제로 어떻게 사용되는지 더 잘 이해할 수 있습니다. 궁극적으로 Clio를 사용하여 AI 시스템을 더욱 안전하게 만들 수 있습니다.

AI 제공업체는 시스템의 보안을 유지하고 사용자의 개인정보를 보호해야 하는 두 가지 책임이 있으며, Clio는 신중한 설계와 구현을 통해 이 두 가지 목표를 동시에 달성할 수 있다는 것을 보여줍니다. Clio에 대해 공개적으로 논의함으로써 이러한 도구의 책임감 있는 개발과 사용에 대한 긍정적인 규범을 확립하고자 합니다.

당사는 Clio를 지속적으로 개발 및 개선하고 있으며 다른 사람들이 이를 확장할 수 있기를 바랍니다. 개인정보 확인 및 평가 방법을 포함하여 Clio의 기술적 세부 사항에 대해 자세히 알아보려면 다음을 참조하세요. 연구 논문 전문.

현재 소셜 임팩트 팀을 모집하고 있습니다. 클리오 또는 관련 연구에 관심이 있는 분들의 많은 지원을 기다립니다. 채용에 대한 자세한 내용은 다음을 참조하세요.이 링크.

각주

1 ^ 보안 설문조사에서는 일부 퍼스트 파티 API 트래픽에 대해서도 Clio를 실행하며, 결과는 권한이 있는 직원으로 제한됩니다. 특정 계정은 분석에서 제외되며, 여기에는 보존 계약이 없는 신뢰할 수 있는 조직이 포함됩니다. 정책에 대한 자세한 내용은 연구 백서의 부록 F를 참조하세요.