AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

クロード公式インサイトレポート:中国ユーザーはクロードで小説を書くのが大好き

クリオ:プライバシー保護のための実世界AI利用洞察システム

人々はAIモデルを何に使うのか?大規模な言語モデルの人気が急速に高まっているにもかかわらず、これまで私たちは、それらがどのように使用されているのかを正確に把握することができませんでした。

これは単なる好奇心や社会学的研究の問題ではない。サービス・プロバイダーは、配備前に広範なテストを実施し、悪用を防ぐために信頼とセキュリティ・システムを使用している。しかし、言語モデルが実行できる機能は多様で規模が大きいため、包括的なセキュリティ監視はおろか、その使用方法を理解することも難しい。


AIモデルがどのように使用されているかを明確に理解する妨げとなるもう1つの重要な要素があります:プライバシーです。Anthropicでは クロード モデルのデフォルトユーザーの対話データをトレーニングに使用しないそして、私たちはユーザーデータの保護に真剣に取り組んでいます。では、どのようにしてユーザーのプライバシーを厳守しながら、私たちのシステムの使用状況を調査し、観察しているのでしょうか?

Clオーデ i洞察と observations、略して "Clio "は、この質問に答えるための私たちの試みです。Clioは、実世界の言語モデルの使用状況をプライバシーを保ったまま分析できる自動分析ツールです。これはGoogle Trendsに似ていて、claude.aiが日常的にどのように使用されているかを知ることができ、また私たちのセキュリティ対策を改善するのに役立ちます。この投稿では研究論文全文)、クリオとその予備的な結果について説明する。

 

クリオの仕組み:大規模なプライバシー保護分析

Clioは異なるアプローチをとり、会話を抽象的で理解しやすいトピックのクラスタに抽出することで、ボトムアップのパターン発見を可能にします。同時に、ユーザーのプライバシーを保護します。データは自動的に匿名化・集約され、人間の分析者が見ることができるのは上位レベルのクラスタ情報のみです。

-1

クリオ分析ステップの概要例、架空の対話例を用いて説明。

以下は、クリオの多段階プロセスの概要である:

  1. プロパティの抽出各会話について、Clioは複数の "属性"-会話のトピック、会話の往復回数、使用言語などの特定のプロパティやメタデータ-を抽出します。
  2. 意味クラスタリングテーマや一般的なトピックごとに、似たようなダイアログを自動的にグループ化します。
  3. クラスタの説明各クラスターには説明的なタイトルと要約が付けられ、個人情報を除きながら生データに共通するテーマが抽出される。
  4. 階層構造の構築クラスターは、探索を容易にする多層構造に整理されます。そして、Anthropicのアナリストが異なる次元(テーマ、言語など)のパターンを探索するために使用できるインタラクティブなインターフェイスで表示することができます。

これらの4つのステップは、人間の分析者ではなく、クロードによって完全に実行されます。これはクリオのプライバシー第一の設計の一部であり、複数のレベルの「深層防御」を備えている。例えば、クロードは会話から関連情報を抽出する際、プライベートな詳細を除外するよう指示されています。また、特定の人物に特有かもしれない低頻度のトピックが誤って公開されないように、ユニークユーザー数や会話数の最小しきい値を設定しています。最後に、Claudeはクラスターの要約を人間のユーザーに表示する前に、過度に特定または識別可能な情報が含まれていないことを検証する。

当社のプライバシー保護はすべて広範囲にわたってテストされており、その詳細は次のとおりです。研究論文.

 

人々はクロードをどう使うか:クリオからの洞察

Claude.aiを実際にどのように使っているのかについて、ハイレベルな洞察を得ることができました。その一方で ワイルドチャット 歌で応える LMSYS-Chat-1M このような公開データセットは、人々の言語モデルの使用に関する有益な情報を提供してくれるが、特定のコンテキストや使用ケースを捉えているに過ぎない。Clioは、claude.aiが実世界で使用されているシナリオの全範囲(ユーザー集団やモデルの種類の違いにより、他のAIシステムの使用とは異なる可能性がある)を教えてくれる。

Claude.aiの主な使用例

私たちはClaude.ai(無料版とプロ版の両方)の100万会話を分析し、ユーザーがClaudeを使用する主なタスクを特定するためにClioを使用しました。その結果、ユーザーは特にプログラミング関連のタスクに集中していることがわかりました。"ウェブとモバイルアプリ開発 "カテゴリは、会話全体の10%以上を占めています。ソフトウェア開発者は、コードのデバッグから Git の操作や概念の説明まで、幅広いタスクに Claude を使用しています。

-1

ユーザーがクロードと交わす最も一般的な会話の種類(全言語共通)。円の面積は会話の割合に対応し、見出しはランダムに選んだ100万件の会話を分析し、クリオが作成した要約です。

教育用途も重要なカテゴリーで、ダイアログ総数の7%以上を占め、主に教育と学習を対象としている。ビジネス戦略および業務(専門的なコミュニケーションの作成やビジネスデータの分析などのタスクを含む)は、対話の6%近くを占めた。

Claioはまた、何千もの対話の小さなクラスターを識別し、クロードの多様な用途を示す。これらの用途の中には、以下のような意外なものもある:

  • 夢の解釈
  • サッカーの試合を分析する;
  • 災害対応準備;
  • クロスワードのヒントを提供;
  • ダンジョンズ&ドラゴンズ ゲームだ;
  • strawberry "の "r "を数えなさい。

クロードの使い方は言語によって異なる

クロードの使い方は、文化的背景やニーズの違いを反映して、言語によって大きく異なる。私たちは、対話全体における各言語の基本的な出現頻度を計算し、そこから特定の言語で著しく出現頻度の高いテーマを特定した。スペイン語、中国語、日本語の例を以下に示す。

-1

選択した3つの言語で(その言語の基本的な頻度と比較して)より頻繁に出現する対話トピックに関するクリオからの洞察。

クリオを使ってセキュリティ・システムを改善した方法

有害なリクエストを拒否するために言語モデルをトレーニングすることに加え、専門的な信頼とセキュリティの執行システムを使用して、当社のポリシーに違反する可能性のあるリクエストを検出し、ブロックし、対応します。 利用規定 クリオはこの作業に加え、これらのシステムを改善・強化できる点を理解するのに役立っている。

個々のアカウントを確認する必要がある場合があるため、私たちのポリシーをさらに強化するために、クリオを使用する際に厳格なプライバシーアクセス制御を実施しています。当社のTrust and Safetyチームは、トピッククラスターレビューを通じて、当社の利用ポリシー違反を示す可能性のある領域を特定することができます。例えば、「誤解を招くような募金メールのコンテンツを作成する」や「憎悪に満ちた行動を扇動する」というタイトルのクラスターは、私たちが禁止している活動について説明しています。当社のTrust and Safetyチームは、このボトムアップレビューアプローチを使用して、さらなるレビューが必要な個々のアカウントを特定し、必要に応じて、当社の規約およびポリシーに従った措置を講じることができます。当社は、このようなレビューを、正当な信頼と安全の必要性があるものに厳しく限定しています。当社の 研究論文 これらのプロセスの詳細については、こちらをご覧ください。

私たちはまだ、Clioをすべてのエグゼクティブ・システムに展開している最中ですが、これまでのところ、私たちのセキュリティ・ツールキットの有用な一部であることが証明されており、保護対策を強化する必要がある領域を特定するのに役立っています。

協調的な虐待行為の特定と停止

Clioは、個々の会話だけでは検出できず、より単純な検出方法を回避する可能性のある、協調的で複雑な不正使用パターンを特定するのに非常に効果的です。例えば、9月下旬には、SEO目的のスパムコンテンツを生成するために同様のプロンプト構造を使用する自動化されたアカウントのセットを発見しました。個々の会話は私たちの 利用規定私たちはこのアカウントグループを削除しましたが、アカウント間の行動パターンから、私たちのポリシーが明確に禁止している、協調的なプラットフォームの悪用が明らかになりました。私たちはまた、Clioを使用して、私たちのポリシーによって特定された他のアカウントを特定しました。 利用規定 クロードへの不正アクセスを転売しようとするなどの禁止行為。

高リスク事象に対するモニタリングの強化

Clioはまた、不確実性の高い時期やリスクの高い出来事において、新たな利用パターンや潜在的なリスクを監視するのにも役立ちます。例えば、新しい コンピューター使用 この機能の導入に先立ち、私たちはClioを使用しながら広範なセキュリティテストを実施し、新たに出現した機能や見落とされた可能性のある危険性をスクリーニングしました。Clioは、この機能の導入時やシステムの将来のバージョンでセキュリティ対策を継続的に改善するのに役立つ、さらなるセキュリティと洞察を提供してくれました。

クリオはまた、選挙や国際的な大きなイベントなど、公的なイベントを控えて未知のリスクを監視するのにも役立っています。2024年のアメリカ選挙までの数ヶ月間、私たちは次のようなことを行っている。クリオの使用 米国の政治、投票、関連問題に関連する活動のクラスターを特定し、潜在的なリスクや悪用を防止するクリオの「未知の未知」を検出する能力は、当社のプロアクティブなセキュリティ対策を補完し、新たな課題に迅速に対応するのに役立ちます。

偽陰性および偽陽性の低減

通常、セッションクラスタのリスク決定に関して、Clioと既存の信頼とセキュリティの分類器の間には一致があります。しかし、特定のクラスタについては不一致がある。一つの改善の機会は偽陰性(すなわち、システムが実際に有害かもしれないセッションを潜在的に有害なコンテンツとしてフラグを立てないこと)を減らすことです。例えば、ユーザがクロードにある言語から別の言語への翻訳を依頼したとき、私たちのシステムは時々問題のあるコンテンツにフラグを立てず、クリオはこのようなセッションを認識します。

-1

散布図は、セッションのクラスタ(ドットはクラスタを表す)と、それらがTrust & Safety Classifier(X軸)とClio(Y軸)によって危険であるとラベル付けされた度合いを示している。左上隅には、Trust & Safety Classifierによってリスクとして過小評価されている可能性のあるクラスタがあります。これは、心配なコンテンツを含んでいるにもかかわらず、そのようにラベル付けされていない偽陰性です。右下は、過剰にラベル付けされている可能性のあるクラスタです。Trust & Safety分類器とClio分類の間の全体的な相関はr = 0.71であり、両者の全体的な一致度が高いことを示しています。

また、Clioを使用して、信頼性と安全性の分類器を開発する際のもう一つの一般的な課題である、分類器が無害なコンテンツを有害であると誤ってラベル付けしてしまう誤検出を調査しています。例えば、求職者が履歴書のアドバイスを要求するセッションは、個人情報が含まれていると誤ってラベル付けされることがあります。セキュリティ、ネットワーキング、ウェブクローリングに関連するプログラミングの問題は、ハッキングの可能性があると誤ってラベル付けされることがある。上記のような ダンジョンズ&ドラゴンズ 戦闘統計に関するゲーム内セッションも、危険検知システムを作動させる可能性があります。私たちはClioを使ってこのような誤検知を強調し、セキュリティシステムが私たちのポリシーに違反するコンテンツにのみ作動するよう支援するとともに、ユーザーの合法的な使用への介入を最小限に抑えます。

倫理的配慮と緩和策

Clioは、導入された大規模言語モデルのセキュリティを向上させるための貴重な知見を提供してくれる。しかし、Clioは開発中にいくつかの重要な倫理的考察を提起しました:

  • 偽陽性: 信頼とセキュリティの観点から、我々は潜在的な誤検知に対する重要な安全策を導入している。例えば、現在Clioの出力は対策の自動実行には使用しておらず、我々の論文で詳述した多言語テストを含む様々なデータ分布の下でその性能を広範囲に検証している。
  • クリオの虐待リスク クリオのようなシステムは、監視行為に不適切に使用される可能性があります。厳格なアクセス制御とプライバシー技術に加えて、私たちは厳格なデータ最小化および保持ポリシーを実施することにより、このリスクを軽減します:私たちはクリオに必要な最小限のデータのみを収集し、保持します。
  • ユーザーのプライバシー: クリオのプライバシー評価は良好ですが、現実のプライバシーシステムと同様に、ある種の個人情報が認識されないことがあります。この潜在的なリスクを軽減するため、私たちは定期的にクリオのプライバシー保護と評価を監査し、その保護が期待に応えていることを確認しています。また、これらの保護のパフォーマンスを継続的に改善するために、クリオの最新のモデルを使用する予定です。
  • ユーザーの信頼: 当社が提供する広範なプライバシー保護にもかかわらず、一部のユーザーはClioのようなシステムを邪魔に感じたり、Claudeの使用を妨害したりする可能性があります。私たちは、クリオの用途、機能、制限、そしてそこから得られる洞察について透明であることを選択します。前述したように、Clioは私たちの標準的なセキュリティ分類器において偽陽性(すなわち、使用ポリシーに違反しているように見えるが、実際には違反していない活動)を識別します。

評決を下す

Clioは、実証的に裏付けられたAIのセキュリティとガバナンスに向けた重要な一歩である。実世界でのAI利用のプライバシー保護分析をサポートすることで、これらのシステムが実際にどのように利用されているかをよりよく理解することができる。最終的には、AIシステムをよりセキュアにするためにClioを使うことができる。

AIプロバイダーには、システムのセキュリティを維持することと、ユーザーのプライバシーを保護することという2つの責任がありますが、Clioは、この2つのゴールが相互に排他的なものではないことを示しています。クリオについて公に議論することで、私たちは、このようなツールの責任ある開発と使用に関する肯定的な規範を設定することを目指しています。

私たちはクリオの開発と改良を続けており、他の方々にもクリオを拡張していただきたいと考えています。クリオの技術的詳細(プライバシー検証および評価方法を含む)については、以下をご覧ください。 研究論文全文.

現在、ソーシャル・インパクト・チームを募集しています。クリオや関連するリサーチクエスチョンにご興味のある方のご応募をお待ちしております。ポジションの詳細については、以下をご覧ください。このリンク.

脚注

1 ^ セキュリティ調査では、権限を持つ従業員に結果を制限して、ファーストパーティ API トラフィックの一部で Clio も実行している。特定のアカウントは、当社がゼロ保持契約を結んでいる信頼できる組織を含め、分析から除外されている。当社のポリシーの詳細については、研究論文の付録Fを参照してください。

無断転載を禁じます:チーフAIシェアリングサークル " クロード公式インサイトレポート:中国ユーザーはクロードで小説を書くのが大好き
ja日本語