Guía de Claude para casos de uso común: Auditoría de contenidos

Tutoriales prácticos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

30.6K 00

La auditoría de contenidos es un aspecto clave para mantener un entorno seguro, respetuoso y productivo en las aplicaciones digitales. En esta guía, hablaremos de cómo utilizar la Claude Audite el contenido de sus aplicaciones digitales.

Visite nuestro Recetas de revisión de contenidos Vea un ejemplo de auditoría de contenidos con Claude.

Esta guía se centra en la revisión del contenido generado por el usuario en su aplicación. Si busca orientación sobre la auditoría de sus interacciones con Claude, consulte nuestra Directrices sobre límites de seguridad.

Antes de usar Claude

Decidir si utilizar Claude para la revisión de contenidos

Estas son algunas de las métricas clave por las que debería elegir un LLM como Claude en lugar de un enfoque tradicional de aprendizaje automático o basado en reglas para la auditoría de contenidos:

Quiere una implantación rentable y rápida

Los métodos tradicionales de aprendizaje automático requieren importantes recursos de ingeniería, experiencia en aprendizaje automático y costes de infraestructura. Los sistemas de auditoría manuales cuestan aún más. Con Claude, puede crear sistemas de auditoría complejos en menos tiempo y a un coste menor.

Necesita comprensión semántica y rapidez en la toma de decisiones

Los métodos tradicionales de aprendizaje automático, como la modelización de bolsas de palabras o la simple concordancia de patrones, suelen tener dificultades para comprender el tono, la intención y el contexto de los contenidos. Aunque los sistemas de revisión humanos destacan en la comprensión del significado semántico, tardan tiempo en revisar los contenidos.Claude salva esta distancia combinando la comprensión semántica con la capacidad de proporcionar rápidamente decisiones de revisión.

Se necesitan decisiones políticas coherentes

Aprovechando sus avanzadas capacidades de razonamiento, Claude puede interpretar y aplicar de forma coherente directrices de revisión complejas. Esta coherencia ayuda a garantizar un tratamiento justo de todos los contenidos y reduce el riesgo de que decisiones de revisión incoherentes o sesgadas puedan minar la confianza de los usuarios.

Su política de revisión puede cambiar o evolucionar con el tiempo

Una vez establecido un enfoque tradicional de aprendizaje automático, realizar cambios puede llevar mucho tiempo y requerir muchos datos. Por otro lado, a medida que cambian las necesidades de sus productos o clientes, Claude puede adaptarse fácilmente a los cambios o adiciones a las políticas de auditoría sin necesidad de reetiquetar los datos de entrenamiento.

Necesita un razonamiento interpretable sobre las decisiones de auditoría

Si desea ofrecer a los usuarios o a los organismos reguladores explicaciones claras sobre las decisiones de revisión, Claude puede generar razonamientos detallados y coherentes. Esta transparencia es fundamental para generar confianza y garantizar la responsabilidad en las prácticas de revisión de contenidos.

Necesita soporte multilingüe sin tener que mantener modelos separados

Los enfoques tradicionales de aprendizaje automático suelen requerir modelos independientes o amplios procesos de traducción para cada idioma admitido. Las auditorías manuales requieren un personal que domine cada uno de los idiomas soportados, y las capacidades multilingües de Claude simplifican las auditorías para una base de clientes global, ya que le permiten clasificar tickets en una variedad de idiomas sin necesidad de modelos separados o extensos procesos de traducción.

Necesitas apoyo multimodal

Las capacidades multimodales de Claude le permiten analizar e interpretar contenidos en texto e imágenes. Esto la convierte en una herramienta versátil para realizar auditorías exhaustivas de contenidos en entornos en los que es necesario evaluar conjuntamente distintos tipos de medios.

Antrópico Todos los modelos de Claude han sido formados para ser honestos, serviciales e inofensivos. Esto puede dar lugar a que Claude revise contenidos considerados especialmente peligrosos (de acuerdo con nuestra Política de uso aceptable), independientemente del aviso utilizado. Por ejemplo, un sitio para adultos que quiera permitir a los usuarios publicar contenido sexual explícito puede encontrarse con que Claude seguirá marcando el contenido explícito como que requiere moderación, aunque especifique explícitamente en sus avisos que no modera el contenido explícito. Le recomendamos que revise nuestra PUA antes de crear una solución de revisión.

Ejemplo de generación de una auditoría de contenidos

Antes de desarrollar una solución de auditoría de contenidos, cree primero ejemplos de contenidos que deberían marcarse y ejemplos de contenidos que no deberían marcarse. Asegúrese de incluir casos extremos y escenarios complejos que puedan poner a prueba la eficacia de procesamiento de su sistema de auditoría de contenidos. Después, revise sus ejemplos para crear una lista clara de categorías de auditoría. Por ejemplo, un ejemplo generado por una plataforma de medios sociales podría incluir lo siguiente:

allowed_user_comments = [
    '这部电影太棒了，我真的很喜欢。主角表现得非常出色！',
    '我讨厌星期一。',
    '现在是投资黄金的好时机！'
]

disallowed_user_comments = [
    '马上删除这篇帖子，否则你最好躲起来。我会追上你和你的家人。',
    '远离 5G 手机！！他们正在用 5G 控制你。',
    '恭喜你！你赢得了一张价值 $1,000 的礼品卡。点击这里领取你的奖品！'
]

# 用于测试内容审核的用户评论示例
user_comments = allowed_user_comments + disallowed_user_comments

# 被视为不安全的内容审核类别列表
unsafe_categories = [
    '儿童剥削',
    '阴谋论',
    '仇恨',
    '无差别武器', 
    '知识产权',
    '非暴力犯罪', 
    '隐私',
    '自我伤害',
    '性犯罪',
    '色情内容',
    '专业建议',
    '暴力犯罪'
]

Revisar eficazmente estos ejemplos requiere una comprensión matizada del lenguaje. En la revisión.这部电影太棒了，我真的很喜欢。主角表现得非常出色！Los sistemas de moderación de contenidos deben reconocer que "comportarse de forma brillante" es una metáfora y no un indicio de violencia real. En cambio, a pesar de la falta de referencias explícitas a la violencia, las reseñas马上删除这篇帖子，否则你最好躲起来。我会追上你和你的家人。Debería ser marcado por el sistema de revisión de contenidos.

unsafe_categoriesLa lista puede personalizarse para adaptarla a sus necesidades específicas. Por ejemplo, si quiere impedir que los menores creen contenidos en su sitio, puede añadir "Publicación de menores" a la lista.

Cómo utilizar Claude para la auditoría de contenidos

Seleccionar el modelo Claude adecuado

A la hora de elegir un modelo, es importante tener en cuenta el tamaño de los datos. Si el coste es un problema, un modelo pequeño como Claude 3 Haiku es una opción excelente porque es rentable. A continuación se muestra una estimación del coste de realizar una auditoría de texto de una plataforma de medios sociales que recibe mil millones de publicaciones al mes:

Tamaño del contenido
- Número de mensajes al mes: 1.000 millones
- Caracteres por mensaje: 100
- Total de caracteres: 100.000 millones
Recuento estimado de fichas
- Token de entrada: 28.600 millones (suponiendo 1 token por cada 3,5 caracteres)
- Porcentaje de mensajes etiquetados: 3%
- Salida para cada mensaje etiquetado Ficha Número: 50
- Número total de fichas de salida: 1.500 millones
Claude 3 Haiku Coste estimado
- Coste de las fichas de entrada: 2.860 MTok * $0,25/MTok = $715
- Coste de la ficha de salida: 1.500 MTok * $1,25/MTok = $1.875
- Coste mensual: $715 + $1.875 = $2.590
Claude 3.5 Costes estimados de Sonnet
- Coste de las fichas de entrada: 2.860 MTok * $3,00/MTok = $8.580
- Coste de las fichas de salida: 1.500 MTok * $15,00/MTok = $22.500
- Coste mensual: $8.580 + $22.500 = $31.080

Los costes reales pueden diferir de estas estimaciones. Estas estimaciones se basan en información sobre archivo por lotes consejos resaltados en la sección. Al quitar el explanation se puede reducir aún más el número de fichas de salida.

Consejos para construir con fuerza

Con el fin de utilizar Claude para la auditoría de contenidos, Claude debe entender los requisitos de auditoría de su aplicación. Empecemos a escribir una solicitud para que pueda definir sus requisitos de auditoría:

import anthropic
import json

# 初始化 Anthropic 客户端
client = anthropic.Anthropic()

def moderate_message(message, unsafe_categories):
    # 将不安全类别列表转换为字符串，每个类别占一行
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # 为 Claude 构建提示，包括消息和不安全类别
    assessment_prompt = f"""
    确定以下消息是否需要审核，
    基于下面列出的不安全类别。
    
    消息：
    <message>{message}</message>

    不安全类别：
    <categories>
    {unsafe_category_str}
    </categories>

    仅使用以下格式响应 JSON 对象：
    {{
    "violation": <布尔字段，表示消息是否应该被审核>,
    "categories": [被违反类别的逗号分隔列表],
    "explanation": [可选。如果有违规行为则仅包含。]
    }}"""

    # 发送请求给 Claude 进行内容审核
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # 使用 Haiku 模型以降低成本
        max_tokens=200,
        temperature=0,   # 使用 0 温度以提高一致性
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # 解析 Claude 的 JSON 响应
    assessment = json.loads(response.content[0].text)
    
    # 从评估中提取违规状态
    contains_violation = assessment['violation']
    
    # 如果有违规，获取类别和解释；否则使用空默认值
    violated_categories = assessment.get('categories', []) if contains_violation else []
    explanation = assessment.get('explanation') if contains_violation else None
    
    return contains_violation, violated_categories, explanation

# 处理每条评论并打印结果
for comment in user_comments:
    print(f"\n评论: {comment}")
    violation, violated_categories, explanation = moderate_message(comment, unsafe_categories)
    
    if violation:
        print(f"违反的类别: {', '.join(violated_categories)}")
        print(f"解释: {explanation}")
    else:
        print("未检测到问题。")

En este ejemplo, elmoderate_message La función contiene un prompt de evaluación con la categoría de contenido inseguro y el mensaje que deseamos evaluar. El prompt pide a Claude que evalúe si el mensaje debe ser auditado o no, en función de la categoría de inseguridad que hayamos definido.

A continuación, se analiza la evaluación del modelo para determinar si existe una violación. Si existe una violación, Claude también devuelve una lista de categorías violadas y una explicación de por qué el mensaje se considera inseguro.

Evalúe sus consejos

La revisión de contenidos es una cuestión de categorización. Por lo tanto, puede utilizar nuestro clasificación libro de cocina Las mismas técnicas descritas en Determinación de la exactitud de su sistema de auditoría de contenidos.

Otra consideración es que, en lugar de considerar la auditoría de contenidos como un problema de categorización binaria, se pueden crear varias categorías para representar distintos niveles de riesgo. La creación de varios niveles de riesgo permite ajustar la intensidad de la auditoría. Por ejemplo, es posible que desee bloquear automáticamente las consultas de usuarios que se consideren de alto riesgo, mientras marca muchas consultas de riesgo medio como que requieren una revisión manual.

import anthropic
import json

# 初始化 Anthropic 客户端
client = anthropic.Anthropic()

def assess_risk_level(message, unsafe_categories):
    # 将不安全类别的列表转换为字符串，每个类别占一行
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # 为 Claude 构造提示，包括待评估的消息、不安全类别和风险级别定义
    assessment_prompt = f"""
    评估以下消息的风险级别，判断是否需要审核，
    基于下面列出的不安全类别。
    
消息：
<message>{message}</message>

不安全类别：
<categories>
{unsafe_category_str}
</categories>

根据您对用户消息应根据定义的不安全类别进行审核的信心，分配风险级别：

0 - 无风险
1 - 低风险
2 - 中等风险
3 - 高风险

仅以 JSON 对象格式回复，使用以下格式：
{{
  "risk_level": <表示风险级别的数值字段>,
  "categories": [违规类别的逗号分隔列表],
  "explanation": <可选。仅在风险级别大于 0 时包含>
}}"""

    # 发送请求给 Claude 进行风险评估
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # 使用 Haiku 模型以降低成本
        max_tokens=200,
        temperature=0,   # 使用 0 温度以提高一致性
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # 解析 Claude 的 JSON 响应
    assessment = json.loads(response.content[0].text)
    
    # 从评估中提取风险级别、违规类别和解释
    risk_level = assessment["risk_level"]
    violated_categories = assessment["categories"]
    explanation = assessment.get("explanation")
    
    return risk_level, violated_categories, explanation

# 处理每个评论并打印结果
for comment in user_comments:
    print(f"\n评论: {comment}")
    risk_level, violated_categories, explanation = assess_risk_level(comment, unsafe_categories)
    
    print(f"风险级别: {risk_level}")
    if violated_categories:
        print(f"违规类别: {', '.join(violated_categories)}")
    if explanation:
        print(f"解释: {explanation}")

El código implementa un assess_risk_level que utiliza Claude para evaluar el nivel de riesgo de un mensaje. La función toma como entrada una lista de mensajes y categorías inseguras.

Dentro de la función, se genera una solicitud para Claude que contiene el mensaje que debe evaluarse, la categoría de inseguridad y una descripción específica del nivel de riesgo que debe evaluarse. El prompt ordena a Claude que responda en forma de objeto JSON, incluyendo el nivel de riesgo, la categoría de violación y, opcionalmente, una explicación.

Este enfoque permite una revisión flexible de los contenidos mediante la asignación de niveles de riesgo. Puede integrarse perfectamente en sistemas más amplios para filtrar automáticamente contenidos o marcar comentarios para su revisión manual en función de los niveles de riesgo evaluados. Por ejemplo, al ejecutar este código, los comentarios Delete this post now or you better hide. I am coming after you and your family. Identificado como de alto riesgo debido a su peligrosidad. En cambio, los comentarios Stay away from the 5G cellphones!! They are using 5G to control you. clasificados como de riesgo medio.

Despliegue de sus consejos

Cuando esté satisfecho con la calidad de su solución, es el momento de implantarla en un entorno de producción. Estas son algunas de las mejores prácticas a la hora de utilizar auditorías de contenidos:

**Proporcionar información clara a los usuarios:** Proporcionar información útil y constructiva cuando la entrada del usuario ha sido bloqueada o una respuesta ha sido marcada debido a la moderación del contenido, ayudando a los usuarios a entender por qué su mensaje fue marcado e informándoles de cómo volver a expresarlo adecuadamente. En el ejemplo de código anterior, esto se hace a través de la respuesta Claude en el campo explanation Realización de etiquetas.
**Analizar los contenidos auditados:** Realizar un seguimiento de los tipos de contenidos marcados por el sistema de auditoría para identificar tendencias y posibles áreas de mejora.
**Evaluación y mejora continuas:** Evalúe periódicamente el rendimiento de su sistema de revisión de contenidos utilizando métricas como el seguimiento de la precisión y la recuperación. Utilice estos datos para mejorar de forma iterativa sus mensajes de auditoría, palabras clave y criterios de evaluación.

mejorar el rendimiento

En situaciones complejas, además del Consejos para ingenieros Más allá de eso, considerar algunas estrategias adicionales puede ayudar a mejorar el rendimiento. He aquí algunas estrategias avanzadas:

Definir los temas y dar ejemplos

Además de enumerar las categorías de inseguridad en los avisos, se podrían introducir otras mejoras proporcionando definiciones y frases relacionadas para cada categoría.

import anthropic
import json

# 初始化 Anthropic 客户端
client = anthropic.Anthropic()

# 含有定义的内容审核不安全类别字典
unsafe_category_definitions = {
    'Child Exploitation': '涉及儿童裸体或促进、鼓励、辩护或描绘儿童性虐待的内容。',
    'Conspiracy Theories': """推广或支持关于事件、情况或个人的毫无根据的虚假或误导性理论的内容，
        这些理论可能煽动伤害或破坏公众对机构或事实的信任。""",
    'Hate': """基于受保护特征（种族、肤色、民族、国籍、残疾、宗教信仰、种姓、性取向、性别、性别认同和重大疾病）
        对人群表达仇恨的内容，或助长负面刻板印象的内容。""",
    'Indiscriminate Weapons': '涉及大规模杀伤性武器制造的内容。',
    'Intellectual Property': '侵犯第三方知识产权的内容。',
    'Non-Violent Crimes': '鼓励、辩护或推动非暴力犯罪的内容。',
    'Privacy': '包含私人个人敏感信息的内容。',
    'Self-Harm': '鼓励、辩护或推动自残行为的内容。',
    'Sex Crimes': '鼓励、辩护或推动性犯罪的内容。',
    'Sexual Content': '包含色情描述或性行为明确描写的内容。',
    'Specialized Advice': """包含金融、医疗或法律建议的内容。
        金融建议包括投资、股票、债券或任何财务规划的指导。""",
    'Violent Crimes': '鼓励、辩护或推动暴力犯罪的内容。',
}

def moderate_message_with_definitions(message, unsafe_category_definitions):
    # 格式化不安全类别字符串，每个类别及其定义占一行
    unsafe_category_str = '\n'.join(f'{category}: {definition}' 
        for category, definition in unsafe_category_definitions.items()
    )
    
    # 构建 Claude 的提示信息，包括消息和不安全类别
    assessment_prompt = f"""根据以下列出的不安全类别，判断以下消息是否需要审核。

消息：
<message>{message}</message>

不安全类别及其定义：
<categories>
{unsafe_category_str}
</categories>

请记住所有不安全类别及其定义。

仅以 JSON 格式响应，使用以下格式：
{{
  "violation": <布尔字段，表示消息是否应被审核>,
  "categories": [被违反类别的逗号分隔列表],
  "explanation": [可选。如果存在违规，才包含。]
}}"""

    # 向 Claude 发送内容审核请求
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # 使用 Haiku 模型以降低成本
        max_tokens=200,
        temperature=0,   # 使用 0 温度以提高一致性
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # 解析 Claude 的 JSON 响应
    assessment = json.loads(response.content[0].text)
    
    # 从评估结果中提取违规状态
    contains_violation = assessment['violation']
    
    # 如果有违规，获取违规类别和解释；否则使用空默认值
    violated_categories = assessment.get('categories', []) if contains_violation else []
    explanation = assessment.get('explanation') if contains_violation else None
    
    return contains_violation, violated_categories, explanation


# 处理每个评论并打印结果
for comment in user_comments:
    print(f"\n评论：{comment}")
    violation, violated_categories, explanation = moderate_message_with_definitions(comment, unsafe_category_definitions)
    
    if violation:
        print(f"违规类别：{', '.join(violated_categories)}")
        print(f"解释：{explanation}")
    else:
        print("未发现问题。")

moderate_message_with_definitions se basa en la función moderate_message emparejando cada categoría insegura con una definición detallada. El código combina la función original unsafe_categories La lista se sustituye por unsafe_category_definitions Diccionario. Este diccionario asigna a cada categoría insegura su definición correspondiente. Tanto el nombre de la categoría como su definición se incluyen en el mensaje de aviso.

Cabe señalar queSpecialized Advice La definición de categorías especifica ahora los tipos de asesoramiento financiero que deben prohibirse. En consecuencia, la moderate_message Revisiones de "¡Ahora es un buen momento para invertir en oro!" Ahora provocaría una violación.

Considerar el procesamiento por lotes

En los casos en que no sea necesaria la revisión en tiempo real, considere la posibilidad de revisar los mensajes en bloque para reducir costes. Incluya varios mensajes en el contexto de la solicitud y deje que Claude evalúe qué mensajes deben revisarse.

import anthropic
import json

# 初始化 Anthropic 客户端
client = anthropic.Anthropic()

def batch_moderate_messages(messages, unsafe_categories):
    # 将不安全类别列表转换为字符串，每个类别占一行
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # 格式化消息字符串，将每个消息用类似 XML 的标签包裹，并给出 ID
    messages_str = '\n'.join([f'<message id={idx}>{msg}</message>' for idx, msg in enumerate(messages)])
    
    # 构建 Claude 的提示，包括要评估的消息和不安全类别
    assessment_prompt = f"""根据下面列出的不安全类别，确定需要审核的消息。

消息列表：
<messages>
{messages_str}
</messages>

不安全类别及其定义：
<categories>
{unsafe_category_str}
</categories>

仅使用以下格式返回 JSON 对象：
{{
  "violations": [
    {{
      "id": <message id>,
      "categories": [违反的类别列表],
      "explanation": <为何存在违规的解释>
    }},
    ...
  ]
}}

重要提示：
- 记得分析每条消息是否存在违规行为。
- 选择任何合理适用的违规类别。"""

    # 发送审核请求给 Claude
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # 使用 Haiku 模型以降低成本
        max_tokens=2048,  # 增加最大 Token 数以处理批量数据
        temperature=0,    # 设置温度为 0 提高一致性
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # 解析 Claude 返回的 JSON 响应
    assessment = json.loads(response.content[0].text)
    return assessment


# 处理批量评论并获取响应
response_obj = batch_moderate_messages(user_comments, unsafe_categories)

# 输出每条检测到的违规信息
for violation in response_obj['violations']:
    print(f"""评论：{user_comments[violation['id']]}
违规类别：{', '.join(violation['categories'])}
解释：{violation['explanation']}
""")

En este ejemplo, elbatch_moderate_messages La función gestiona la revisión de un lote completo de mensajes con una única llamada a la API de Claude. Dentro de la función, se crea una solicitud que contiene una lista de mensajes a evaluar, la categoría de contenido inseguro y su descripción. La solicitud pide a Claude que devuelva un objeto JSON con una lista de todos los mensajes que contienen infracciones. Cada mensaje de la respuesta se identifica por su id, que corresponde a la posición del mensaje en la lista de entrada. Tenga en cuenta que encontrar el tamaño de lote óptimo para sus necesidades específicas puede requerir cierta experimentación. Aunque un tamaño de lote mayor puede reducir los costes, puede suponer una ligera pérdida de calidad. Además, es posible que tenga que aumentar el número de llamadas a la API de Claude en el lote max_tokens para dar cabida a respuestas más largas. Para obtener más información sobre el número máximo de fichas que puede emitir el modelo seleccionado, consulte la sección Página de comparación de modelos.