Guía Claude de casos de uso común: resúmenes jurídicos
Tutoriales prácticos sobre IAActualizado hace 10 meses Círculo de intercambio de inteligencia artificial 1.7K 00
Esta guía describe cómo aprovechar las funciones avanzadas de procesamiento del lenguaje natural de Claude para resumir eficazmente documentos jurídicos, extraer información clave y acelerar la investigación jurídica. Con Claude, puede agilizar la revisión de contratos, la preparación de litigios y el cumplimiento normativo, ahorrando tiempo y garantizando la precisión del proceso jurídico.
Visite nuestro Recetas abstractas vea un ejemplo de aplicación del resumen jurídico con Claude.
Antes de construir con Claude
Decidir si utilizar Claude para los informes jurídicos
Estas son algunas instrucciones clave para resumir documentos jurídicos utilizando un LLM como Claude:
Quiere revisar grandes volúmenes de documentos de forma eficaz y económica
La revisión manual de documentos a gran escala puede ser lenta y costosa, y Claude puede procesar y resumir rápidamente grandes volúmenes de documentos jurídicos, reduciendo significativamente el tiempo y el coste necesarios para la revisión de documentos. Esta capacidad es especialmente valiosa en tareas como la diligencia debida, el análisis de contratos o el descubrimiento de litigios, donde la eficiencia es fundamental.
Es necesario extraer automáticamente los metadatos clave
Claude extrae y categoriza eficazmente metadatos importantes de documentos jurídicos, como las partes implicadas, fechas, términos contractuales o cláusulas específicas. Esta extracción automatizada puede ayudar a organizar la información y facilitar la búsqueda, el análisis y la gestión de grandes colecciones de documentos. Resulta especialmente útil en la gestión de contratos, la comprobación del cumplimiento o la creación de bases de datos de información jurídica en las que se puedan realizar búsquedas.
Quiere generar resúmenes claros, concisos y normalizados
Claude genera resúmenes estructurados que siguen un formato predefinido, lo que permite a los profesionales del Derecho comprender rápidamente los puntos clave de diversos documentos. Estos resúmenes normalizados mejoran la legibilidad, facilitan las comparaciones entre documentos y mejoran la comprensión general, especialmente cuando se trata de lenguaje jurídico complejo o terminología técnica.
Debe proporcionar citas precisas para sus resúmenes
A la hora de crear resúmenes jurídicos, es esencial citar y atribuir correctamente la información para garantizar la credibilidad y el cumplimiento de las normas legales. Se puede pedir a Claude que proporcione citas precisas de todos los puntos legales citados, lo que facilita a los profesionales del Derecho la revisión y validación de la información resumida.
Quiere simplificar y acelerar el proceso de investigación jurídica
Claude puede ayudar en la investigación jurídica analizando rápidamente grandes volúmenes de jurisprudencia, leyes y reseñas jurídicas. Identifica precedentes relevantes, extrae principios jurídicos clave y resume argumentos jurídicos complejos. Esta capacidad puede acelerar significativamente el proceso de investigación, permitiendo a los profesionales del Derecho centrarse en el análisis de alto nivel y el desarrollo de estrategias.
Identifique los detalles que desea que extraiga el sumario
No existe un único resumen correcto para un documento determinado. Sin una orientación clara, Claude puede tener dificultades para determinar qué detalles incluir. Para obtener mejores resultados, identifica la información específica que deseas incluir en el resumen.
Por ejemplo, al resumir un contrato de subarriendo, puede que desee extraer los siguientes puntos clave:
details_to_extract = [
'相关方(转租人、转租承租人和原出租人)',
'物业详情(地址、描述和允许用途)',
'期限和租金(开始日期、结束日期、月租金和保证金)',
'责任(公用设施、维护和维修)',
'同意和通知(房东的同意和通知要求)',
'特别条款(家具、停车位和转租限制)'
]
Establecimiento de criterios de éxito
Evaluar la calidad de los resúmenes es una tarea notoriamente difícil. A diferencia de muchas otras tareas de procesamiento del lenguaje natural, la evaluación de los resúmenes suele carecer de métricas claras y objetivas. El proceso suele ser muy subjetivo, y distintos lectores pueden valorar de forma diferente distintos aspectos de los resúmenes. Esto es lo que puede esperar al evaluar Claude Criterios que puede ser necesario tener en cuenta a la hora de aplicar el informe jurídico.
Exactitud de los hechos
El resumen debe presentar con precisión los hechos, los conceptos jurídicos y los puntos clave del documento.
Precisión jurídica
La terminología y las referencias a leyes, jurisprudencia o reglamentos deben ser correctas y conformes a las normas jurídicas.
sencillez
El resumen debe comprimir el documento jurídico en sus puntos esenciales sin omitir detalles importantes.
coherencia
En el caso de resumir varios documentos, el modelo de gran lenguaje debe mantener una estructura y un procesamiento coherentes para cada resumen.
legibilidad
El texto debe ser claro y fácil de entender. Si el público no es un experto jurídico, el resumen no debe contener términos jurídicos que puedan confundirlo.
Prejuicios e imparcialidad
Los resúmenes deben presentar argumentos y posiciones jurídicas justos e imparciales.
Consulte nuestra guía para saber más sobre Establecimiento de criterios de éxito El mensaje.
Cómo utilizar Claude para resumir documentos jurídicos
Seleccionar el modelo Claude adecuado
A la hora de resumir documentos jurídicos, la precisión del modelo es crucial, y Claude 3.5 Sonnet es una opción excelente para estos casos de uso en los que se requiere un alto grado de precisión. Si el tamaño y el número de documentos son grandes y el coste resulta un problema, también puede probar a utilizar un modelo más pequeño, como Claude 3 Haiku.
Para ayudar a calcular estos costes, a continuación se comparan los costes de resumir 1.000 contratos de subarrendamiento utilizando Sonnet y Haiku:
- Escala de contenidos
- Número de acuerdos: 1.000
- Caracteres por acuerdo: 300.000
- Total de caracteres: 300M
- Fichas estimadas
- Fichas de entrada: 86M (Supuesto 1) ficha (correspondiente a 3,5 caracteres)
- Fichas de salida por resumen: 350
- Total de fichas de salida: 350.000
- Claude 3.5 Costes estimados de Sonnet
- Coste de las fichas: 86 MTok * $3,00/MTok = $258
- Coste de las fichas de salida: 0,35 MTok * $15,00/MTok = $5,25
- Coste total: $258,00 + $5,25 = $263,25
- Claude 3 Haiku Coste estimado
- Coste de las fichas de entrada: 86 MTok * $0,25/MTok = $21,50
- Coste de la ficha de salida: 0,35 MTok * $1,25/MTok = $0,44
- Coste total: $21,50 + $0,44 = $21,96
Los costes reales pueden diferir de estas estimaciones. Las estimaciones anteriores se basan en solicitando Ejemplos en los capítulos.
Convertir archivos a un formato que Claude pueda manejar
Antes de empezar a resumir un documento, hay que preparar los datos. Esto implica extraer el texto del PDF, limpiarlo y asegurarse de que puede ser procesado por Claude.
A continuación se muestra una demostración de este proceso en un PDF de muestra:
from io import BytesIO
import re
import pypdf
import requests
def get_llm_text(pdf_file):
reader = pypdf.PdfReader(pdf_file)
text = "\n".join([page.extract_text() for page in reader.pages])
# 去除多余的空格
text = re.sub(r'\s+', ' ', text)
# 去除页码
text = re.sub(r'\n\s*\d+\s*\n', '\n', text)
return text
# 从 GitHub 仓库创建完整的 URL
url = "https://raw.githubusercontent.com/anthropics/anthropic-cookbook/main/skills/summarization/data/Sample Sublease Agreement.pdf"
url = url.replace(" ", "%20")
# 下载 PDF 文件到内存中
response = requests.get(url)
# 从内存加载 PDF
pdf_file = BytesIO(response.content)
document_text = get_llm_text(pdf_file)
print(document_text[:50000])
En este ejemplo, primero descargamos un PDF de un contrato de subarrendamiento del recetario de síntesis . El acuerdo tiene su origen en el Sitio web sec.gov El contrato de subarriendo que se hizo público en el
Utilizamos la biblioteca pypdf para extraer el contenido del PDF y convertirlo en texto. A continuación, los datos de texto se limpian eliminando los espacios redundantes y los números de página.
Construir señales poderosas
Claude puede adaptarse a diversos estilos de resumen. Puede ajustar los detalles de las palabras clave según sea necesario para guiar a Claude a generar contenidos más o menos detallados o concisos, a incluir más o menos jerga, o a proporcionar un mayor o menor nivel de resumen contextual.
A continuación se muestra un ejemplo de cómo crear una palabra clave para garantizar que los resúmenes generados al analizar un contrato de subarrendamiento siguen una estructura coherente:
import anthropic
# 初始化 Anthropic 客户端
client = anthropic.Anthropic()
def summarize_document(text, details_to_extract, model="claude-3-5-sonnet-20240620", max_tokens=1000):
# 将要提取的细节格式化为提示词上下文的一部分
details_to_extract_str = '\n'.join(details_to_extract)
# 提示模型总结转租协议
prompt = f"""Summarize the following sublease agreement. Focus on these key aspects:
{details_to_extract_str}
Provide the summary in bullet points nested within the XML header for each section. For example:
<parties involved>
- Sublessor: [Name]
// 根据需要添加更多细节
</parties involved>
如果文档中没有明确说明某些信息,请标注为「未说明」。不要使用前言。
转租协议内容:
{text}
"""
response = client.messages.create(
model=model,
max_tokens=max_tokens,
system="You are a legal analyst specializing in real estate law, known for highly accurate and detailed summaries of sublease agreements.",
messages=[
{"role": "user", "content": prompt},
{"role": "assistant", "content": "Here is the summary of the sublease agreement: <summary>"}
],
stop_sequences=["</summary>"]
)
return response.content[0].text
sublease_summary = summarize_document(document_text, details_to_extract)
print(sublease_summary)
Este código implementa un summarize_document
que utiliza Claude para resumir el contenido de un contrato de subarrendamiento. La función toma como entrada una cadena de texto y una lista de detalles que deben extraerse. En este ejemplo, utilizamos la función document_text
responder cantando details_to_extract
llama a esta función.
Dentro de la función, se genera una palabra clave para Claude que contiene el documento que debe resumirse, los detalles que deben extraerse e instrucciones específicas para resumir el documento. La instrucción da instrucciones a Claude para que devuelva un resumen de cada detalle extraído como una etiqueta XML anidada.
Como hemos decidido incluir cada parte del resumen en una etiqueta, podemos analizarla fácilmente en un paso posterior al procesamiento. Este enfoque genera resúmenes estructurados, se adapta a su escenario de uso y garantiza que cada resumen siga el mismo patrón.
Evalúe sus palabras clave
Las palabras clave suelen tener que probarse y optimizarse antes de ponerlas en producción. Para determinar si su solución está lista, utilice un proceso sistemático que combine métodos cuantitativos y cualitativos para evaluar la calidad de los resúmenes. Cree criterios de éxito basados enEvaluación empírica sólidale ayudará a optimizar las palabras clave. Estas son algunas métricas que puede incluir en su evaluación:
Puntuación de ROUGE
Puntuación BLEU
Similitud de inserción en el contexto
Puntuación basada en LLM
evaluación manual
Consejos de implantación
Tenga en cuenta las siguientes consideraciones a la hora de implantar su solución en un entorno de producción.
- Asegurarse de que no existe riesgo de responsabilidad: Comprenda las posibles implicaciones legales de los errores en los resúmenes, que podrían derivar en responsabilidad legal para su organización o sus clientes. Incluya una cláusula de exención de responsabilidad o una declaración legal que indique que el resumen ha sido generado por IA y debe ser revisado por un profesional del derecho.
- Maneja múltiples tipos de documentos: En esta guía explicamos cómo extraer texto de un PDF. En la práctica, los documentos pueden estar en varios formatos (PDF, documentos de Word, archivos de texto, etc.). Asegúrese de que su proceso de extracción de datos convierte todos los formatos de archivo que pueda recibir.
- Llamadas paralelas a la API de Claude: Para documentos largos que contienen un gran número de tokens, Claude puede tardar hasta un minuto en generar un resumen. En el caso de grandes colecciones de documentos, es posible que tenga que enviar llamadas API a Claude en paralelo para garantizar que los compendios se completen en un tiempo razonable. Consulte la página límite de velocidad para determinar el número máximo de llamadas a la API que pueden ejecutarse en paralelo.
mejorar el rendimiento
En situaciones complejas, además del Consejos para ingenieros Más allá de eso, puede ser beneficioso considerar algunas estrategias adicionales para mejorar el rendimiento. He aquí algunas estrategias avanzadas:
Meteosúmenes ejecutivos para resumir documentos largos
Los resúmenes jurídicos suelen implicar el procesamiento de documentos largos o de múltiples documentos relacionados, que pueden estar fuera de la ventana contextual de Claude. Para hacer frente a esta situación, puede utilizar un método de fragmentación denominado meta-digestión. Esta técnica consiste en dividir los documentos en fragmentos más pequeños y manejables y procesar cada fragmento por separado. Después, puedes combinar los resúmenes de cada trozo para producir un meta-resumen de todo el documento.
A continuación se muestra un ejemplo de cómo realizar un meta-resumen:
import anthropic
# 初始化 Anthropic 客户端
client = anthropic.Anthropic()
def chunk_text(text, chunk_size=20000):
return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
def summarize_long_document(text, details_to_extract, model="claude-3-5-sonnet-20240620", max_tokens=1000):
# 格式化提取细节以放置在提示的上下文中
details_to_extract_str = '\n'.join(details_to_extract)
# 遍历块并分别对每个块进行摘要
chunk_summaries = [summarize_document(chunk, details_to_extract, model=model, max_tokens=max_tokens) for chunk in chunk_text(text)]
final_summary_prompt = f"""
你正在查看多个相关文档的分块摘要。
将以下来自不同可信来源的文档摘要整合成连贯的整体摘要:
<chunked_summaries>
{"".join(chunk_summaries)}
</chunked_summaries>
重点关注以下关键方面:
{details_to_extract_str})
将摘要以嵌套在每个部分的 XML 标头下的项目符号点的形式提供。例如:
<parties involved>
- 转租方:[姓名]
// 根据需要添加更多细节
</parties involved>
如果文档中未明确说明任何信息,请注明「未指定」。不要加入前言。
"""
response = client.messages.create(
model=model,
max_tokens=max_tokens,
system="你是一名总结文档笔记的法律专家。",
messages=[
{"role": "user", "content": final_summary_prompt},
{"role": "assistant", "content": "以下是转租协议的摘要:<summary>"}
],
stop_sequences=["</summary>"]
)
return response.content[0].text
long_summary = summarize_long_document(document_text, details_to_extract)
print(long_summary)
summarize_long_document
se basa en la función summarize_document
que divide el documento en fragmentos más pequeños y resume cada fragmento por separado.
Para ello, el código establece el parámetro summarize_document
Para ello, la función se aplica a cada bloque de 20.000 caracteres del documento original. A continuación, se combinan los resúmenes de cada bloque para obtener un resumen final compuesto por estos resúmenes de bloque.
Tenga en cuenta que para nuestro PDF de ejemplo, elsummarize_long_document
no es estrictamente necesaria, ya que todo el documento puede caber en la ventana contextual de Claude. Sin embargo, este enfoque es fundamental cuando el documento supera la ventana de contexto de Claude o cuando hay que resumir varios documentos relacionados. En cualquier caso, esta técnica de meta-resumen permite a menudo captar más detalles importantes en el resumen final que los métodos anteriores de resumen único habían pasado por alto.
Explorar un gran número de documentos mediante documentos indexados resumidos
La búsqueda de colecciones de documentos mediante modelos lingüísticos amplios (LLM) suele implicar la generación de aumento de la recuperación (RAG). Sin embargo, en situaciones en las que intervienen documentos de gran tamaño o en las que es fundamental una recuperación precisa de la información, el método básico de recuperación de información es la RAG. RAG puede ser insuficiente. Summary Indexed Documents es un método RAG avanzado que proporciona una forma más eficiente de clasificar documentos para su recuperación, utilizando menos contexto que los métodos RAG tradicionales. En este método, Claude genera primero un resumen conciso de cada documento del corpus y, a continuación, Clade clasifica la pertinencia de cada resumen con respecto a la consulta. Si desea más información sobre este método, incluido un ejemplo basado en código, consulte la página recetario de síntesis La sección del documento índice resumido en el
Afinar Claude para aprender su conjunto de datos
Otra técnica avanzada para mejorar la capacidad de Claude para generar resúmenes es el ajuste fino. El ajuste fino consiste en entrenar a Claude con un conjunto de datos personalizado que se ajuste a sus necesidades de resumen jurídico, para garantizar que se adapte a su escenario de uso. A continuación se ofrece una descripción general del ajuste fino:
- Identificación errónea: Empiece por recopilar ejemplos de resúmenes de Claude que no cumplan los requisitos, como omitir detalles jurídicos clave, malinterpretar el contexto o utilizar terminología jurídica inadecuada.
- Preparación de conjuntos de datos: Una vez identificados estos problemas, compile un conjunto de datos que contenga ejemplos de los mismos. Este conjunto de datos debe incluir los documentos jurídicos originales, así como sus resúmenes corregidos para garantizar que Claude aprenda los comportamientos deseados.
- Aplicación del ajuste fino: La puesta a punto consiste en volver a entrenar el modelo con el conjunto de datos recopilados para ajustar sus ponderaciones y parámetros. Este reentrenamiento ayuda a Claude a comprender mejor los requisitos específicos de su ámbito jurídico, mejorando su capacidad para resumir documentos según sus criterios.
- Mejora iterativa: El perfeccionamiento no es un proceso de una sola vez. A medida que Claude sigue generando resúmenes, puede añadir iterativamente nuevos ejemplos de bajo rendimiento para refinar aún más sus capacidades. Con el tiempo, este bucle de retroalimentación continua producirá un modelo altamente especializado dedicado a su tarea de resúmenes jurídicos.
Actualmente, Fine Tuning sólo está disponible a través de Amazon Bedrock. Para más información, consulte Blog de publicación de AWS.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...