Руководство Клода по распространенным случаям использования: юридические справки

Практические уроки по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

55.2K 00

В этом руководстве описано, как использовать передовые возможности обработки естественного языка Claude для эффективного обобщения юридических документов, извлечения ключевой информации и ускорения юридических исследований. С помощью Claude вы сможете оптимизировать анализ договоров, подготовку к судебным разбирательствам и соблюдение требований, сэкономив время и обеспечив точность юридического процесса.

Посетите наш Абстрактные рецепты Посмотрите пример реализации обобщения юридической информации с помощью Claude.

Перед строительством с Клодом

Решение о том, стоит ли использовать Claude для написания юридических резюме

Вот несколько основных инструкций по краткому изложению юридических документов с помощью LLM типа Claude:

Вы хотите эффективно и экономично просматривать большие объемы документов

Масштабный анализ документов вручную может отнимать много времени и средств, а Claude позволяет быстро обрабатывать и обобщать большие объемы юридических документов, значительно сокращая время и затраты на анализ документов. Эта возможность особенно ценна в таких задачах, как due diligence, анализ договоров или судебное раскрытие, где эффективность имеет решающее значение.

Вам необходимо автоматически извлекать ключевые метаданные

Claude эффективно извлекает и классифицирует важные метаданные из юридических документов, такие как участвующие стороны, даты, условия договора или конкретные пункты. Такое автоматизированное извлечение помогает упорядочить информацию и упростить поиск, анализ и управление большими коллекциями документов. Это особенно полезно при управлении договорами, проверке их соблюдения или создании баз данных юридической информации с возможностью поиска.

Вы хотите составлять четкие, краткие и стандартизированные резюме

Claude генерирует структурированные резюме, которые следуют заданному формату, позволяя юристам быстро понять ключевые моменты различных документов. Эти стандартизированные резюме улучшают читаемость, облегчают сравнение документов и улучшают общее понимание, особенно при работе со сложным юридическим языком или технической терминологией.

Вы должны предоставить точные цитаты для своих аннотаций

При создании юридических резюме правильное указание авторства и цитирование очень важны для обеспечения достоверности и соответствия правовым нормам. Клоду можно предложить указать точные ссылки на все цитируемые положения закона, что облегчает специалистам в области права проверку и подтверждение достоверности обобщенной информации.

Вы хотите упростить и ускорить процесс юридических исследований

Claude может помочь в проведении юридических исследований, быстро анализируя большие объемы прецедентного права, уставов и обзоров законодательства. Он выявляет соответствующие прецеденты, извлекает ключевые правовые принципы и обобщает сложные юридические аргументы. Эта возможность значительно ускоряет процесс исследования, позволяя специалистам в области права сосредоточиться на анализе более высокого уровня и разработке стратегии.

Определите детали, которые вы хотите извлечь из резюме

Не существует единственно верного резюме для любого документа. Без четкого руководства Клоду может быть трудно определить, какие детали следует включить. Чтобы добиться наилучших результатов, определите, какую именно информацию вы хотите включить в резюме.

Например, при составлении краткого изложения договора субаренды вы, возможно, захотите выделить следующие ключевые моменты:

details_to_extract = [
    '相关方（转租人、转租承租人和原出租人）',
    '物业详情（地址、描述和允许用途）', 
    '期限和租金（开始日期、结束日期、月租金和保证金）',
    '责任（公用设施、维护和维修）',
    '同意和通知（房东的同意和通知要求）',
    '特别条款（家具、停车位和转租限制）'
]

Установление критериев успеха

Оценка качества аннотаций - задача, как известно, непростая. В отличие от многих других задач обработки естественного языка, при оценке аннотаций обычно отсутствуют четкие объективные метрики. Этот процесс зачастую весьма субъективен, и разные читатели могут по-разному оценивать различные аспекты аннотаций. Вот что можно ожидать при оценке Клод Критерии, которые необходимо учитывать при реализации юридической справки.

Точность фактов

В резюме должны быть точно представлены факты, юридические концепции и ключевые моменты документа.

Юридическая точность

Терминология и ссылки на законодательные акты, прецедентное право или нормативные акты должны быть корректными и соответствовать правовым нормам.

простота

Резюме должно сводить юридический документ к его основным положениям, не упуская важных деталей.

консистенция

В случае обобщения нескольких документов большая языковая модель должна поддерживать последовательную структуру и обработку для каждого обобщения.

читаемость

Текст должен быть четким и простым для понимания. Если аудитория не является специалистом в области права, резюме не должно содержать юридических терминов, которые могут запутать аудиторию.

Предвзятость и беспристрастность

В рефератах должны быть представлены честные и непредвзятые юридические аргументы и позиции.

Ознакомьтесь с нашим руководством, чтобы узнать больше о Установление критериев успеха Сообщение.

Как использовать Клода для краткого изложения юридических документов

Выбор подходящей модели Claude

При резюмировании юридических документов точность модели имеет решающее значение, и Claude 3.5 Sonnet - отличный выбор для таких случаев, когда требуется высокая степень точности. Если объем и количество документов велики, что создает проблему стоимости, вы также можете попробовать использовать более компактную модель, например Claude 3 Haiku.

Чтобы помочь оценить эти затраты, вот сравнение затрат на обобщение 1000 договоров субаренды с помощью Sonnet и Haiku:

Масштаб содержания
- Количество соглашений: 1 000
- Персонажи в одном соглашении: 300 000
- Всего символов: 300M
Расчетные жетоны
- Входные лексемы: 86M (предположение 1) жетон (соответствует 3,5 символам)
- Выходные лексемы для одного реферата: 350
- Общее количество выпущенных токенов: 350 000
Клод 3.5 Сонет Сметные расходы
- Введите стоимость токенов: 86 MTok * $3.00/MTok = $258
- Стоимость выходного жетона: 0,35 MTok * $15.00/MTok = $5.25
- Общая стоимость: $258.00 + $5.25 = $263.25
Клод 3 Хайку Сметная стоимость
- Стоимость входного жетона: 86 MTok * $0.25/MTok = $21.50
- Стоимость выходного токена: 0,35 MTok * $1.25/MTok = $0.44
- Общая стоимость: $21.50 + $0.44 = $21.96

Фактические затраты могут отличаться от этих оценок. Приведенные выше оценки основаны на подсказка Примеры в главах.

Конвертируйте файлы в формат, который может обрабатывать Claude

Прежде чем приступить к обобщению документа, необходимо подготовить данные. Это включает в себя извлечение текста из PDF-файла, очистку текста и обеспечение возможности его обработки в Claude.

Ниже приводится демонстрация этого процесса на примере PDF-файла:

from io import BytesIO
import re

import pypdf
import requests

def get_llm_text(pdf_file):
    reader = pypdf.PdfReader(pdf_file)
    text = "\n".join([page.extract_text() for page in reader.pages])

    # 去除多余的空格
    text = re.sub(r'\s+', ' ', text) 

    # 去除页码
    text = re.sub(r'\n\s*\d+\s*\n', '\n', text) 

    return text


# 从 GitHub 仓库创建完整的 URL
url = "https://raw.githubusercontent.com/anthropics/anthropic-cookbook/main/skills/summarization/data/Sample Sublease Agreement.pdf"
url = url.replace(" ", "%20")

# 下载 PDF 文件到内存中
response = requests.get(url)

# 从内存加载 PDF
pdf_file = BytesIO(response.content)

document_text = get_llm_text(pdf_file) 
print(document_text[:50000])

В этом примере мы сначала загрузили PDF-файл договора субаренды из поваренная книга для подведения итогов . Соглашение берет свое начало от веб-сайт sec.gov Договор субаренды, который был обнародован на сайте

С помощью библиотеки pypdf мы извлекаем содержимое PDF-файла и преобразуем его в текст. Затем текстовые данные очищаются путем удаления лишних пробелов и номеров страниц.

Создание мощных сигналов

Claude можно адаптировать к различным стилям обобщения. При необходимости вы можете изменить детализацию слов-подсказок, чтобы направить Клода на создание более или менее подробного или краткого содержания, на включение большего или меньшего количества жаргонизмов, на обеспечение более или менее высокого уровня контекстного обобщения.

Ниже приведен пример, показывающий, как создать подсказку, чтобы резюме, созданные при анализе договора субаренды, имели последовательную структуру:

import anthropic

# 初始化 Anthropic 客户端
client = anthropic.Anthropic()

def summarize_document(text, details_to_extract, model="claude-3-5-sonnet-20240620", max_tokens=1000):

    # 将要提取的细节格式化为提示词上下文的一部分
    details_to_extract_str = '\n'.join(details_to_extract)
    
    # 提示模型总结转租协议
    prompt = f"""Summarize the following sublease agreement. Focus on these key aspects:

    {details_to_extract_str}

    Provide the summary in bullet points nested within the XML header for each section. For example:

    <parties involved>
    - Sublessor: [Name]
    // 根据需要添加更多细节
    </parties involved>
    
    如果文档中没有明确说明某些信息，请标注为「未说明」。不要使用前言。

    转租协议内容：
    {text}
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="You are a legal analyst specializing in real estate law, known for highly accurate and detailed summaries of sublease agreements.",
        messages=[
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": "Here is the summary of the sublease agreement: <summary>"}
        ],
        stop_sequences=["</summary>"]
    )

    return response.content[0].text

sublease_summary = summarize_document(document_text, details_to_extract)
print(sublease_summary)

Этот код реализует summarize_document функция, использующая Claude для краткого изложения содержания договора субаренды. Функция принимает на вход текстовую строку и список деталей, которые необходимо извлечь. В этом примере мы используем document_text ответить пением details_to_extract переменная вызывает эту функцию.

Внутри функции для Клода генерируется подсказка, содержащая документ, который нужно обобщить, детали, которые нужно извлечь, и конкретные инструкции по обобщению документа. Подсказка предписывает Claude вернуть резюме каждой извлеченной детали в виде вложенного XML-тега.

Поскольку мы решили выводить каждую часть сводки в теге, мы можем легко разобрать каждую часть на этапе постобработки. Такой подход позволяет генерировать структурированные резюме, адаптировать их к вашему сценарию использования и гарантировать, что каждое резюме будет следовать одному и тому же шаблону.

Оцените свои слова-подсказки

Как правило, перед тем как запустить в производство, слова-подсказки необходимо протестировать и оптимизировать. Чтобы определить, готово ли ваше решение, используйте систематический процесс, сочетающий количественные и качественные методы, для оценки качества резюме. Создайте критерии успеха на основе определенныхСильная эмпирическая оценкапоможет вам оптимизировать слова подсказки. Вот некоторые показатели, которые вы, возможно, захотите включить в свою оценку:

Оценка ROUGE

Оценка BLEU

Сходство встраивания контекста

Оценка на основе LLM

ручная оценка

Советы по развертыванию

При развертывании решения в производственной среде учитывайте следующие соображения.

Обеспечьте отсутствие риска ответственности: Поймите потенциальные юридические последствия ошибок в рефератах, которые могут привести к юридической ответственности для вашей организации или клиентов. Предоставьте отказ от ответственности или юридическое заявление о том, что реферат был создан искусственным интеллектом и должен быть проверен специалистом в области права.
Работает с несколькими типами документов: В этом руководстве мы рассмотрим, как извлечь текст из PDF. На практике документы могут быть представлены в нескольких форматах (PDF, документы Word, текстовые файлы и т. д.). Убедитесь, что процесс извлечения данных конвертирует все форматы файлов, которые вы можете получить.
Параллельные вызовы API Клода: Для длинных документов, содержащих большое количество токенов, Claude может потребоваться до минуты, чтобы сгенерировать дайджест. Для больших коллекций документов может потребоваться параллельная отправка вызовов API в Claude, чтобы гарантировать, что дайджесты будут завершены за разумное время. См. ограничение скорости чтобы определить максимальное количество вызовов API, которые могут выполняться параллельно.

улучшать производительность

В сложных сценариях в дополнение к стандартным Советы по проектированию Кроме того, может быть полезно рассмотреть некоторые дополнительные стратегии для повышения производительности. Вот некоторые дополнительные стратегии:

Исполнительные мета-суммы для обобщения длинных документов

Юридические резюме часто связаны с обработкой длинных документов или нескольких связанных документов, которые могут находиться за пределами контекстного окна Клода. Чтобы справиться с этой ситуацией, можно использовать метод разбивки на фрагменты, называемый метаперевариванием. Этот метод предполагает разбиение документов на более мелкие, управляемые фрагменты, а затем обработку каждого фрагмента отдельно. После этого можно объединить резюме каждого фрагмента, чтобы получить мета-резюме всего документа.

Ниже приведен пример выполнения мета-сводки:

import anthropic

# 初始化 Anthropic 客户端
client = anthropic.Anthropic()

def chunk_text(text, chunk_size=20000):
    return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]

def summarize_long_document(text, details_to_extract, model="claude-3-5-sonnet-20240620", max_tokens=1000):

    # 格式化提取细节以放置在提示的上下文中
    details_to_extract_str = '\n'.join(details_to_extract)

    # 遍历块并分别对每个块进行摘要
    chunk_summaries = [summarize_document(chunk, details_to_extract, model=model, max_tokens=max_tokens) for chunk in chunk_text(text)]
    
    final_summary_prompt = f"""
    
    你正在查看多个相关文档的分块摘要。
    将以下来自不同可信来源的文档摘要整合成连贯的整体摘要：

    <chunked_summaries>
    {"".join(chunk_summaries)}
    </chunked_summaries>

    重点关注以下关键方面：
    {details_to_extract_str})

    将摘要以嵌套在每个部分的 XML 标头下的项目符号点的形式提供。例如：

    <parties involved>
    - 转租方：[姓名]
    // 根据需要添加更多细节
    </parties involved>
    
    如果文档中未明确说明任何信息，请注明「未指定」。不要加入前言。
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="你是一名总结文档笔记的法律专家。",
        messages=[
            {"role": "user",  "content": final_summary_prompt},
            {"role": "assistant", "content": "以下是转租协议的摘要：<summary>"}

        ],
        stop_sequences=["</summary>"]
    )
    
    return response.content[0].text

long_summary = summarize_long_document(document_text, details_to_extract)
print(long_summary)

summarize_long_document функция основана на предыдущей summarize_document функция, которая разбивает документ на более мелкие фрагменты и подводит итоги по каждому фрагменту отдельно.

Код делает это, устанавливая значение summarize_document Для этого функция применяется к каждому блоку в 20 000 символов в исходном документе. Затем резюме каждого блока объединяются, чтобы получить итоговое резюме, состоящее из резюме этих блоков.

Обратите внимание, что для нашего примера PDF файлsummarize_long_document Функция не является строго необходимой, поскольку весь документ может поместиться в контекстное окно Клода. Тем не менее, такой подход очень важен, когда документ превышает контекстное окно Клода или когда необходимо обобщить несколько связанных документов. В любом случае, этот метод метасуммирования часто позволяет уловить в итоговом резюме больше важных деталей, которые были упущены при использовании более ранних методов однократного суммирования.

Изучайте большое количество документов с помощью сводных индексов.

Поиск в коллекциях документов с использованием больших языковых моделей (LLM) обычно включает в себя генерацию дополнений к поиску (RAG). Однако в сценариях, связанных с большими документами или точным поиском информации, базовая RAG метод может оказаться недостаточным. Резюме индексированных документов - это усовершенствованный метод RAG, который обеспечивает более эффективный способ ранжирования документов для поиска, используя меньше контекста, чем традиционные методы RAG. В этом подходе Claude используется для создания краткого резюме для каждого документа в корпусе, а затем Clade используется для ранжирования релевантности каждого резюме запросу. Более подробную информацию об этом подходе, включая пример с кодом, можно найти на сайте поваренная книга для подведения итогов Раздел документа сводного индекса в

Тонкая настройка Клода для изучения вашего набора данных

Другой продвинутый метод улучшения способности Claude генерировать резюме - тонкая настройка. Тонкая настройка включает в себя обучение Claude на пользовательском наборе данных, который в значительной степени соответствует вашим потребностям в составлении юридических резюме, гарантируя, что он адаптируется к вашему сценарию использования. Ниже приведен обзор выполнения тонкой настройки:

Ошибочная идентификация: Начните с сбора примеров резюме Клода, которые не соответствуют требованиям - это может быть упущение ключевых юридических деталей, неправильное понимание контекста или использование неподходящей юридической терминологии.
Подготовка наборов данных: После выявления этих проблем составьте набор данных, содержащий примеры этих проблем. В этот набор данных должны входить оригинальные юридические документы, а также исправленные вами резюме, чтобы Клод научился желаемому поведению.
Реализация тонкой настройки: Тонкая настройка заключается в повторном обучении модели на собранном вами наборе данных для корректировки ее весов и параметров. Такое переобучение помогает Клоду лучше понять специфические требования вашей области права, повышая его способность обобщать документы в соответствии с вашими критериями.
Итеративное совершенствование: Тонкая настройка не является одноразовым процессом. По мере того как Claude продолжает генерировать резюме, вы можете итеративно добавлять новые неудачные примеры для дальнейшего совершенствования ее возможностей. Со временем этот непрерывный цикл обратной связи приведет к созданию высокоспециализированной модели, предназначенной для решения вашей задачи составления юридических резюме.

В настоящее время Fine Tuning можно приобрести только через Amazon Bedrock. Для получения более подробной информации см. Блог о публикациях AWS.

Практические уроки по искусственному интеллекту # Клод