Кросс-валидация (Cross-Validation) - что это такое, статья для ознакомления

Ответы ИИОпубликовано 2 месяца назад Круг обмена ИИ

16.8K 00

Определение перекрестной валидации

Перекрестная валидация - это основной метод оценки обобщающей способности модели в машинном обучении. Основная идея заключается в том, чтобы разделить исходные данные на обучающее и тестовое множество и получить более надежные оценки эффективности путем чередования обучения и проверки с различными подмножествами данных. Такой подход имитирует работу модели на неизвестных данных и помогает обнаружить перебор. Наиболее распространенный метод K-fold cross-validation случайным образом делит данные на K взаимоисключающих подмножеств, каждый раз используя K-1 подмножество для обучения модели и оставшееся 1 подмножество для тестирования модели, повторяя это K раз, чтобы каждое подмножество выступало в качестве тестового набора один раз, и в конечном итоге принимая среднее значение K результатов в качестве оценки эффективности. Кросс-валидация с оставлением - это особая форма K-fold, где K равно общему количеству образцов. При стратифицированной кросс-валидации пропорции категорий в каждой складке соответствуют исходным данным. Кросс-валидация временных рядов учитывает свойства временного порядка данных. Повторная кросс-валидация уменьшает дисперсию результатов за счет многократного случайного деления. Результаты кросс-валидации используются не только для оценки моделей, но и для настройки гиперпараметров и выбора модели, обеспечивая надежную основу для процесса машинного обучения.

Основная идея кросс-валидации

Механизмы ротации использования данных: Максимальное использование данных путем чередования различных подмножеств данных в качестве тестовых наборов. Каждый образец имеет возможность участвовать в обучении и тестировании, обеспечивая всестороннюю оценку.
Ориентация на обобщенную оценку компетенций: Фокусируется на производительности модели на невидимых данных, а не на степени соответствия на обучающих данных. Этот тип оценки ближе к практическим сценариям применения.
Функция обнаружения переоценки: Определите чрезмерную подгонку обучающих данных, сравнив разницу в производительности модели на обучающем и проверочном наборах. Большие различия указывают на риск переподгонки.
Методы проверки стабильности: Оцените работу модели, разбив данные на несколько частей, чтобы проверить стабильность результатов. Модели с меньшей волатильностью обычно более надежны.
Фонд справедливых сравнений: Обеспечить единую систему оценки для различных алгоритмов и устранить погрешность сравнения, обусловленную случайностью сегментации отдельных данных.

Общие подходы к перекрестной валидации

K-кратная перекрестная валидация: Данные делятся поровну на K подмножеств и выполняется K циклов обучения и тестирования. Обычно K принимает значение 5 или 10, что позволяет сбалансировать вычислительные затраты и точность оценки.
проверка метода "оставления без внимания: Только одна выборка за раз сохраняется в качестве тестового набора, а все остальные используются для обучения. Подходит для сценариев с небольшими выборками, но требует больших вычислительных затрат.
Многоуровневая K-кратная валидация: Сохраняйте долю образцов в каждой категории в каждой складке в соответствии с исходным набором данных. Особенно подходит для распределений данных с несбалансированными категориями.
Проверка временных рядов: Учитывайте временную зависимость данных и разделяйте обучающие и тестовые наборы в хронологическом порядке. Избегайте прогнозирования прошлого с помощью будущих данных.
Повторная рандомизация: Несколько случайных разбиений для обучения тестового набора и усреднения результатов. Это позволяет снизить эффект случайности при однократном случайном разбиении.

Этапы реализации перекрестной валидации

Этап подготовки данных: Проверка качества данных и работа с недостающими значениями и выбросами. Убедитесь, что данные находятся в пригодном для использования стандартном состоянии.
Процесс определения скидки: Выберите подходящее количество складок в зависимости от объема данных и вычислительных ресурсов. Для больших массивов данных можно выбрать меньшее количество складок, для малых массивов необходимо большее количество складок.
Операция сегментации данных: Разделите данные на обучающие и тестовые наборы в соответствии с выбранным методом. Метод стратификации должен поддерживать сбалансированное распределение категорий.
Цикл валидации обучения модели: Обучите модель в каждом раунде цикла и оцените ее на тестовом наборе. Запишите результаты метрик производительности для каждого времени.
Краткий анализ результатов: Рассчитайте среднее значение и стандартное отклонение показателей эффективности для всех раундов. Проанализируйте стабильность и надежность результатов.

Преимущества перекрестной валидации

Эффективное использование данных: Максимальное использование ограниченных данных, когда каждый образец участвует как в обучении, так и в тестировании. Особенно ценно в сценариях с небольшим набором данных.
Оценка надежности результатов: Уменьшение разброса результатов оценки за счет многократных проверок обеспечивает более стабильные оценки производительности. Более убедительно, чем одиночная сегментация.
Завышенная чувствительность распознавания: Эффективное обнаружение избыточного соответствия модели обучающим данным. Обеспечивает четкое направление для улучшения модели.
Широкий спектр сценариев применения: Применим к широкому спектру алгоритмов машинного обучения и типов задач. Работает со всем: от классификации до регрессии и кластеризации.
Достижение относительной простоты: Концепции ясны и понятны, а реализация кода несложна. Основные библиотеки машинного обучения предоставляют готовые к использованию реализации.

Ограничения перекрестной валидации

Более высокие вычислительные затраты: Требуется многократное обучение модели, а временные затраты растут линейно с увеличением числа сложений. Может стать непрактичным на больших массивах данных.
Предположения о независимости данных: Предполагается, что выборки независимы друг от друга, и игнорируется возможная корреляция данных. Такие сценарии, как временные ряды, требуют особого подхода.
малый размер выборки (статистика): Ограниченный эффект на очень малых объемах данных, что затрудняет работу методов, отличных от метода оставления без внимания.
Зависимость устойчивости модели: Результаты оценки для нестабильных алгоритмов сильно колеблются, и для получения надежных оценок требуется большее количество повторений.

Практическое применение перекрестной валидации

Сравнение выбора моделей: Сравнение производительности различных алгоритмов в рамках одной и той же системы кросс-валидации и выбор оптимальной модели. Обеспечение справедливости и надежности сравнения.
настройка гиперпараметров: Для поиска оптимальных комбинаций гиперпараметров используются такие методы, как поиск по сетке. Каждая комбинация параметров оценивается в ходе многократной валидации.
Валидация инженерных характеристик: Оценка влияния различных комбинаций признаков на производительность модели. Определите наиболее ценное подмножество признаков.
Оценка алгоритмических исследований: Обеспечивает стандартизированные протоколы оценки эффективности в академических исследованиях. Обеспечивает воспроизводимость и сопоставимость результатов.

Выбор параметров для кросс-валидации

Выбор числа складывания K: Обычно выбирают 5 или 10-процентную скидку, которая может быть уменьшена до 3 процентов, если объем данных очень велик, а при очень низком объеме данных можно использовать метод исключения.
Применение многоуровневой стратегии: Иерархическая кросс-валидация рекомендуется в задачах классификации для поддержания согласованности распределения категорий.
Настройка случайного посева: Исправлены случайные семена для обеспечения воспроизводимых результатов при опробовании различных семян для проверки стабильности.
Количество повторений определено: Для алгоритмов с высокой дисперсией увеличение числа повторений повышает надежность оценки. Обычно это 10-100 повторений.
Управление перемешиванием данныхДанные, не относящиеся к временным рядам, обычно перемешиваются случайным образом, а данные временных рядов необходимо упорядочить.

Соображения по поводу перекрестной валидации

Предотвращение утечки данных: Убедитесь, что информация о тестовом наборе не включена в процесс обучения. Такие операции, как масштабирование признаков, должны применяться к тестовому набору после обучения.
Поддержание баланса категории: Используйте стратифицированную выборку или соответствующие метрики оценки при несбалансированных данных. Избегайте занижения показателей для нескольких классов.
Оптимизация вычислительной эффективности: Ускорение процесса многократной проверки с помощью параллельных вычислений. Используйте возможности современного вычислительного оборудования.
Результаты интерпретируются с осторожностьюПерекрестная валидация оценивает среднюю производительность и не отражает производительность на конкретном подмножестве. Его необходимо сочетать с конкретными анализами.
Интеграция знаний о доменах: Выбор подходящих методов проверки с учетом характеристик данных и бизнес-контекста. Медицинские данные, временные ряды и т. д. требуют специальной обработки.