Что такое машина опорных векторов (Support Vector Machine), статья для чтения и понимания

Ответы ИИОпубликовано 2 месяца назад Круг обмена ИИ

17.9K 00

Определение машины опорных векторов

Support Vector Machine (SVM) - это алгоритм контролируемого обучения, основанный на теории статистического обучения и используемый в основном для классификации и регрессионного анализа. Основная задача - найти оптимальную гиперплоскость принятия решения, которая разделяет точки данных разных классов и максимизирует граничное расстояние между ними. Оптимальная гиперплоскость определяется небольшим количеством ключевых обучающих образцов, называемых векторами поддержки, которые лежат на границах категорий. Математическая суть машины опорных векторов заключается в решении выпуклой задачи квадратичного программирования, обеспечивающей нахождение глобально оптимального решения. Алгоритм отображает низкоразмерную нелинейную задачу в высокоразмерное пространство признаков с помощью трюков с ядерными функциями и строит линейные границы принятия решений в высокоразмерном пространстве. Обычно используются такие функции ядра, как линейное ядро, полиномиальное ядро, ядро радиальной базисной функции и т. д. Различные функции ядра адаптируются к различным характеристикам данных. Принцип минимизации риска в структуре машины опорных векторов обеспечивает ей лучшую способность к обобщению и позволяет избежать проблемы перебора. Алгоритм эффективен при обработке высокоразмерных данных, и даже когда размерность признаков превышает количество образцов, он сохраняет хорошую производительность. Введение понятия "мягкий интервал" повышает устойчивость алгоритма к зашумленным данным и позволяет некоторым выборкам нарушать граничные ограничения. Эти особенности делают машины опорных векторов идеальным выбором для сценариев с малым количеством выборок и высокой размерностью.

Историческое происхождение машин опорных векторов

Основы теории статистического обучения: В 1960-х годах Вапник и Червоненкинс предложили теорию размерностей VC, чтобы заложить математический фундамент для машин векторов поддержки. Теория описывает способность классов функций к обучению и обеспечивает теоретическую поддержку принципа минимизации структурного риска.
Появление прототипов алгоритмов: В 1992 году Бозер, Гийон и Вапник ввели понятие оптимальных ограниченных классификаторов, впервые применив трюк с ядрами к задачам классификации. Эта прорывная работа ознаменовала формальное рождение машин опорных векторов.
плато: В 1995 году Кортес и Вапник опубликовали работу о мягко-интервальных машинах опорных векторов для решения линейно-неделимых задач. Впоследствии были предложены различные функции ядра для расширения спектра алгоритмических приложений.
Период широкого распространения: В начале XXI века машины опорных векторов достигли значительных успехов в области классификации текстов и распознавания изображений. По сравнению с нейронными сетями, машины опорных векторов лучше работают в сценариях с малой выборкой.
Углубление и расширение теории: В последние годы векторные машины поддержки были объединены с глубоким обучением для создания глубоких векторных машин поддержки, а улучшенные версии, такие как многоядерное обучение, продолжают обогащать алгоритмическую систему.

Основная идея машин опорных векторов

Принцип максимальной границы: Вместо того чтобы довольствоваться просто правильной классификацией, машина опорных векторов стремится к тому, чтобы граница классификации была наиболее удалена от точек данных с обеих сторон. Этот принцип повышает устойчивость модели и улучшает обобщение.
Ключевая роль вектора поддержкиОкончательная граница принятия решения определяется только несколькими опорными векторами, а не всеми обучающими данными. Такая разреженность снижает вычислительную сложность и повышает интерпретируемость модели.
Инновационное применение ядерных технологий: Решение проблемы линейной неделимости в низкоразмерных пространствах путем неявного отображения в высокоразмерные пространства признаков с помощью ядровых функций. Эта техника позволяет избежать размерной катастрофы, связанной с явными вычислениями в высоких измерениях.
Минимизация структурного риска: Цель оптимизации машины опорных векторов включает в себя эмпирические диапазоны риска и доверия, уравновешивая ошибку обучения и сложность модели. Этот принцип обеспечивает эффективность обобщения модели.
гарантии выпуклой оптимизации: Задача решения машины опорных векторов представляет собой выпуклое квадратичное программирование с глобально оптимальным решением. Это свойство позволяет избежать проблемы локальной оптимальности, часто встречающейся в нейронных сетях.

Алгоритм работы машин с опорными векторами

Этап предварительной обработки данных: Нормализуйте входные признаки, чтобы они имели одинаковую величину. Этот шаг улучшает численную устойчивость алгоритма и ускоряет процесс сходимости.
Выбор функции ядра: Выбор подходящей ядерной функции и ее параметров в зависимости от характеристик данных. Линейное ядро подходит для линейно дифференцируемых данных, а гауссово ядро - для сложных нелинейных задач.
Решение оптимизационных задачДля решения парной задачи используются алгоритмы, такие как последовательная минимальная оптимизация. Эти алгоритмы эффективно справляются с большими наборами данных и позволяют быстро обучиться.
Распознавание с помощью опорных векторовИз результатов обучения извлекаются выборки с ненулевыми множителями Лагранжа, которые и являются векторами поддержки. Векторы поддержки формируют окончательную функцию принятия решения.
Оценка достоверности модели: Оценка эффективности модели с помощью тестовых наборов и настройка гиперпараметров. Кросс-валидация помогает выбрать оптимальные параметры ядра и штрафные коэффициенты C.

Преимущественные особенности машин опорных векторов

имеют прочную теоретическую основу: На основе теории статистического обучения ошибка обобщения имеет четкую верхнюю границу. Эта теория гарантирует стабильную работу машин опорных векторов в сценариях с малой выборкой.
Гарантия глобального оптимального решения: Свойство выпуклой оптимизационной задачи обеспечивает нахождение глобального оптимума и позволяет избежать проблем локального экстремума. Это преимущество является более детерминированным, чем у нейронных сетей.
Возможность обработки высоких измеренийТрюк с ядром позволяет алгоритму эффективно обрабатывать высокоразмерные признаки и работать даже тогда, когда размерность признака превышает количество образцов.
Высокая эффективность использования памяти: Функция принятия решения опирается только на векторы поддержки, а представление модели является кратким. Этап предсказания требует только хранения опорных векторов и является вычислительно эффективным.
Сильные обобщающие свойства: Принцип максимальных границ повышает устойчивость модели и сохраняет хорошую точность предсказания для невидимых данных.

Ограничения машин векторов поддержки недостаточны

Сложность выбора функции ядра: Для разных наборов данных подходят разные функции ядра, и выбор зависит от опыта. Настройка параметров ядра требует большого количества экспериментов и низкой степени автоматизации.
Медленная тренировка на массу: Задача квадратичного программирования имеет высокую сложность решения, если количество обучающих выборок слишком велико. Хотя существуют алгоритмы оптимизации, они все еще медленнее, чем некоторые линейные алгоритмы.
Вероятностный вывод отсутствует: Стандартные машины векторов поддержки выводят значения решений вместо вероятностей и требуют дополнительной калибровки для получения оценок вероятностей. Это ограничение влияет на некоторые сценарии применения, в которых требуется вероятность.
Сложность многоклассификационной обработки: Родные векторные машины поддержки предназначены для бинарной классификации, а для множественной классификации требуется построить несколько бинарных классификаторов. Стратегии "один ко многим" или "один к одному" увеличивают сложность и время обучения.
Слабая интерпретируемость признаков: При использовании функций ядра процесс принятия решений становится "черным ящиком", а важность признаков трудно интерпретировать. Это ограничение создает препятствия в областях, где требуется интерпретируемость модели.

Практические применения машин с опорными векторами

система категоризации текста: Машины опорных векторов хорошо работают в высокоразмерном пространстве текстовых признаков и широко используются в таких задачах, как фильтрация спама и классификация новостей. Разреженная и высокоразмерная природа текстовых данных хорошо сочетается с преимуществами машин опорных векторов.
Распознавание образов: Несмотря на то, что глубокое обучение доминирует в современном компьютерном зрении, машины опорных векторов по-прежнему играют роль в некоторых специфических задачах классификации изображений. Например, в распознавании рукописных цифр и обнаружении объектов.
Биоинформационный анализ: Данные об экспрессии генов обычно содержат мало образцов и много признаков, поэтому машины опорных векторов широко используются в этой области. Классификация заболеваний и предсказание структуры белков - типичные сценарии применения.
Модели контроля финансовых рисков: Машины опорных векторов обеспечивают надежные классификационные границы в таких задачах, как обнаружение мошенничества с кредитными картами и кредитный скоринг клиентов. Устойчивость алгоритма к выбросам подходит к характеристикам финансовых данных.
Поиск и устранение неисправностей в промышленности: Машины опорных векторов помогают классифицировать нормальные и ненормальные состояния при мониторинге состояния оборудования и прогнозировании неисправностей. Принцип максимальных границ обеспечивает надежность результатов диагностики.

Улучшение вариантов машин опорных векторов

регрессия вектора поддержки (SVCR): Примените идею максимальных границ к задаче регрессии, ища ограничивающую полосу, которая содержит большинство образцов. Версия регрессии сохраняет преимущество разреженности вектора поддержки.
мультиклассифицированная машина опорных векторов (MSSVM)Расширение алгоритма: стратегии мультиклассификации "один ко многим", "один к одному" или прямая мультиклассификация. Ориентированная на дерево решений структура ациклического графа для повышения эффективности мультиклассификации.
Взвешенные машины опорных векторов: Чтобы устранить дисбаланс категорий, разным категориям присваиваются разные веса штрафов. Это позволяет повысить точность категоризации для небольшого числа категорий.
полуподчиненная машина опорных векторов: Объединение меченых и немеченых данных для обучения и расширения выбора вектора поддержки. Типичными являются трансдуктивные машины векторов поддержки.
Слияние глубокого обучения: Объедините глубокие нейронные сети с машинами опорных векторов, используя нейронные сети для извлечения признаков и машины опорных векторов в качестве классификаторов. Эта гибридная модель отлично зарекомендовала себя в нескольких областях.

Настройка параметров для машин с опорными векторами

Штрафной коэффициент C вариантСлишком большое значение C приводит к чрезмерной подгонке, слишком маленькое - к слишком широкой границе, и для определения оптимального значения требуется кросс-валидация.
Оптимизация ядерных параметровСлишком большое значение σ приводит к недооценке, а слишком маленькое - к переоценке, и поиск по сетке является распространенным методом настройки.
Выбор типа функции ядра: Выберите подходящую функцию ядра, основываясь на линейной разделимости данных. Линейные ядра быстро работают с небольшим количеством параметров, в то время как нелинейные ядра адаптируются к сложным данным, но требуют больше настроек.
Установка веса категории: Установка больших весов для нескольких категорий в несбалансированных данных повышает эффективность классификации. Доля весов обычно обратно пропорциональна количеству выборок категорий.