Бесплатные PDF-файлы по основам больших моделей из Чжэцзянского университета - с ссылкой на скачивание

Последние ресурсы по искусственному интеллектуОпубликовано 4 месяца назад Круг обмена ИИ

27.5K 00

Книга "Основы больших моделей" содержит глубокий анализ основных технологий и практических путей создания больших языковых моделей (LLM). Начиная с основ теории моделирования языка, он систематически объясняет принципы построения моделей на основе статистических, рекуррентных нейронных сетей (RNN) и архитектур трансформеров, уделяя особое внимание трем основным архитектурам больших языковых моделей (только кодер, кодер-декодер, только декодер) и репрезентативным моделям (например, BERT, T5, GPT). В книге описаны такие ключевые технологии, как проектирование Prompt, эффективная тонкая настройка параметров, редактирование модели и генерация улучшений поиска. В сочетании с богатыми примерами книга демонстрирует практику применения в различных сценариях, предоставляя читателям всестороннее и глубокое обучение и практическое руководство, помогая им освоить применение и оптимизацию технологий моделирования больших языков.

Основы языкового моделирования

Моделирование языка на основе статистических методов: Глубокий анализ моделей n-грамм и статистики, лежащей в их основе, включая предположения Маркова и оценку большого правдоподобия.
Моделирование языка на основе RNN: Подробное объяснение структурных особенностей рекуррентных нейронных сетей (РНС), распространенных проблем исчезновения и взрыва градиента при обучении, а также практических применений в моделировании языка.
Моделирование языка на основе трансформаторов: Всесторонний анализ основных компонентов архитектуры Transformer, таких как механизм самовнимания, нейронные сети с прямой передачей (FFN), нормализация слоев и остаточная связность, и их эффективное применение в моделировании языка.
Методы выборки для моделирования языкаСистематически представлены такие стратегии декодирования, как Greedy Search, Beam Search, Top-K Sampling, Top-P Sampling и Temperature mechanism, чтобы исследовать влияние различных стратегий на качество генерируемого текста.
Обзор языковых моделей: Представлены подробные описания внутренних (например, perplexity) и внешних (например, BLEU, ROUGE, BERTScore, G-EVAL) рубрик для анализа сильных сторон и ограничений каждой рубрики при оценке эффективности языковых моделей.

Архитектура модели большого языка

Большие данные + большие модели → Новый интеллектНиже приводится подробный анализ влияния размера модели и размера данных на возможности модели, детальное объяснение законов масштабирования (таких как закон Каплана-Маккандлиша и закон Чинчилла), а также обсуждение того, как улучшить производительность модели путем оптимизации размера модели и данных.
Обзор архитектуры модели большого языка: Сравните и проанализируйте механизмы внимания и применимые задачи трех основных архитектур - только кодирующей, кодирующей-декодирующей и только декодирующей - чтобы помочь читателям понять особенности и преимущества различных архитектур.
Архитектура только для кодирования: На примере BERT мы подробно объясняем структуру модели, задачи предварительного обучения (например, MLM, NSP) и производные модели (например, RoBERTa, ALBERT, ELECTRA), чтобы изучить применение модели в задачах понимания естественного языка.
Архитектура кодера-декодераМодели T5 и BART используются в качестве примеров для представления единой структуры генерации текстов и различных задач предварительного обучения, а также для анализа производительности моделей в таких задачах, как машинный перевод и резюмирование текста.
Архитектура только для декодера: Подробно описывается история развития и характеристики семейства GPT (от GPT-1 до GPT-4) и семейства LLaMA (LLaMA1/2/3), исследуются преимущества моделей для задач генерации текстов в открытом пространстве.
Нетрансформаторная архитектура: Представление моделей пространства состояний (SSM), таких как RWKV, Mamba, и парадигмы обучения и тестирования (TTT), изучение потенциала неосновных архитектур для применения в конкретных сценариях.

Prompt Engineering

Введение в проект Prompt: Дайте определение Prompt и Prompt Engineering, подробно объясните процесс деамбигуации и векторизации (Tokenization, Embedding), а также изучите, как генерировать высококачественный текст с помощью хорошо разработанной загрузочной модели Prompt.
Контекстное обучение (ICL): Вводятся понятия обучения на нулевой выборке, на одной выборке и на нескольких выборках, изучаются стратегии выбора примеров (например, сходство и разнообразие) и анализируется, как контекстное обучение может быть использовано для улучшения адаптивности моделей к задачам.
Цепь мыслей (CoT): Объясните три режима CoT: пошаговый (например, CoT, Zero-Shot CoT, Auto-CoT), мыслительный (например, ToT, GoT) и мозговой штурм (например, Self-Consistency), а также изучите, как улучшить обоснование моделей с помощью цепочки мыслей.
ПодсказкиВ ней представлены такие техники, как стандартизация написания Prompt, рациональное обобщение вопросов, использование CoTs в нужное время и правильное использование психологических подсказок (например, ролевая игра, ситуативное замещение), которые помогут читателям улучшить дизайн Prompt.
Связанные приложения: Знакомство с такими приложениями, как Big Model-based Intelligentsia (Agents), Data Synthesis, Text-to-SQL, GPTS и т.д., а также изучение практических примеров использования Prompt Engineering в различных областях.

Эффективная тонкая настройка параметров

Введение в эффективную тонкую настройку параметров: Представление двух доминирующих подходов к адаптации задач на нижнем уровне - контекстного обучения и точной настройки инструкций - приводит к созданию техники Parameter Efficient Fine-Tuning (PEFT), подробно описывающей значительные преимущества с точки зрения снижения затрат и эффективности.
Методы присоединения параметров: Подробное описание методов эффективной тонкой настройки путем присоединения новых, более мелких обучаемых модулей к структуре модели, включая реализацию и преимущества добавляемых входов (например, Prompt-tuning), добавляемых моделей (например, Prefix-tuning и Adapter-tuning) и добавляемых выходов (например, Proxy-tuning).
Метод выбора параметров: Представляем методы тонкой настройки только части параметров модели, которые делятся на методы, основанные на правилах (например, BitFit), и методы, основанные на обучении (например, Child-tuning), исследуя, как уменьшить вычислительную нагрузку и улучшить производительность модели за счет выборочного обновления параметров.
Методы адаптации с низким рангом: Подробное введение в эффективную тонкую настройку путем аппроксимации исходной матрицы обновления весов матрицей с низким рангом, с акцентом на LoRA и ее вариантах (например, ReLoRA, AdaLoRA и DoRA), а также обсуждение параметрической эффективности LoRA и возможностей обобщения задач.
Практика и применение: Представляет использование фреймворка HF-PEFT и связанных с ним методов, демонстрирует примеры использования методов PEFT в запросах к табличным данным и анализе табличных данных, а также доказывает эффективность PEFT в улучшении производительности больших задач, специфичных для модели.

Редактирование модели

Введение в редактирование моделей: Введение в идею, определение и природу редактирования моделей, подробное описание важности редактирования моделей для исправления ошибок смещения, токсичности и знаний в больших языковых моделях.
Классический подход к редактированию моделей: Классифицировать методы редактирования моделей на методы внешнего расширения (например, методы кэширования знаний и дополнительных параметров) и методы внутренней модификации (например, методы метаобучения и позиционного редактирования), представив репрезентативные работы по каждому типу методов.
Метод дополнительных параметров: T-Patcher: Подробно описывается метод T-Patcher, который позволяет точно контролировать выход модели путем присоединения к ней определенных параметров и подходит для сценариев, требующих быстрой и точной коррекции определенных точек знания в модели.
Метод редактирования местоположения: РИМ: Подробное введение в метод ROME, который обеспечивает точный контроль над выходом модели путем нахождения и изменения определенных слоев или нейронов в модели, для сценариев, требующих глубокой модификации внутренней структуры знаний модели.
Приложения для редактирования моделей: Представляет практическое применение редактирования моделей для точного обновления моделей, защиты права быть забытым и повышения безопасности моделей, а также демонстрирует потенциал применения технологии редактирования моделей в различных сценариях.

Поиск Расширенный генерация

Профиль генерации улучшенного поиска: Представляет предпосылки и состав генерации с усилением поиска, подробно описывает важность и сценарии применения улучшения производительности модели за счет сочетания поиска и генерации в задачах обработки естественного языка.
Извлечение улучшенной архитектуры генерации: Представляет классификацию архитектур RAG, архитектуры усовершенствования "черного ящика" и архитектуры усовершенствования "белого ящика", сравнивает и анализирует характеристики и применимые сценарии различных архитектур, а также помогает читателям выбрать подходящую архитектуру.
поиск знаний: Подробное введение в построение базы знаний, расширение запросов, поиск и повышение эффективности поиска, изучение того, как повысить эффективность поиска и оптимизировать процесс поиска знаний путем реорганизации результатов поиска.
Усиление генерации: Представляет, когда нужно улучшать, где нужно улучшать, несколько улучшений и методы снижения затрат, обсуждает стратегии применения генеративного улучшения для различных задач, а также повышает качество и эффективность созданного текста.
Практика и применение: Представляет шаги по созданию простой системы RAG, показывает примеры использования RAG в типичных приложениях и помогает читателям понять и применить методы генерации с расширением поиска для улучшения производительности своих моделей в реальных задачах.

Адрес для скачивания справочных материалов

Отчет "Основы крупного моделирования" доступен для скачивания на сайте: https://url23.ctfile.com/f/65258023-8434020435-605e6e?p=8894 (код доступа: 8894).