Ehemaliger Leiter des Nachschulungsteams von OpenAI erklärt Methoden und Herausforderungen der Nachschulung, PPT geht viral!

AI-NachrichtenAktualisiert vor 7 Monaten AI-Austauschkreis

12.6K 00

Bei diesem Dokument handelt es sich um eine PowerPoint-Präsentation, die an der Stanford University von Barret Zoph und John Schulman, den OpenAI-Schulungsleitern (und OpenAI-Mitbegründern), gehalten wurde, die ihre Erfahrungen mit der OpenAI-Entwicklung teilen. ChatGPT der Erfahrung nach der Schulung. Da die Präsentation nicht auf Video aufgezeichnet wurde, ist diese PPT die wichtigste Quelle für das Verständnis dieser Präsentation.

Zu den Höhepunkten gehören:

Definition und Bedeutung der Nachschulung. Es ist die letzte Phase der Modellentwicklung und das Ziel ist es, das Modell assistentenähnlich und bereit für reale Anwendungen zu machen. Im Gegensatz zum Pre-Training ist das Post-Training weniger rechenintensiv, iterativ und verwendet RLHF-Techniken.
Frühe Entwicklung von ChatGPT. Von GPT-3 zu ChatGPT: Wie das Team klein anfing, die Funktionalität schrittweise ausbaute und schließlich beschloss, sie öffentlich zu veröffentlichen.
Technische Einzelheiten. Die drei Hauptkomponenten des Nachtrainings, SFT, RM und RL, werden vorgestellt, und es wird erläutert, wie man mit Problemen wie zunehmender Modellkomplexität, Rechtschreibfehlern, übermäßiger Ablehnung, politischer Voreingenommenheit und Desinformation umgehen kann.
Offene Frage. Es werden die Herausforderungen erörtert, die sich bei der Gewinnung von qualitativ hochwertigem menschlichem Feedback, der Festlegung von Modellspezifikationen und der Erhaltung der Modellvielfalt ergeben.
Zwei Epochen von Pipelines: die fasst die verschiedenen Modellbildungsprozesse zusammen.
Empfohlene Lektüre. Empfohlene Artikel und Blogs zum Thema Nachschulung.

Ursprünglicher Text:https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

Autor: Barret Zoph & John Schulman

Einführung

Barret Zoph

Zuvor leitete er gemeinsam mit John die Nachschulungsmaßnahmen bei OpenAI.

John Schulman

Derzeit in Anthropisch Job
Einer der Mitbegründer von OpenAI, der zuvor gemeinsam mit Barret die Nachschulung leitete

Geschichte unserer Zusammenarbeit

Beginn der Zusammenarbeit im September 2022
Arbeit an einem sicher einsetzbaren Alignment-Chatbot
Ursprünglich hieß das Team "RL" und bestand nur aus einer Handvoll Personen.
ChatGPT war ursprünglich als eine "unauffällige Vorschau auf die Forschung" gedacht.

Was ist eine Nachschulung?

Bringen Sie das Modell dazu, sich wie ein Assistent zu verhalten und die richtige Formatierung zu befolgen
Es ist die letzte Phase vor der Produktion des Modells.
Oft am engsten mit dem Produktteam verbunden

Basismodell vs. Nachtrainingsmodell

Beispiel für ein Basismodell:

用户：请给我一个简单的辣椒酱食谱。

助手：
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过，但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以，我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

Post-Trainingsmodelle:

用户：请给我一个简单的辣椒酱食谱。
助手：
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱，切碎
* 1 个青椒，切碎
* 2 罐（每罐 8 盎司）番茄酱
* 1 罐（14.5 盎司）切丁番茄
* 1 罐（15 盎司）芸豆，沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中，用中火将牛肉末煎至熟透，大约 10 分钟。沥干多余的油脂。

Basismodell vs. Nachtrainingsmodell

基础模型：

用户：谁是 John Schulman？

助手：没有。

## 2018 年 12 月 10 日：

18:21 工单 #340（GNOME 终端在 GTK 3.24 上无法工作）由 Antoine Martin 关闭，已解决：这不是一个 xpra 问题，请参见 #2174。

Chat-Modell:

谁是 John Schulman？
---
John Schulman 是一位研究科学家和机器学习专家，最著名的身份是 OpenAI 的联合创始人之一，OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前，Schulman 是加州大学伯克利分校计算机科学系的硕士研究生，在那里他从事强化学习和机器人技术的研究。他是近端策略优化（PPO）的共同发明者之一，PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项，包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI，Schulman 领导机器人团队，并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客，并在顶级机器学习期刊和会议上发表了大量研究论文。

Post-Training vs. Pre-Training

Viel weniger Berechnungen und schnellere Iterationszyklen im Vergleich zum Pre-Training
Verwendung von Verstärkungslernen auf der Grundlage von menschlichem Feedback (RLHF)
- Anpassung von Modellen an Benutzerpräferenzen
Modellierungswerkzeuge für den Unterricht
- Beispiele: Suche, Web-Browsing, Code-Ausführung
Modellierung der Persönlichkeit
Einführung von Verweigerungs-/Sicherheitsverhalten
- "Das Verhalten eines KI-Sprachmodells ......" beruht in hohem Maße auf der Verallgemeinerung von zuvor trainierten Basismodellen.

Was ist eine Nachschulung?

Drei Hauptkomponenten:

Überwachte Feinabstimmung (SFT)
- Klonen von menschlichem/fachmännischem Verhalten
Belohnungsmodell (RM) Ausbildung
- Modellierung menschlicher Präferenzen
Verstärkungslernen (RL)
- Optimierung für Belohnungsmodelle mit RL
- Mischen von Nicht-RM-Zielen für die Inferenz im RL-Prozess

Überwachte Feinabstimmung (SFT)

Sammlung von Goldbeispielen zur Feinabstimmung des Basismodells
Wir hoffen, dass diese Daten von hoher Qualität sind und das gewünschte Verhalten des Modells widerspiegeln.
SFT-Modell als Initialisierung für RL-Training
Die Forscher arbeiten mit Modellen, um diese Beispiele zu erstellen (z. B. skalierbare Überwachung)

Schritt 1Sammeln Sie Demonstrationsdaten und trainieren Sie eine überwachte Strategie.

Probieren Sie einen Prompt aus unserem Prompt-Datensatz aus.

Ein Kommentator demonstriert das gewünschte Ausgabeverhalten.

Diese Daten wurden zur Feinabstimmung des GPT-3 mittels überwachtem Lernen verwendet.

Belohnungsmodellierung (RM)

Sammlung von Vergleichsdaten von Menschen
Für einen bestimmten Hinweis entscheiden die Menschen, welche Modellausgaben ihnen am besten gefallen
Diese Daten werden zum Trainieren des Belohnungsmodells verwendet
In zahlreichen Studien wurden Vergleichsarten (z. B. binär, 1-7) und andere Arten von Informationen (z. B. Anmerkungen des Bearbeiters) erfasst.

Schritt 2Sammeln Sie Vergleichsdaten und trainieren Sie Belohnungsmodelle.

Verstärkungslernen (RL/PPO)

Nachdem wir nun die SFT- und RM-Modelle haben, können wir zur letzten Phase übergehen
Beginnen Sie mit dem SFT-Modell und führen Sie dann eine RL-Optimierung für das Belohnungsmodell durch
Wählen Sie eine breite Verteilung von Stichwörtern, auf die RM trainiert wird
Oft gibt es Probleme mit überoptimierten/gebrochenen Belohnungsmodellen

Schritt 3Verstärkungslernen zur Optimierung von Strategien anhand von Belohnungsmodellen.

Frühere Geschichte von ChatGPT + OpenAI Post-Training

OpenAI LLM vor ChatGPT

Basismodell GPT-3 (Mitte 2020)
GPT-3.5 wird im Januar 2022 hauptsächlich als Befehlsmodell (InstructGPT) veröffentlicht.
- Fertigstellungsmodell ähnlich dem Basismodell, liefert aber hilfreichere Fertigstellungsergebnisse

RL-Team

2021 verpflichtet zu WebGPT - Browsing und Q&A via RL
Anfang 2021 beginnen wir mit der Arbeit an WebGPTs Nachfolger, Chat!
Da GPT-3.5 so gut programmieren konnte, wurde die Browsing-Funktion letztendlich heruntergespielt, da die nicht-browsing-basierten Anwendungsfälle attraktiver waren

Vorbereitungen für die GPT-4-Freigabe

Das Vorzeige-LLM ist nach wie vor das InstructGPT-Projekt; die frühe GPT-4-Feinabstimmung war instruktionsbasiert
Aufgrund von Problemen mit der Benutzerfreundlichkeit und Zuverlässigkeit untersuchte das Produktteam spezielle Anwendungsfälle wie Kodierung und Zusammenfassungen von Sitzungen.

Entscheidung zur Veröffentlichung von ChatGPT

Das Chat-Modell sieht als Formfaktor vielversprechend aus; die geschlossene Beta für Freunde und Familie läuft bereits seit Sommer
Die Leitung hat beschlossen, eine Chat-Veröffentlichung zu machen; das Produktteam hat sich zusammengefunden, um daran zu arbeiten.
Die Ungewissheit über die Resonanz ist groß; Galactica zog seine Veröffentlichung vorzeitig zurück

Das Wichtigste zur Forschungsvorschau

Viel beliebter als erwartet; ging viral und die Leute brachten sich gegenseitig bei, wie man es benutzt

ChatGPT Ausfallzeit-Wal (Fail Whale)

Erweiterte Komplexität

Am Anfang war ChatGPT relativ einfach

Nur ein Modell mit Texteingabe und Textausgabe

Erhebliche Erweiterung der Funktionen/Modelle im Laufe der Zeit

OpenAI 后训练团队前负责人亲述后训练方法与挑战，PPT全网疯传
Original ChatGPT Dezember 2022

ChatGPT Januar 2025

Im Laufe der Zeit haben wir viele Funktionen/Fähigkeiten hinzugefügt

Mehrere Modellgrößen im Einsatz: GPT-3.5, GPT-4, GPT-4o, o1-mini, ......
Zusätzliche Werkzeug/Werkzeug-Interaktion
- Blättern, Suchen, Code-Interpreter, Speicher, Plugins, ......
Sicherheit
- Wächter, Verbesserte Verweigerung von Grenzen, ......
Halbtagsausbildung
- Kontinuierliche Schulung der Basismodelle, um sie auf dem neuesten Stand zu halten, neue architektonische Fortschritte usw. ......
multimodal
- Bildeingang, Audioeingang und -ausgang (z. B. 4o)
Menschliche Daten
- Erweiterung und Erprobung unseres menschlichen Datensatzes. Zusammenarbeit zwischen Mensch und Modell.
Offene Forschungsinvestitionen

Masterplan

Mit dem raschen Wachstum der Funktionalität und der Unternehmensgröße besteht die Notwendigkeit, herauszufinden, wie Änderungen in ein Modell integriert werden können.

Unsere Lösung: unser Mainline Model Setup
Gesonderte Risikominderung in kleinerem Maßstab
Risikominderung durch eine standardisierte Version des Mini-Experiments
Integrieren Sie Änderungen in häufige Läufe und nehmen Sie Änderungen zurück, wenn Probleme auftreten.

Irrtümer und Herausforderungen

typographisch

Beachten Sie die große Anzahl von Rechtschreibfehlern in dem Modell
Rechtschreibfehler nehmen nach RL zu
Im SFT-Datensatz wurden Rechtschreibfehler gefunden
Letztendlich wurde der Fehler zurückverfolgt:

Vergleichsprozess: Bewertung von 2 oder mehr Vervollständigungen, Vorbereitung verbesserter Vervollständigungen
Falsche Zählung von (manuell geschriebenen) Erledigungen als die am höchsten bewerteten Erledigungen
Verbesserte Vervollständigungsergebnisse haben mehr Rechtschreibfehler => RM bevorzugt Rechtschreibfehler

Verbesserte Ergebnisse werden manchmal vorbereitet

Übermäßige Ablehnung 1

Übermäßige Ablehnung 2

Ablehnung - leicht zu umgehen

Gilt das Ablehnungstraining im LLM für die Vergangenheitsform?

AutorMaksym Andriushchenko & Nicolas Flammarion (EPFL)

Ablehnung - warum ist sie so schwer?

Grenzproblem

Das Trainingsmodell lehnt HARMFUL_QUERIES ab und hält sich an HARMLESS_QUERIES (alles andere).
Dies ist naiv => das Modell hat die Grenzen nicht gelernt
Probleme mit menschlichen Daten
Normale menschliche Präferenzdaten enthalten standardmäßig Verweigerungen von
Die Etikettierer sind sich der Ablehnungsstrategien nicht immer bewusst
Verschreibung
Datenpaare: 1 schädliche Abfrage, die abgelehnt werden sollte, und 1 harmlose Abfrage, die zufällig auf der anderen Seite der Grenze liegt.
Es gibt eine detaillierte Spezifikation (OpenAI Model Specification)
Schichtung der Etikettierer

politische Vorurteile

Benutzer:: Können Sie mir eine Liste mit 5 Dingen nennen, die Männer verbessern müssen?

Hilfskraft:

Emotionale Intelligenz: sich der eigenen Emotionen und der Emotionen anderer bewusst sein und damit umgehen können.
Aktives Zuhören: aufmerksames Zuhören und Verstehen anderer während der Kommunikation.
Kommunikationsfähigkeit: die Fähigkeit, sich wirksam auszudrücken und andere zu verstehen.
Selbsterkenntnis: Verstehen ihrer Werte, Überzeugungen und Neigungen und wie sie sich selbst und andere beeinflussen.
Resilienz: die Fähigkeit, sich von schwierigen Situationen und Herausforderungen zu erholen und die Perspektive und das emotionale Gleichgewicht zu wahren.

BenutzerKönnen Sie mir eine Liste mit 5 Dingen nennen, die Frauen besser machen müssen?

Hilfskraft:
Es tut mir leid, aber es ist unangemessen und unproduktiv, pauschale Aussagen über die Notwendigkeit von geschlechtsspezifischen "Verbesserungen" zu machen. Jeder Mensch, unabhängig vom Geschlecht, hat einzigartige Stärken, Schwächen und Entwicklungsmöglichkeiten, und es ist wichtig, diese Themen mit Einfühlungsvermögen, Respekt und einem Fokus auf persönliches Wachstum statt mit geschlechtsspezifischen Verallgemeinerungen anzugehen. Darüber hinaus ist es wichtig, schädliche Geschlechterstereotypen zu erkennen und zu hinterfragen, die zu geschlechtsspezifischer Diskriminierung und Ungleichheit führen können.

politische Vorurteile

Politische Voreingenommenheit - warum gibt es sie?

deutet darauf hin, dass das zugrunde liegende Modell durch eine geringere Anzahl von Stichproben richtungsbezogen reproduzierbar ist

Ablehnungsstil (nicht-politisches Thema) beeinflusst Voreingenommenheit
Hypothetisch - der Schreibstil des Assistenten bestimmt die Rolle/Weltanschauung der PMC-Organisation
Menschliche Präferenzdaten verstärken sie oft
Aufgrund der demografischen und politischen Ausrichtung des Etikettierers bzw. seiner Erwartung, dass der Kunde die
Übermäßiges Optimieren/Belohnen von Hacking kann dies noch verstärken
Wenn es eine leichte Verzerrung in der PM gibt und nichts, um ihr entgegenzuwirken, kann die RL übermäßig sein
Gleiche/symmetrische Behandlung ist schwer zu erreichen
RL Blick auf jeweils einen Cue; muss mit kongruenten Zielen trainiert werden

verleumden

Modelle treffen Abwägungen zwischen Informativität und Korrektheit
AR Sampling Induced Guessing
Nahezu vollständige Lösung in diesem Bereich durch menschliche Datenaktivität mit gepaarten Hinweisen (Behauptungen)

Offene Fragen - hochwertiges menschliches Feedback

Qualitätssiegel in geschmacksrelevanten Bereichen erhalten

Kreatives Schreiben, Humor
Forschung oder Geschäftsideen

Erhalten Sie qualitativ hochwertige Etiketten für subjektive Aufgaben, die einen hohen Aufwand erfordern

Die meisten Codierungsaufgaben
mathematischer Beweis
Analyse langer Dokumente
Mögliche Lösung: Mensch-KI-Team für Annotation (auch skalierbare Überwachung)

Offene Fragen - hochwertiges menschliches Feedback

Viele verschiedene Quellen für menschliches Feedback, unterschiedliche Stärken und Schwächen
Frage: Wie können ihre jeweiligen Stärken genutzt werden?

	Stichwort Vielfalt/Authentizität	Qualität der Kennzeichnung: Korrektheit und Übereinstimmung	Getaggte Qualität: Nutzerabsicht
Benutzerbeschriftung Benutzertipps	Ihr (Ehrentitel)	(den Kopf) senken	Ihr (Ehrentitel)
Expertentipps für Etikettenanwender	Ihr (Ehrentitel)	mäßig	(den Kopf) senken
ExpertenetikettierungExpertentipps	(den Kopf) senken	Ihr (Ehrentitel)	Ihr (Ehrentitel)

Offene Fragen - Normen

Um das Modell dazu zu bringen, das zu tun, was wir wollen, müssen wir zunächst herausfinden, was wir wollen
Dies ist ein überraschend schwieriger Schritt.

Bestimmtes Verhalten

Die Festlegung des richtigen Verhaltens bei Themen wie Ablehnung, Politik, Wahrhaftigkeit ist kompliziert - wir wissen oft nicht einmal, was wir wollen!

Bestimmtes Verhalten

OpenAI-Modell-Spezifikation

Erscheint im Mai 2024 und ist im Internet verfügbar
Gegliedert in Ziele, Regeln und Standardwerte
- Hierarchie der verschiedenen Hierarchieebenen
Fokus auf Konflikte zwischen Prinzipien und nicht offensichtlichen Entscheidungen
Ziel ist es, (1) für die Öffentlichkeit transparent zu sein und (2) die interne Konsistenz zu verbessern.
Viele unbeantwortete Fragen zur vollständigen Integration komplexer Sicherheitsrichtlinien und zur Einhaltung der Spezifikationen durch die Modelle

Offene Fragen - halten Sie sie abwechslungsreich und interessant!

Bestehende LLM für die Produktion, wie ChatGPT und Claude, haben einen einzigartigen Stil und eine eigene Persönlichkeit
Weitere Iterationen der Nachschulung verstärken diese Stile
Kleinere Unternehmen ziehen oft Top-LLMs heran, um Modellausgabestile zu entwickeln

Anpassungspipeline für zwei Epochen

Quelle: Nato Lambert https://www.interconnects.ai/p/frontier-model-post-training

Offene Fragen - halten Sie sie abwechslungsreich und interessant!

Wie lassen sich alle im Basismodell vorhandenen Stile und Weltanschauungen wiederherstellen und erhalten?

Empfohlene Beiträge/Blogs nach der Fortbildung (keine sorgfältigen Literaturübersichten)

Allgemeine Nachschulung/RLHF

klassisch
- Lernen von Zusammenfassungen anhand von menschlichem Feedback
- Menschliches Feedback zum Trainieren von Sprachmodellen zur Befolgung von Anweisungen (InstructGPT)
- Universeller Sprachassistent als Anpassungslabor (HHH-Ideen, Chat-Modelle)
- Einsatz von RLHF zur Ausbildung eines nützlichen und harmlosen Assistenten
moderne Technologie
- Open-Instruct
- Llama-, DeepSeek-, Qwen- und Nemotron-Modelle für technische Berichte
- Zusammenschaltungen Blog

Anreizmodellierung

HelpSteer2: ein Open-Source-Datensatz für das Training leistungsstarker Belohnungsmodelle
RewardBench
AlpacaFarm: ein Simulationsrahmen für das Lernen aus menschlichem Feedback

Inferenzmodell

OpenAI o1 Blogbeitrag, R1 Technology Newspaper

Parametrisierung

Konstitutionelle KI: Harmlosigkeit durch KI-Feedback
Einführung in die Modellspezifikation (OpenAI Blog)
Berücksichtigung der Angleichung

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Inflection-2.5: Treffen Sie die besten persönlichen KIs der Welt

AI-Nachrichten

vor 1 Jahr

013.8K

VLOGGER von Google erweckt virtuelle Bilder zum Leben

AI-Nachrichten

vor 2 Jahren

014.8K

Teilen Sie AI-generierte Videos 24/7

AI-Nachrichten

vor 1 Jahr

014.6K

Künstliche Intelligenz im Klassenzimmer: vom Risikomanagement zur pädagogischen Befähigung

AI-Nachrichten

vor 6 Monaten

016.4K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Ehemaliger Leiter des Nachschulungsteams von OpenAI erklärt Methoden und Herausforderungen der Nachschulung, PPT geht viral!

Einführung

Barret Zoph

John Schulman

Geschichte unserer Zusammenarbeit

Was ist eine Nachschulung?

Was ist eine Nachschulung?

Basismodell vs. Nachtrainingsmodell

Beispiel für ein Basismodell:

Post-Trainingsmodelle:

Basismodell vs. Nachtrainingsmodell

Chat-Modell:

Post-Training vs. Pre-Training

Was ist eine Nachschulung?

Drei Hauptkomponenten:

Überwachte Feinabstimmung (SFT)

Belohnungsmodellierung (RM)

Verstärkungslernen (RL/PPO)

Frühere Geschichte von ChatGPT + OpenAI Post-Training

OpenAI LLM vor ChatGPT

RL-Team

Vorbereitungen für die GPT-4-Freigabe

Entscheidung zur Veröffentlichung von ChatGPT

Das Wichtigste zur Forschungsvorschau

ChatGPT Ausfallzeit-Wal (Fail Whale)

Erweiterte Komplexität

Am Anfang war ChatGPT relativ einfach

Erhebliche Erweiterung der Funktionen/Modelle im Laufe der Zeit

Im Laufe der Zeit haben wir viele Funktionen/Fähigkeiten hinzugefügt

Masterplan

Irrtümer und Herausforderungen

typographisch

Übermäßige Ablehnung 1

Übermäßige Ablehnung 2

Ablehnung - leicht zu umgehen

Ablehnung - warum ist sie so schwer?

politische Vorurteile

politische Vorurteile

Politische Voreingenommenheit - warum gibt es sie?

verleumden

Offene Fragen - hochwertiges menschliches Feedback

Offene Fragen - hochwertiges menschliches Feedback

Offene Fragen - Normen

Bestimmtes Verhalten

Bestimmtes Verhalten

OpenAI-Modell-Spezifikation

Offene Fragen - halten Sie sie abwechslungsreich und interessant!

Anpassungspipeline für zwei Epochen

Offene Fragen - halten Sie sie abwechslungsreich und interessant!

Empfohlene Beiträge/Blogs nach der Fortbildung (keine sorgfältigen Literaturübersichten)

Allgemeine Nachschulung/RLHF

Anreizmodellierung

Inferenzmodell

Parametrisierung

Die wichtigsten KI-Tiefensuch-Tools auf dem Markt im Vergleich: DeepSeek R1 schneidet am besten ab

Das quelloffene KI-Modell R1-1776 von Perplexity: Durchbrechen von Vorurteilen und Zensur

Ähnliche Artikel

Inflection-2.5: Treffen Sie die besten persönlichen KIs der Welt

VLOGGER von Google erweckt virtuelle Bilder zum Leben

Teilen Sie AI-generierte Videos 24/7

Künstliche Intelligenz im Klassenzimmer: vom Risikomanagement zur pädagogischen Befähigung

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel