Mit nur 14 Milliarden (14B) Parametern zeigt Phi-4 eine Leistung, die mit einigen größeren Modellen vergleichbar ist oder diese sogar übertrifft, dank innovativer Trainingsmethoden und qualitativ hochwertiger Daten. In diesem Papier werden die Architektur, die Funktionen, die Trainingsmethodik und die Leistung von Phi-4 in realen Anwendungen und Benchmarks detailliert beschrieben.
https://github.com/xinyuwei-david/david-share.git
I. Betrachtung von Indikatoren zur Messung der Kapazität
Messung von drei Fragen zum Vergleich von o1 und Phi-4
Erste Frage:
phi-4
o1
Zweite Frage:
Phi-4.
o1:
Dritte Frage:
Phi-4
o1.
Fragen Sie nach dem Durchschnitt von fünf aufeinanderfolgenden geraden Zahlen, deren Summe bekanntlich 90 ist, und wir werden die Antwort Schritt für Schritt weiter unten geben.
Schritt 1: Einrichten der Unbekannten
Diese fünf aufeinanderfolgenden geraden Zahlen seien:
Erste gerade Zahl: ( n - 4 )
Zweite gerade Zahl: ( n - 2 )
Dritte gerade Zahl: ( n )
Vierte gerade Zahl: ( n + 2 )
Fünfte gerade Zahl: ( n + 4 )
(Da sich gerade Zahlen um 2 unterscheiden, können benachbarte gerade Zahlen wie folgt ausgedrückt werden)
Schritt 2: Aufsummieren der Gleichungen
Dem Titel zufolge ist die Summe der fünf Zahlen 90:
[
(n - 4) + (n - 2) + n + (n + 2) + (n + 4) = 90
]
Schritt 3: Vereinfachung der Gleichungen
Gleiches mit Gleichem kombinieren:
[
5n = 90
]
Schritt 4: Lösen Sie für n
[
n = frac{90}{5} = 18
]
Schritt 5: Finde fünf gerade Zahlen
Erste gerade Zahl: ( 18 - 4 = 14 )
Zweite gerade Zahl: ( 18 - 2 = 16 )
Dritte gerade Zahl: ( 18 )
Vierte gerade Zahl: ( 18 + 2 = 20 )
Fünfte gerade Zahl: ( 18 + 4 = 22 )
Schritt 6: Berechnung der Durchschnittswerte
Der Durchschnitt ist gleich der Summe geteilt durch die Anzahl:
[
text{mittelwert} = frac{14 + 16 + 18 + 20 + 22}{5} = frac{90}{5} = 18
]
Antworten:
Der Durchschnitt dieser fünf aufeinanderfolgenden geraden Zahlen ist 18.
Wenn man es so betrachtet, ist die Argumentation von Phi-4 immer noch in Ordnung.
II. Phi-4 Modellarchitektur
1. transformatorbasierte Decoderarchitektur
Phi-4 verwendet ein Transformator-basiertes Nur für Decoder Diese Architektur ist der GPT-Modellfamilie ähnlich. Diese Architektur nutzt den Self-Attention-Mechanismus, um langfristige Abhängigkeiten in Textsequenzen effektiv zu erfassen, und eignet sich hervorragend für die Generierung natürlicher Sprache.
2. die Parametergröße und die Anzahl der Schichten
- Gesamtzahl der Parameter: 14 Milliarden (14B) Parameter.
- Anzahl der Modelletagen: 40
3. die Länge des Kontextes
- Ursprüngliche Kontextlänge: 4,096 Wertmarke.
- Mittelfristige Verlängerung der Ausbildung: In der mittleren Trainingsphase wurde die Kontextlänge von Phi-4 auf 16,000 Token (16K), das die Fähigkeit des Modells verbessert, lange Texte zu verarbeiten.
4. glossar und lexer
- Splitter: Die Verwendung von OpenAIs Tiktoken-SplitterDas Unternehmen unterstützt mehrere Sprachen und hat einen besseren Split-Word-Effekt.
- Glossargröße: 100,352Dazu gehören auch einige reservierte, nicht verwendete Token.
III. Aufmerksamkeitsmechanismen und Ortskodierung
1. globale Aufmerksamkeitsmechanismen
Phi-4 verwendet Mechanismus der vollen Aufmerksamkeitd.h. die Selbstaufmerksamkeit wird für die gesamte Folge von Kontexten berechnet. Dies steht im Gegensatz zum Vorgängermodell Phi-3-medium, das 2.048 Token des Schiebefensters, während Phi-4 die Berechnung der globalen Aufmerksamkeit direkt auf den Kontexten von 4.096 Token (ursprünglich) und 16.000 Token (erweitert) durchführt, was die Fähigkeit des Modells verbessert, weitreichende Abhängigkeiten zu erfassen.
2. rotierende Positionskodierung (RoPE)
Um größere Kontextlängen zu unterstützen, wurde Phi-4 in der Mitte des Trainings angepasst, um Einbettung der Drehlage (RoPE) der Grundfrequenz:
- Anpassung der Grundfrequenz: Erhöhen Sie die Basisfrequenz von RoPE auf 250,000um die 16K Kontextlänge zu berücksichtigen.
- Die Rolle: RoPE hilft dem Modell, die Wirksamkeit der Positionskodierung in langen Sequenzen beizubehalten, so dass das Modell auch bei längeren Texten eine gute Leistung erbringt.
IV. Ausbildungsstrategien und -methoden
1. das Konzept der Priorisierung der Datenqualität
Die Trainingsstrategie für Phi-4 basiert auf Qualität der Daten im Kern. Im Gegensatz zu anderen Modellen, die hauptsächlich mit organischen Daten aus dem Internet (z. B. Webinhalte, Code usw.) trainiert werden, führt Phi-4 während des gesamten Trainingsprozesses strategisch ein Synthetische Daten.
2. die Erzeugung und Anwendung synthetischer Daten
Synthetische Daten spielte eine Schlüsselrolle bei der Vor- und Zwischenausbildung von Phi-4:
- Mehrere Techniken zur Datengenerierung:
- Multi-Agent Prompting: Die Vielfalt der Daten wird durch den Einsatz mehrerer Sprachmodelle oder Agenten zur gemeinsamen Datengenerierung bereichert.
- Selbstrevisions-Workflows: Nachdem das Modell die erste Ausgabe erzeugt hat, führt es eine Selbstbewertung und Korrektur durch, um die Qualität der Ausgabe iterativ zu verbessern.
- Befehlsumkehr: Die Generierung entsprechender Eingabeanweisungen aus vorhandenen Ausgaben verbessert die Fähigkeit des Modells, Anweisungen zu verstehen und zu generieren.
- Vorteile der synthetischen Daten:
- Strukturiertes und progressives Lernen: Synthetische Daten ermöglichen eine präzise Steuerung von Schwierigkeitsgrad und Inhalt, so dass das Modell schrittweise komplexe Denk- und Problemlösungsfähigkeiten erlernt.
- Verbesserung der Ausbildungseffizienz: Die Generierung synthetischer Daten kann gezielte Trainingsdaten für die Schwachstellen des Modells liefern.
- Vermeiden Sie Datenverschmutzung: Da die synthetischen Daten generiert werden, wird das Risiko vermieden, dass die Trainingsdaten den Inhalt des Überprüfungssatzes enthalten.
3. feines Screening und Filterung von organischen Daten
Zusätzlich zu den synthetischen Daten konzentriert sich Phi-4 auf die sorgfältige Auswahl und Filterung hochwertiger Daten aus verschiedenen Quellen Organische Daten::
- Datenquellen: Enthält Webinhalte, Bücher, Code-Bibliotheken, wissenschaftliche Arbeiten und mehr.
- Datenfilterung:
- Entfernen Sie minderwertige Inhalte: Verwenden Sie automatisierte und manuelle Methoden, um sinnlose, falsche, doppelte oder schädliche Inhalte herauszufiltern.
- Verhindern Sie die Kontamination von Daten: Ein hybrider n-Gramm-Algorithmus (13-Gramm und 7-Gramm) wurde für die Entdopplung und Entkontaminierung verwendet, um sicherzustellen, dass die Trainingsdaten keine Inhalte aus dem Überprüfungssatz enthielten.
4) Strategie für die Datenmischung
Phi-4 wurde in der Zusammensetzung der Trainingsdaten mit den folgenden Verhältnissen optimiert:
- Synthetische Daten: in Besitz nehmen 40%.
- Web Rewrites: in Besitz nehmen 15%Im Falle eines neuen Trainingsmusters wird es aus hochwertigen Webinhalten neu geschrieben, um ein neues Trainingsmuster zu erzeugen.
- Organische Webdaten: in Besitz nehmen 15%Die Webinhalte wurden nach ihrem Wert ausgewählt.
- Code-Daten: in Besitz nehmen 20%einschließlich der öffentlichen Codebasis und der generierten Codesynthesedaten.
- Gezielte Akquisitionen: in Besitz nehmen 10%einschließlich akademischer Abhandlungen, Fachbücher und anderer hochwertiger Inhalte.
5. mehrstufiger Ausbildungsprozess
Vorschulungsphase:
- Zielsetzung: Modellierung des zugrunde liegenden sprachlichen Verständnisses und der generativen Fähigkeiten.
- Datenvolumen: einen Termin vereinbaren 10 Billionen (10T) Wertmarke.
Mittelfristige Ausbildungsphase:
- Zielsetzung: Erweiterung der Kontextlänge zur Verbesserung der Verarbeitung langer Texte.
- Datenvolumen: 250 Milliarden (250B) Wertmarke.
Nachschulungsphase (Feinabstimmung):
- Überwachte Feinabstimmung (SFT): Die Feinabstimmung unter Verwendung hochwertiger, bereichsübergreifender Daten verbessert die Fähigkeit des Modells, Anweisungen zu befolgen, und die Qualität der Antworten.
- Direkte Präferenzoptimierung (DPO): nutzen. Pivotal Token Search (PTS) und andere Methoden zur weiteren Optimierung der Modellleistung.
V. Innovative Ausbildungstechniken
1) Pivotal Token Search (PTS)
PTS-Methodik ist eine wichtige Innovation im Phi-4-Ausbildungsprozess:
- Das Prinzip: Durch die Identifizierung von Schlüssel-Token, die einen signifikanten Einfluss auf die Korrektheit der Antwort während des Generierungsprozesses haben, ist das Modell darauf ausgerichtet, die Vorhersage auf diese Token zu optimieren.
- Vorteil:
- Verbesserung der Ausbildungseffizienz: Wenn Sie sich bei der Optimierung auf die Teile konzentrieren, die den größten Einfluss auf die Ergebnisse haben, sind Sie doppelt so effektiv.
- Verbesserte Modellleistung: Hilft dem Modell, an wichtigen Entscheidungspunkten die richtigen Entscheidungen zu treffen, und verbessert die Gesamtqualität des Ergebnisses.
2. verbesserte direkte Präferenzoptimierung (DPO)
- DPO-Methode: Die Optimierung erfolgt direkt unter Verwendung von Präferenzdaten, um die Ergebnisse des Modells besser mit den menschlichen Präferenzen in Einklang zu bringen.
- Innovationspunkte:
- Kombiniert mit PTS: Die Einführung von PTS-generierten Trainingsdatenpaaren in DPO verbessert die Optimierung.
- Bewertung der Indikatoren: Messen Sie die Optimierung genauer, indem Sie die Leistung des Modells für die wichtigsten Token bewerten.
VI. Merkmale und Vorteile des Modells
1. ausgezeichnete Leistung
- Kleine Modelle, große Möglichkeiten: Die Parameterskala ist zwar nur 14BAllerdings schneidet der Phi-4 bei mehreren Benchmarks gut ab, vor allem beim logischen Denken und bei Problemlösungsaufgaben.
2. ausgezeichnete Argumentationsfähigkeit
- Mathematisches und naturwissenschaftliches Problemlösen: existieren GPQA, undMATH In Vergleichstests wie diesem schneidet Phi-4 sogar besser ab als sein Lehrermodell GPT-4o.
3. lange kontextbezogene Verarbeitungsmöglichkeiten
- Erweiterung der Kontextlänge: Durch die Erweiterung der Kontextlänge in der Mitte des Trainings auf 16,000 Token ist Phi-4 in der Lage, lange Texte und Abhängigkeiten über große Entfernungen effizienter zu handhaben.
4. mehrsprachige Unterstützung
- Abdeckung von mehreren Sprachen: Die Trainingsdaten bestanden aus den Deutsch, Spanisch, Französisch, Portugiesisch, Italienisch, Hindi, Japanisch und viele andere Sprachen.
- Sprachübergreifende Kompetenz: Hervorragend geeignet für Aufgaben wie Übersetzungen und sprachenübergreifende Quizsendungen.
5. die Sicherheit und die Einhaltung der Vorschriften
- Grundsätze einer verantwortungsvollen KI: Der Entwicklungsprozess folgt strikt den Microsoft-Prinzipien für verantwortungsbewusste KI und konzentriert sich auf die Sicherheit und Ethik des Modells.
- Dekontaminierung von Daten und Schutz der Privatsphäre: Strenge Strategien zur Datendeduplizierung und -filterung werden eingesetzt, um zu verhindern, dass sensible Inhalte in die Trainingsdaten aufgenommen werden.
VII. Benchmarks und Leistung
1. externes Benchmarking
Phi-4 zeigt eine führende Leistung bei mehreren öffentlich zugänglichen Prüfungsbenchmarks:
- MMLU (Multitasking Language Understanding): Hervorragende Ergebnisse in komplexen Multitasking-Verständnistests erzielt.
- GPQA (Graduate level STEM quiz): schnitt bei dem schwierigen MINT-Quiz besser ab als einige der größeren Modelle.
- MATH (Mathe-Wettbewerb): Beim Lösen mathematischer Probleme zeigt Phi-4 starke Argumentations- und Berechnungsfähigkeiten.
- HumanEval / HumanEval+ (Codegenerierung): Bei den Aufgaben zur Codegenerierung und zum Codeverständnis übertrifft Phi-4 Modelle seiner Größe und kommt sogar an größere Modelle heran.
2. interne Evaluierungssuite (PhiBench)
Um einen Einblick in die Fähigkeiten und Unzulänglichkeiten des Modells zu erhalten, entwickelte das Team ein spezielles internes Bewertungsprogramm PhiBench::
- Die Aufgabe der Diversifizierung: Umfasst Code-Debugging, Code-Vervollständigung, mathematisches Denken und Fehlererkennung.
- Leitfaden zur Modelloptimierung: Durch die Analyse der PhiBench-Ergebnisse war das Team in der Lage, gezielte Verbesserungen am Modell vorzunehmen.
VIII. sicherheit und haftung
1. strikte Strategie zur Anpassung der Sicherheit
Die Entwicklung von Phi-4 folgt Microsofts Grundsätze für verantwortungsvolle AIDer Schwerpunkt liegt dabei auf der Sicherheit und Ethik des Modells während der Ausbildung und der Feinabstimmung:
- Schutz vor schädlichen Inhalten: Verringern Sie die Wahrscheinlichkeit, dass das Modell ungeeignete Inhalte erzeugt, indem Sie in der Nachtrainings-Phase Daten zur Sicherheits-Feinabstimmung einbeziehen.
- Red-Team-Tests und automatisierte Bewertung: Es wurden umfangreiche Red-Team-Tests und automatisierte Sicherheitsbewertungen durchgeführt, die Dutzende von potenziellen Risikokategorien abdeckten.
2. die Dekontaminierung von Daten und die Vermeidung von Overfitting
- Verbesserte Strategien zur Dekontaminierung von Daten: Ein hybrider 13-Gramm- und 7-Gramm-Algorithmus wird verwendet, um mögliche Überschneidungen in den Trainingsdaten mit den Review-Benchmarks zu entfernen und eine Überanpassung des Modells zu verhindern.
IX. ressourcen und Zeit für die Ausbildung
1. die Ausbildungszeit
Obwohl der offizielle Bericht keine Angaben zur Gesamtausbildungszeit für den Phi-4 macht, sollte man sich das vor Augen halten:
- Modell Maßstab: 14B Parameter.
- Menge der Trainingsdaten: Vor der Ausbildungsphase 10T Token, während der Ausbildungsphase 250B Token.
Es lässt sich vermuten, dass der gesamte Ausbildungsprozess viel Zeit in Anspruch genommen hat.
2. der GPU-Ressourcenverbrauch
GPUs | 1920 H100-80G |
Ausbildungszeit | 21 Tage |
Trainingsdaten | 9,8T Token |
X. Anwendungen und Grenzen
1. die Anwendungsszenarien
- Q&A-System: Phi-4 erbringt gute Leistungen bei komplexen Quizaufgaben und ist für alle Arten von intelligenten Quizanwendungen geeignet.
- Code-Erzeugung und -Verständnis: Hervorragend geeignet für Programmieraufgaben und kann in Szenarien wie Code-Tutoring, automatische Generierung und Debugging eingesetzt werden.
- Mehrsprachige Übersetzung und Verarbeitung: Mehrsprachige Unterstützung für globalisierte Sprachdienste.
2. mögliche Einschränkungen
- Wissensabgrenzung: Das Wissen des Modells endet bei den Trainingsdaten und weiß möglicherweise nichts über Ereignisse, die nach dem Training auftreten.
- Lange Sequenz Herausforderung: Obwohl die Kontextlänge auf 16K erweitert wurde, kann es bei längeren Sequenzen immer noch zu Problemen kommen.
- Risikokontrolle: Trotz strenger Sicherheitsvorkehrungen können die Modelle immer noch Opfer von Angriffen oder der versehentlichen Erzeugung unangemessener Inhalte werden.
Der Erfolg von Phi-4 zeigt, wie wichtig die Datenqualität und die Trainingsstrategie bei der Entwicklung von Sprachmodellen in großem Maßstab sind. Durch innovative Methoden zur Generierung synthetischer Daten, sorgfältige Strategien zum Mischen von Trainingsdaten und fortschrittliche Trainingstechniken erreicht Phi-4 eine hervorragende Leistung bei gleichzeitig kleiner Parametergröße:
- Das logische Denkvermögen ist hervorragend: Hervorragende Leistungen in den Bereichen Mathematik, Naturwissenschaften und Programmierung.
- Verarbeitung langer Texte: Die erweiterte Kontextlänge verleiht dem Modell einen Vorteil bei der Verarbeitung langer Texte.
- Sicherheit und Verantwortung: Die strikte Einhaltung der Grundsätze der verantwortungsvollen KI gewährleistet, dass die Modelle sicher und ethisch vertretbar sind.
Phi-4 setzt neue Maßstäbe bei der Entwicklung kleiner parametrischer quantitativer Modelle und zeigt, dass durch die Konzentration auf Datenqualität und Trainingsstrategien auch bei kleineren Parameterskalen eine hervorragende Leistung erzielt werden kann.
Referenzen: /https://www.microsoft.com/en-us/research/uploads/prod/2024/12/P4TechReport.pdf