Mit der rasanten Entwicklung der KI-Technologie ist die Fähigkeit großer Sprachmodelle, schwierige wissenschaftliche Themen auf Graduiertenebene zu erörtern, zu einem wichtigen Forschungsthema geworden. Am Beispiel von OpenAI zeigt das neue Modell OpenAI o1, das Anfang Dezember offiziell veröffentlicht wurde, eine starkewissenschaftliche ArgumentationDer o1 schnitt beim GPQA-Diamond, einem Benchmark für die Prüfung von Fachwissen auf Hochschulniveau in den Bereichen Physik, Chemie und Biologie, erstaunlich gut ab und zeigte Fähigkeiten, die mit denen eines menschlichen Doktors vergleichbar sind.
Um die Leistung großer Modelle in diesem Bereich effektiver bewerten zu können, insbesondere in Anbetracht der Tatsache, dass in China eine große Anzahl großer Modelle mit ausgezeichneten wissenschaftlichen Argumentationsfähigkeiten entsteht, haben wir den umfassenden chinesischen SuperCLUE-Benchmark eingeführt, der auf der Akkumulation derIn Wissenschaftliches ArgumentierenSuperCLUE-Science (eine Benchmark-Bewertung der Lesekompetenz). Dieser Benchmark konzentriert sich hauptsächlich auf die Bewertung der großen chinesischen Modelle imWissenschaftliche Fragen auf Hochschulniveauin der Leistung des Modells, mit dem Ziel, eine gezieltere Referenz für die zukünftige Modellentwicklung zu liefern.
SuperCLUE-WissenschaftBewertungssystem
1. charakteristische Merkmale
(1)Ausführlichkeit
Die Benchmarks decken ein breites Spektrum an Wissensbereichen und Komplexität ab und wurden detailliert für die Unterbereiche der Sekundärfächer in den drei Kategorien Physik, Chemie und Biologie entwickelt, um eine umfassende Bewertung der Fähigkeiten des chinesischen Großen Modells im wissenschaftlichen Denken zu gewährleisten.
(2) ZielsetzungSuffix, das ein Substantiv aus einem Adjektiv bildet, entsprechend -ness oder -ity
Das Scientific Reasoning Benchmark Assessment legt großen Wert auf die Objektivität der wissenschaftlichen Fragen, die durch die Konstruktion des Beurteilungssatzes in Form von gut gestalteten Frage-Antwort-Paaren, die objektiv und lösbar sind, gewährleistet wird. Bei der Bewertung achten wir besonders auf die Genauigkeit der Antworten, die das Große Modell gibt.
(3) HerausforderungenSuffix, das ein Substantiv aus einem Adjektiv bildet, entsprechend -ness oder -ity
Um die Leistung des Modells bei komplexen Szenarien und schwierigen wissenschaftlichen Fragen zu messen, haben wir anspruchsvolle wissenschaftliche Fragen auf Hochschulniveau eingeführt, und zwar sowohl in Bezug auf die Breite des von den Fragen abgedeckten Wissens als auch auf die Tiefe der Argumentation, die für die Fragen erforderlich ist.
2. Bewertungsmission
Um die Fähigkeit des Großen Modells, wissenschaftlich zu argumentieren, effektiver zu bewerten, haben wir Themen in drei Disziplinen - Physik, Chemie und Biologie - gemessen und die sekundären Unterbereiche unter den jeweiligen Disziplinen detailliert erweitert, um eine umfassende Abdeckung der verschiedenen wissenschaftlichen Bereiche sicherzustellen. Die sekundären Unterbereiche sind unten dargestellt:
- PhysiotherapieQuantenmechanik, Hochenergie-Teilchenphysik, allgemeine Physik, Astrophysik, Elektromagnetismus und Photonik, relativistische Mechanik, statistische Mechanik, Physik der kondensierten Materie, Optik und Akustik
- Chemotherapie: Organische Chemie, Allgemeine Chemie, Anorganische Chemie, Analytische Chemie, Physikalische Chemie
- Organismen: Molekularbiologie, Genetik
Im Folgenden werden wir einige der Kategorien kurz vorstellen und entsprechende Beispiele zeigen.
2.1 Quantenmechanik
Die Quantenmechanik ist ein hochaktuelles Gebiet der Physik, das das exotische Verhalten von Teilchen in der mikroskopischen Welt erforscht. Sie umfasst Konzepte wie den Welle-Teilchen-Dualismus, die Quantensuperposition und die Verschränkung und erfordert ein tiefgreifendes Verständnis der Unschärferelation und der Entwicklung von Quantenzuständen. Die Quantenphysik stellt nicht nur die traditionellen Konzepte der Physik in Frage, sondern fördert auch die Entwicklung von Technologien wie Quantencomputer und Quantenkommunikation, was sie zu einem Schlüsselbereich für die wissenschaftliche Erforschung und technologische Innovation macht.
Beispiel:
2.2 Energetische Teilchenphysik
Die Hochenergie-Teilchenphysik befasst sich mit der Erforschung der fundamentalsten Teilchen im Universum und ihrer Wechselwirkungen. Das Gebiet umfasst Beschleunigertechnologie, Teilchendetektoren und Datenanalyse und zielt darauf ab, die grundlegende Zusammensetzung der Materie und den Ursprung des Universums zu erforschen. Experimente der Hochenergie-Teilchenphysik, wie der Large Hadron Collider (LHC), stehen an der Spitze der wissenschaftlichen Entdeckungen, da sie präzise Messungen und komplexe Datenanalysen erfordern und eine strenge wissenschaftliche Einstellung sowie interdisziplinäre Zusammenarbeit fördern.
Beispiel:
2.3 Organische Chemie
Die organische Chemie ist die Wissenschaft von der Struktur, den Eigenschaften und den Synthesemethoden von kohlenstoffhaltigen Verbindungen. Sie befasst sich mit den vierwertigen Bindungseigenschaften der Kohlenstoffatome, der Stereochemie und den Reaktionsmechanismen und erforscht die Geheimnisse der Naturstoffe und synthetischen Polymere. Die organische Chemie bereichert nicht nur die theoretische Grundlage für die Entwicklung von Arzneimitteln und die Materialwissenschaft, sondern entwickelt auch die Fähigkeit, Strukturen zu analysieren und Synthesen zu entwerfen, was sie zu einem äußerst kreativen Teil des Fachgebiets Chemie macht.
Beispiel:
2.4 Physikalische Chemie
Die physikalische Chemie ist ein interdisziplinäres Fachgebiet an der Schnittstelle zwischen Chemie und Physik, das die physikalischen Grundlagen chemischer Phänomene untersucht. Das Gebiet umfasst Thermodynamik, Quantenchemie, Elektrochemie und Kinetik und wendet die Gesetze der Physik an, um die Natur chemischer Reaktionen zu erklären. Die physikalische Chemie vertieft nicht nur das Verständnis chemischer Bindungen und Reaktionsgeschwindigkeiten, sondern fördert auch die Entwicklung von Katalyse, Spektroskopie und anderen Technologien und bildet eine Brücke zwischen Theorie und Experiment.
Beispiel:
2.5 Genetik
Die Genetik befasst sich mit den Mustern der Weitergabe von genetischen Informationen und Variationen in lebenden Organismen. Sie befasst sich mit der Genstruktur, der genetischen Rekombination, der Epigenetik und der Populationsgenetik und gibt Aufschluss über den Ursprung und die Entwicklung der biologischen Vielfalt. Die Genetik liefert nicht nur die theoretische Grundlage für die Diagnose und Behandlung genetisch bedingter Krankheiten in der Medizin, sondern fördert auch die Entwicklung der landwirtschaftlichen Züchtung und den ökologischen Naturschutz und ist ein Kernbereich der Biowissenschaften. Beispiel:
2.6 Molekularbiologie
Molekularbiologie ist die Wissenschaft von der Struktur und Funktion biologischer Makromoleküle. Sie befasst sich mit DNA-Replikation, Transkription und Translation, Proteinfaltung und -interaktionen und deckt die molekularen Mechanismen der Lebensaktivitäten auf. Die Molekularbiologie vertieft nicht nur das Verständnis der Regulierung der Genexpression, sondern fördert auch die Entwicklung neuer Bereiche wie Genbearbeitung und Bioinformatik und ist ein wichtiges Instrument zur Erforschung der Geheimnisse des Lebens in den Biowissenschaften. Beispiel:
3 Beispiele für Messmethoden und Bewertungen
Bewertungsmethoden und Ideen
1. ideen für BewertungsmethodenIn Anlehnung an die Bewertungsmethode des SuperCLUE-CoT "Chained Reasoning"-Beurteilungsmaßstabs für Teamarbeit wird ein spezieller Beurteilungssatz erstellt, um jede Dimension zu bewerten und detailliertes Feedback zu geben.
2. die Konstruktion der Messgeräte
Der Prozess des Aufbaus einer chinesischen Fragenbank für wissenschaftliches Denken: 1. Sammeln und Organisieren von Fachwissen auf Hochschulniveau in Chemie, Physik und Biologie ---> 2. Schreiben von chinesischen Fragen zum wissenschaftlichen Denken ---> 3.
3. die Bewertungskriterien
Der gesamte Bewertungsprozess war in mehrere Schlüsselphasen unterteilt: Zunächst wurde das Material der Fragenbank vorbereitet, um die Richtigkeit und Vollständigkeit der Eingabedaten sicherzustellen. Anschließend wurden die Antworten auf das große Modell anhand detaillierter Bewertungskriterien analysiert. Schließlich werden strenge Bewertungsregeln angewandt, um die Antworten auf das große Modell zu bewerten. Dieser Prozess liefert Fragen, die denmanuelle KalibrierungReferenzantworten für die objektive Bewertung zu veröffentlichen.
Die Bewertungskriterien decken zwei wichtige Dimensionen für die Prüfung des wissenschaftlichen Denkens ab, darunterder Prozess der Lösung eines Problemsim Gesang antwortenendgültige Antwortdie eine umfassende Bewertung der Argumentationsfähigkeit des Modells bei wissenschaftlichen Fragen auf Hochschulniveau gewährleistet.
Die Bewertungsregeln sind quantitativer Natur und sollen den wissenschaftlichen und fairen Charakter des Bewertungsverfahrens gewährleisten. Außerdem haben wir ein hochmodernes automatisches Bewertungssystem eingeführt, das manuelle Eingriffe stark reduziert und die Effizienz und Konsistenz der Bewertung weiter verbessert.
Die Bewertungskriterien für jede Dimension sind in der Bewertungsaufgabe klar definiert. Durch die Kombination des Bewertungsprozesses, der Kriterien und der Bewertungsregeln werden die Fragen zur Bewertung in das große Modell eingespeist, und die Bewertungsergebnisse jeder Dimension werden schließlich ermittelt. Dieser systematische Ansatz erhöht nicht nur die Genauigkeit der Bewertung, sondern bietet auch eine solide Datengrundlage für die Verbesserung des großen Modells.
4.Bewertungskriterien
Für die Bewertung der Antwortqualität der einzelnen Makromodelle bei der Bewertungsaufgabe werden zwei Bewertungskriterien herangezogen.
Im Bewertungssystem für Fragen des wissenschaftlichen Denkens konzentriert sich die Kernrubrik in erster Linie auf die"Die endgültige Antwort"Die Präzision und Genauigkeit der"Der Problemlösungsprozess"Die Strenge der Argumentationsschritte in der Betrachtung. In Anbetracht der Szenarien, in denen das Big Language Model verwendet wird, haben wir es stark personalisiert und für die spezifische Art der wissenschaftlichen Fragestellung optimiert, um den einzigartigen Herausforderungen gerecht zu werden.
Fragen zum wissenschaftlichen Denken unterscheiden sich von herkömmlichen wissenschaftlichen Fragen dadurch, dass sie die akademische Tiefe eines Hochschulstudiums berühren und nicht nur ein breites Wissensspektrum abdecken, sondern auch komplizierter im logischen Denken sind und die Löser zwingen, aus dem traditionellen Denkmodus herauszugehen und innovative Denkstrategien anzuwenden. Bei der Bewertung solcher Fragen kontrollieren wir daher nicht nur streng die Genauigkeit der endgültigen Antwort, sondern legen auch großen Wert auf die Klarheit und Rationalität der logischen Argumentation beim Lösen der Fragen und bemühen uns, die Fähigkeit der Löser zum wissenschaftlichen Denken umfassend und gründlich zu messen.
Mit diesen beiden Bewertungskriterien hoffen wir, die Leistung der einzelnen großen Modelle bei den Messaufgaben umfassend und objektiv beurteilen zu können und wertvolles Feedback für weitere Verbesserungen und Optimierungen zu geben.
Beispiel für eine Bewertung
Wir haben verschiedene große Modelle aus dem In- und Ausland verwendet, um die von uns vorbereiteten Fragen zu beantworten, und haben die o1 Automatisierte Bewertung der Antworten auf das Große Modell. Nachstehend finden Sie Beispiele für die Bewertung in zwei verschiedenen disziplinären Teilbereichen:
Beispiel 1 Genetik
[Frage]:
[Referenzantwort]: 38.25%
[Modell (Domestic Large Model 1) Antwort]: Super Model Scoring::
Bewerten Sie diese Antwort wie folgt:FRAGEN UND FEEDBACK ZUR VERBESSERUNG: Der KI-Assistent war bei der Lösung der Frage nicht logisch und hat die Auswirkung der Rekombinationshäufigkeit auf die Gameten nicht richtig berücksichtigt, was zu einer falschen Endantwort führte. Die Lösungsschritte waren nicht vollständig und klar genug.
- der Prozess der Lösung eines Problems(5 Punkte)::
Auf Kriterium 1 basierender Lösungsprozess; der Lösungsprozess des KI-Assistenten ist nicht logisch stringent, hat unvollständige Schritte und berücksichtigt die Auswirkungen von Rekombinationsereignissen auf die Genotyp-Proportionen nicht korrekt; Punktzahl von 1 basierend auf Kriterium 1.
Ergebnis:1/5
- endgültige Antwort(5 Punkte)::
Endgültige Antwort basierend auf Kriterium 2; die endgültige Antwort des AI-Assistenten stimmt nicht mit der Referenzantwort überein und wird falsch beantwortet; Punktzahl 0 basierend auf Kriterium 2.
Ergebnis:0/5Kombinierte Punktzahl = ( 1 + 0 ) / 2 = 0,5Zusammengenommen.AIKombinierte Bewertung der Antworten des Assistenten 0.5 Punkte.
[Modell (Großes Überseemodell 1) Antwort]:
Super Model Scoring::
Bewerten Sie diese Antwort wie folgt:Die Antworten des KI-Assistenten zeigten eine gewisse Logik bei der Lösung der Fragen, aber es gab einen Fehler bei der Berechnung der Hauptwahrscheinlichkeit, was zu einer endgültigen Antwort führte, die nicht mit der Referenzantwort übereinstimmte. Das Verständnis und die Anwendung der Beziehung zwischen Rekombinationshäufigkeit und Genotypwahrscheinlichkeit in der Genetik muss gestärkt werden.
- Lösungsprozess (5 Punkte)::
Basierend auf Kriterium 1 ; die Lösungsschritte des KI-Assistenten sind teilweise korrekt, er ist in der Lage, Rekombinationshäufigkeiten zu identifizieren und versucht, die Wahrscheinlichkeit der Gametenarten zu berechnen, aber es gibt einen Fehler bei der Berechnung der kombinierten Rekombinationswahrscheinlichkeit und der endgültigen Genotypwahrscheinlichkeit, was zu einem ungenauen Ergebnis führt; basierend auf Kriterium 1 Bewertungen, z.B. 3 Punkte.
Ergebnis:3/5
- Letzte Antwort (5 Punkte)::
Basierend auf der für Kriterium 2; die endgültige Antwort des KI-Assistenten, 12.31%, stimmt nicht mit der Referenzantwort, 38.25%, überein und wird daher mit 0 bewertet.
Bewertung: 0/5Gesamtpunktzahl = ( 3 + 0 ) / 2 = 1,50
Zusammengenommen.AIKombinierte Bewertung der Antworten des Assistenten 1.50 Punkte.
# Beispiel 2 Organische Chemie
[Frage]:
[Referenzantwort]: 0,082 ~ 0,093
[Modell (Inländisches Großmodell 2) Antwort]:
Super Model Scoring::
Bewerten Sie diese Antwort wie folgt:Der KI-Assistent ging fälschlicherweise davon aus, dass die Hydroxylionenkonzentration während der Lösung konstant bleibt, was zu einer Endrechnung führte, die nicht mit der Referenzantwort übereinstimmte. Die Lösung wendet die Formel der sekundären Reaktionskinetik nicht korrekt an, was die Genauigkeit der Antwort beeinträchtigt.
Die Punktevergabe und Bewertung beginnt:
- Lösungsprozess (5 Punkte)::
Die Lösung des KI-Assistenten war nicht logisch stringent, mit unvollständigen Schritten und ungültigen Lösungen. Er hat die Sekundärreaktion fälschlicherweise zu einer Primärreaktion vereinfacht und die sekundärkinetische Formel nicht korrekt angewandt; Bewertung nach Kriterium 1, z. B. 1 Punkt.
Bewertung: 1/5
- Letzte Antwort (5 Punkte)::
Die endgültige Antwort des KI-Assistenten, 0,045 M, entspricht nicht dem Referenz-Antwortbereich von 0,082 ~ 0,093 M. Die Antwort ist falsch; die Punktzahl basiert auf Kriterium 2, z. B. 0 Punkte.
Bewertung: 0/5Kombinierte Punktzahl = ( 1 + 0 ) / 2 = 0,50
Zusammengenommen.AIKombinierte Bewertung der Antworten des Assistenten 0.50 Punkte.
[Modell (Großes Überseemodell 2) Antwort]:
Super Model Scoring::
Bewerten Sie diese Antwort wie folgt:Der KI-Assistent verfügt über eine klare Logik und vollständige Schritte bei der Lösung des Problems, was im Grunde die Anforderungen der Frage erfüllt, und die endgültige Antwort ist genau. Allerdings gibt es eine leichte Ungenauigkeit bei der Darstellung des Wertebereichs im letzten Schritt, und es wird empfohlen, die Details der Berechnung weiter zu überprüfen, um vollständige Genauigkeit zu gewährleisten.
Die Punktevergabe und Bewertung beginnt:
- Lösungsprozess (5 Punkte)::
Die Lösung des KI-Assistenten ist logisch, mit vollständigen und klaren Schritten, konsistent mit der kinetischen Analyse von sekundären nukleophilen Substitutionsreaktionen und verwendet eine effektive und angemessene Methodik. Punktzahl basierend auf Kriterium 1, 4 Punkte.
Bewertung: 4/5
- Letzte Antwort (5 Punkte)::
Die endgültige Antwort des KI-Assistenten liegt im Bereich der Referenzantwort, erfüllt die Anforderungen der Frage und ist die richtige Antwort. Punktzahl basierend auf Kriterium 2, 5 Punkte.
Bewertung: 5/5Kombinierte Punktzahl = ( 4 + 5 ) / 2 = 4,50
Zusammengenommen.AIDie Antwort des Assistenten hat eine Gesamtpunktzahl von 4.50 Punkte.
Aufforderung zur Bewertung
Zeitplanung
1) Beginn der Registrierung: 2. Januar
2. die Bestätigung des Teilnehmerbewertungsmodells: 10. Januar
3) Durchführung der Messung und Ergebnisstatistik: 10-15 Januar
4. die Veröffentlichung der Bewertungsergebnisse: 16. JanuarBewertungsprozess
1.Mail-Anwendung
2. die Mitteilung der Absicht
3 Prozess der Teilnahmebestätigung und -vereinbarung
4. die Bereitstellung von Modell-API und Dokumentation
5. einen Evaluierungsbericht einholen
# Beantragen Sie eine Überprüfung unterTitel der Mail: SuperCLUE-Science Chinese Scientific Reasoning Assessment Application, 发送contact@superclue.ai请使用单位邮箱, Inhalt der Mail: Informationen zur Einheit, Profil des großen Modells, Kontaktperson und angeschlossene Abteilung, Kontaktinformationen