Genie 3 - Das universelle Weltmodell von Google
Genie 3 ist eine neue Generation von universellen Weltmodellen von Google DeepMind, die es ermöglichen, hochdynamische und kohärente virtuelle Welten in Echtzeit zu erzeugen. Genie 3 simuliert physikalische Phänomene, natürliche Ökosysteme und unterstützt die Erstellung von Fantasie- und historischen Szenarien. Mit Textaufforderungen können Benutzer...
Claude Opus 4.1 - Das leistungsfähigste Programmiermodell von Anthropic
Claude Opus 4.1 ist ein hochmodernes, umfangreiches Sprachmodell von Anthropic, das für die effiziente Verarbeitung komplexer Aufgaben entwickelt wurde. Das Modell zeichnet sich im Bereich der Programmierung durch die Erzeugung von qualitativ hochwertigem Code aus, unterstützt bis zu 32k Einzelausgaben und passt sich an eine Vielzahl von Programmierstilen an...
gpt-oss - eine Familie von quelloffenen Inferenzmodellen von OpenAI
gpt-oss ist OpenAIs Familie von Open-Source-Inferenzmodellen, die effiziente, flexible und einfach zu implementierende KI-Lösungen für Entwickler ermöglichen. gpt-oss gibt es in zwei Versionen, gpt-oss-120B mit 117 Milliarden Parametern und Unterstützung für 8...
MiDashengLM - Xiaomis Open-Source-Modell zum Verstehen von Geräuschen
MiDashengLM ist Xiaomis Open-Source-Modell für effizientes Klangverständnis, mit spezifischen Parametern in der Version MiDashengLM-7B, die sich auf Audioverarbeitung und -verständnis konzentriert. Das Modell basiert auf Xiaomi Dasheng Audio-Encoder und Qwen2.5-Omn...
MOSS-TTSD - Tsinghua Labs Open-Source-Modell für zweisprachige Dialoge zur Spracherzeugung
MOSS-TTSD ist ein Open-Source-Modell für gesprochene Dialoge, das vom Speech and Language Lab der Tsinghua Universität entwickelt wurde. MOSS-TTSD kann Textdialogskripte in natürliche, flüssige und ausdrucksstarke Dialogsprache umwandeln und unterstützt die zweisprachige Erzeugung in Englisch und Chinesisch.
AudioGen-Omni - Ein Modell zur multimodalen Audioerzeugung von Racer
AudioGen-Omni ist ein multimodales Audiogenerierungsmodell von Racer, das qualitativ hochwertige Audio-, Sprach- und Songdateien auf der Grundlage von Eingaben wie Video, Text usw. generiert. AudioGen-Omni basiert auf fortschrittlichen Techniken wie multimodaler Diffusionstransformation und...
RedOne - das neueste soziale Megamodell von Little Red Book
RedOne ist ein großes, auf soziale Netzwerke zugeschnittenes Sprachmodell, das von Little Red Book eingeführt wurde. Das Modell wird durch eine dreistufige Trainingsstrategie trainiert, die soziales und kulturelles Wissen einbezieht, Multitasking-Fähigkeiten stärkt und menschliche Präferenzen abgleicht.RedOne übertrifft das Basismodell deutlich in der Leistung bei sozialen Aufgaben, bei der Erkennung schädlicher Inhalte und beim Browsen...
FastDeploy - Baidus leistungsstarkes Tool für die Erstellung und Bereitstellung großer Modelle
FastDeploy ist ein hochleistungsfähiges Reasoning- und Deployment-Tool von Baidu, das für Large Language Models (LLMs) und Visual Language Models (VLMs) entwickelt wurde. FastDeploy wurde auf der Grundlage des Flying Paddle (PaddlePaddle)-Frameworks entwickelt und unterstützt eine Vielzahl von Hardware-Plattformen...
InteriorGS - 3D Gaussian Semantic Dataset von Qunar Technology
InteriorGS ist ein hochwertiger semantischer 3D-Gauß-Datensatz, der von Qunar Technology eingeführt wurde. Der Datensatz enthält 1.000 3D-Szenen, die mehr als 80 Innenräume abdecken, wie z. B. Wohnungen, Geschäfte, Hochzeitssäle und Museen. Der Datensatz enthält mehr als 554.000 Objektinstanzen in 755 Kategorien...
DragonV2.1 - Null-Sample-Sprachsynthesemodelle von Microsoft
DragonV2.1 ist ein fortschrittliches Text-to-Speech (TTS)-Modell von Microsoft, das ohne Abtastung arbeitet. Das auf der Transformer-Architektur basierende Modell unterstützt mehrere Sprachen und das Klonen von Null-Sample-Sprache und erzeugt natürliche, ausdrucksstarke Sprache mit nur 5-90 Sekunden Sprachaufforderung.