AI-Austauschkreis

Täglicher Austausch über die neuesten KI-Produkte, Projekte, Frameworks, Interpretationen von Papieren usw.
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - Das universelle Weltmodell von Google

Genie 3 ist eine neue Generation von universellen Weltmodellen von Google DeepMind, die es ermöglichen, hochdynamische und kohärente virtuelle Welten in Echtzeit zu erzeugen. Genie 3 simuliert physikalische Phänomene, natürliche Ökosysteme und unterstützt die Erstellung von Fantasie- und historischen Szenarien. Mit Textaufforderungen können Benutzer...
vor 4 Tagen
0642
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Das leistungsfähigste Programmiermodell von Anthropic

Claude Opus 4.1 ist ein hochmodernes, umfangreiches Sprachmodell von Anthropic, das für die effiziente Verarbeitung komplexer Aufgaben entwickelt wurde. Das Modell zeichnet sich im Bereich der Programmierung durch die Erzeugung von qualitativ hochwertigem Code aus, unterstützt bis zu 32k Einzelausgaben und passt sich an eine Vielzahl von Programmierstilen an...
vor 4 Tagen
0867
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - eine Familie von quelloffenen Inferenzmodellen von OpenAI

gpt-oss ist OpenAIs Familie von Open-Source-Inferenzmodellen, die effiziente, flexible und einfach zu implementierende KI-Lösungen für Entwickler ermöglichen. gpt-oss gibt es in zwei Versionen, gpt-oss-120B mit 117 Milliarden Parametern und Unterstützung für 8...
vor 4 Tagen
0677
MiDashengLM - 小米开源的声音理解模型

MiDashengLM - Xiaomis Open-Source-Modell zum Verstehen von Geräuschen

MiDashengLM ist Xiaomis Open-Source-Modell für effizientes Klangverständnis, mit spezifischen Parametern in der Version MiDashengLM-7B, die sich auf Audioverarbeitung und -verständnis konzentriert. Das Modell basiert auf Xiaomi Dasheng Audio-Encoder und Qwen2.5-Omn...
vor 4 Tagen
0662
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - Tsinghua Labs Open-Source-Modell für zweisprachige Dialoge zur Spracherzeugung

MOSS-TTSD ist ein Open-Source-Modell für gesprochene Dialoge, das vom Speech and Language Lab der Tsinghua Universität entwickelt wurde. MOSS-TTSD kann Textdialogskripte in natürliche, flüssige und ausdrucksstarke Dialogsprache umwandeln und unterstützt die zweisprachige Erzeugung in Englisch und Chinesisch.
vor 4 Tagen
0657
AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - Ein Modell zur multimodalen Audioerzeugung von Racer

AudioGen-Omni ist ein multimodales Audiogenerierungsmodell von Racer, das qualitativ hochwertige Audio-, Sprach- und Songdateien auf der Grundlage von Eingaben wie Video, Text usw. generiert. AudioGen-Omni basiert auf fortschrittlichen Techniken wie multimodaler Diffusionstransformation und...
vor 4 Tagen
0647
RedOne - 小红书最新推出的社交大模型

RedOne - das neueste soziale Megamodell von Little Red Book

RedOne ist ein großes, auf soziale Netzwerke zugeschnittenes Sprachmodell, das von Little Red Book eingeführt wurde. Das Modell wird durch eine dreistufige Trainingsstrategie trainiert, die soziales und kulturelles Wissen einbezieht, Multitasking-Fähigkeiten stärkt und menschliche Präferenzen abgleicht.RedOne übertrifft das Basismodell deutlich in der Leistung bei sozialen Aufgaben, bei der Erkennung schädlicher Inhalte und beim Browsen...
vor 6 Tagen
01.7K
FastDeploy - 百度推出的高性能大模型推理与部署工具

FastDeploy - Baidus leistungsstarkes Tool für die Erstellung und Bereitstellung großer Modelle

FastDeploy ist ein hochleistungsfähiges Reasoning- und Deployment-Tool von Baidu, das für Large Language Models (LLMs) und Visual Language Models (VLMs) entwickelt wurde. FastDeploy wurde auf der Grundlage des Flying Paddle (PaddlePaddle)-Frameworks entwickelt und unterstützt eine Vielzahl von Hardware-Plattformen...
vor 6 Tagen
01.2K
InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS - 3D Gaussian Semantic Dataset von Qunar Technology

InteriorGS ist ein hochwertiger semantischer 3D-Gauß-Datensatz, der von Qunar Technology eingeführt wurde. Der Datensatz enthält 1.000 3D-Szenen, die mehr als 80 Innenräume abdecken, wie z. B. Wohnungen, Geschäfte, Hochzeitssäle und Museen. Der Datensatz enthält mehr als 554.000 Objektinstanzen in 755 Kategorien...
vor 6 Tagen
0672
DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 - Null-Sample-Sprachsynthesemodelle von Microsoft

DragonV2.1 ist ein fortschrittliches Text-to-Speech (TTS)-Modell von Microsoft, das ohne Abtastung arbeitet. Das auf der Transformer-Architektur basierende Modell unterstützt mehrere Sprachen und das Klonen von Null-Sample-Sprache und erzeugt natürliche, ausdrucksstarke Sprache mit nur 5-90 Sekunden Sprachaufforderung.
vor 6 Tagen
01.1K