GLM-4.1V-Thinking - eine Familie von quelloffenen visuellen Sprachmodellen von Smart Spectrum AI
GLM-4.1V-Thinking ist ein von Smart Spectrum AI eingeführtes Open-Source-Modell für visuelle Sprache, das für komplexe kognitive Aufgaben entwickelt wurde. GLM-4.1V-Thinking unterstützt multimodale Eingaben, die Bilder, Videos und Dokumente umfassen. Basierend auf der GLM-4V-Architektur führt das Modell eine Gedankenkette ein, die...
ThinkSound - Audio Generation Modelling von Ali Tongyi
ThinkSound ist das erste CoT (Chain Thinking)-Audiogenerierungsmodell, das vom Sprachteam von Ali Tongyi eingeführt wurde. Das Modell kann genau abgestimmte Soundeffekte für Videobilder erzeugen, basierend auf der Einführung von CoT-Argumentation, um das Problem der traditionellen Technologie zu lösen ist schwierig, die dynamischen Details des Bildschirms und räumlichen Beziehungen zu erfassen.
Qwen-TTS - Sprachsynthesemodell eingeführt von Ali Tongyi Qianqian
Qwen-TTS ist ein fortschrittliches Sprachsynthesemodell, das von Ali Tongyi entwickelt wurde. Das Modell kann Text effizient in natürliche und flüssige Sprache umwandeln und unterstützt mehrere Sprachen und Dialekte, wie z.B. Mandarin, Englisch, Peking-Dialekt, usw., um den Anforderungen verschiedener Regionen und Szenen gerecht zu werden. Die Sprachausgabe des Modells basiert auf einem umfangreichen Trainingskorpus und ist von hoher Qualität,...
MultiAgentPPT - Open-Source-System zur Erzeugung von KI-Präsentationen
MultiAgentPPT ist ein quelloffenes, multi-intelligentes KI-Präsentationserstellungssystem. Benutzer müssen nur das Thema eingeben, das System basiert auf multi-intelligenter Zusammenarbeit, vervollständigt automatisch die Gliederung, Aufteilung des Themas, parallele Forschung und Inhaltszusammenfassung und andere Schritte, um schnell hochwertige PPT.... zu erzeugen.
Ovis-U1 - ein multimodales, einheitliches KI-Modell, vorgestellt von Ali
Ovis-U1 ist ein multimodales vereinheitlichtes Modell, das vom Ovis-Team der Alibaba-Gruppe mit einer Parameterskala von 3 Milliarden eingeführt wurde. Das Modell verfügt über drei Kernfähigkeiten: multimodales Verstehen, Text-zu-Bild-Erzeugung und Bildbearbeitung. Mit fortschrittlichem architektonischem Design und kollaborativen, einheitlichen Trainingsmethoden unterstützt es die Realisierung von...
Doppl - KI-App für virtuelle Anproben von Google
Doppl ist eine virtuelle KI-Anprobe-App von Google. Nachdem der Benutzer ein Ganzkörperfoto hochgeladen hat, unterstützt die Anwendung die Kleidung Bild oder Screenshot "tragen" in der digitalen Version des eigenen Körpers, und kann von statischen Bildern zu AI-generierte Video umgewandelt werden, so dass Benutzer mehr wirklich die Wirkung der Kleidung auf den Körper fühlen können.
Xunlei MCP - automatischer KI-Download-Dienst von Xunlei
Xunlei MCP wird von Xunlei eingeführt, ein automatischer Download-Service, der auf KI-Technologie basiert. Benutzer in der KI-Anwendung, die den Dienst unterstützt, mit Sprach- oder Texteingabe Download-Anforderung, KI kann automatisch nach Netzwerkressourcen suchen und den Download starten. Xunlei MCP unterstützt PC-Version von Xunlei und NAS Xunlei, brechen die traditionellen Download-Modus, so dass...
Kapi Bookkeeping - Intelligente KI-Buchhaltungs-App von ShangTech
Kapi Bookkeeping ist eine intelligente KI-Buchhaltungsanwendung, die von Shangtang Technology eingeführt wurde. Die Anwendung nutzt die automatische Buchführung als Kernfunktion, identifiziert automatisch Beträge und Klassifizierungen und unterstützt die Spracheingabe, was die Buchführung einfach und bequem macht. Kapi Bookkeeping kann auf intelligente Weise Rechnungsdaten analysieren und regelmäßig personalisierte Verbrauchsübersichten und Finanztipps bereitstellen, um den Nutzern zu helfen, ihre...
Gemini CLI - Google Open Source Programmier-Agent
Gemini CLI ist Googles Open-Source-KI-Programmierwerkzeug, das auf der Integration des Gemini Big Model in den Endpunkt des Entwicklers basiert, um Entwicklern leistungsstarke KI-Funktionen zu bieten. Das Tool versteht Code, manipuliert Dateien, führt Befehle aus und behebt dynamisch Probleme, um Entwicklern bei der effizienten Erstellung von...
AnimaTensor - Ein quadratisches Bilderzeugungsmodell von Toast AI und anderen
AnimaTensor ist ein quadratisches Bilderzeugungsmodell des CagliostroLab-Teams in Zusammenarbeit mit TensorArt, das auf einer innovativen V-Prediction-Technik basiert, die die Rauschplanung durch Vorhersage der "Geschwindigkeit" des Bilderzeugungsprozesses optimiert...