最新のAIリソース

共 3143 篇文章

コース情報最新のAIリソース AI知識ベース AIニュース

順番に並べる

目を通すブックマーク

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman（インフィニティ・ヒューマン）：バイトがZJUと共同で立ち上げた長編ビデオ・デジタル・ヒューマン・ジェネレーション・モデル

InfinityHumanは、ByteDanceと浙江大学が共同で発表した商用レベルの長時間音声駆動型キャラクター動画生成モデルである。このモデルは音声駆動型であり、高解像度、長時間、視覚的に一貫性のあるキャラクター動画を生成することができる。

最新のAIリソース

11ヶ月前

056.4K

AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P オープンソース・フリー・ミュージックビデオ生成システム。

AutoMVは、M-A-Pチームが複数の大学と共同で開発したオープンソースのミュージックビデオ生成システムで、トレーニングなしで完成した楽曲をもとに首尾一貫したミュージックビデオを自動生成することができる。音楽分析、脚本作成、演出、品質管理モジュールを含むマルチインテリジェンス協調モデルを採用しており、歌詞、ビート、...

最新のAIリソース

7ヶ月前

056.3K

Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。

最新のAIリソース

10ヶ月前

056.3K

Wide Research - Manus平台推出的多智能体协同功能

ワイドリサーチ - マヌスプラットフォームにマルチインテリジェンス・コラボレーションを導入

ワイドリサーチは、複雑で大規模なタスクを処理するために設計されたManusプラットフォームの強力な機能です。このプラットフォームは、システムレベルの並列処理メカニズムとインテリジェンスコラボレーションプロトコルによって、同時に動作する数百の汎用インテリジェンスをサポートします。

最新のAIリソース

1年前

056.3K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

最新のAIリソース

7ヶ月前

056.2K

SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - Wisdom spectrumとTsinghuaのオープンソース映画・テレビキャラクタアニメーション生成フレームワーク

SCAIL（Studio-Grade Character Animation via In-Context Learning）は、Smart Spectrumが清華大学のLiu Yongjin教授のグループと共同で提案した、映画・テレビ用のキャラクターアニメーション生成フレームワークです。このフレームワークを通して...

最新のAIリソース

8ヶ月前

056.2K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

最新のAIリソース

6ヶ月前

056.2K

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - FudanとAli Dharma Instituteとその他のオープンソースインテリジェント画像アニメーション生成フレームワーク

AnyI2Vは復旦大学、Alibaba Darmo Academyなどが共同で立ち上げた画像アニメーション生成フレームワークで、複雑な学習プロセスや大量のデータを必要とせずに、静的な条件画像（グリッド、点群など）を動的な動画に変換することをサポートする。

最新のAIリソース

11ヶ月前

056.2K

Clawra - 基于OpenClaw框架开源的AI女友程序

Clawra - 基于OpenClaw框架开源的AI女友程序

Clawra是一个基于OpenClaw框架开发的AI女友程序，由韩国开发者David Im制作，具有完整人设和交互功能。通过Persona Engineering技术赋予AI“18岁亚裔女性练习生”的...

最新のAIリソース

6ヶ月前

056.1K

OpenReasoning-Nemotron - 英伟达推出的开源系列推理模型

OpenReasoning-Nemotron - NVIDIAの推論モデルのオープンソースシリーズ

OpenReasoning-Nemotronは、数学、科学、コードにおける推論タスクの処理をサポートするために、NVIDIAによってオープンソース化された一連の大規模言語モデルです。このモデルは、DeepSeek R1 0528モデルをベースに抽出されており、1.5Bのパラメータスケールを持っています。

最新のAIリソース

1年前

056.1K

MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - シャオミが公開したオープンソースMoEアーキテクチャの大型モデル

MiMo-V2-FlashはXiaomiが発表したオープンソースのMoEアーキテクチャの大型モデルで、総パラメータは3,090億、アクティブパラメータは150億であり、効率的な推論とインテリジェントボディの応用に焦点を当てている。ハイブリッドアテンションアーキテクチャと多言語メタ予測技術を採用し、推論速度は150トークン/秒である。

最新のAIリソース

8ヶ月前

056.1K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

最新のAIリソース

6ヶ月前

056K

GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型

GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型

GLM-OCR 是智谱开源的 0.9B 轻量级专业 OCR 模型，在 OmniDocBench V1.5 以 94.6 分刷新 SOTA。兼顾“小体积”与“全场景”，扫描、手写、印章、多语混排、复杂表...

最新のAIリソース

6ヶ月前

056K

GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - Wisdom Spectrum AIオープンソース高性能音声認識モデルシリーズ

GLM-ASRは、Smart Spectrum AIがオープンソース化した高性能音声認識モデル群で、クラウドベースのモデルGLM-ASR-2512とオープンソースのエンドサイドモデルGLM-ASR-Nano-2512があります。GLM-ASR-2512は、世界をリードするクラウドベースの音声認識モデルで、複数の...

最新のAIリソース

8ヶ月前

056K

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Facing Face Intelligenceによる超高効率エンドサイドマクロモデリング

MiniCPM4.1は、Facade Intelligenceが導入した超高効率エンドサイド大規模言語モデルです。InfLLM v2スパース・アテンション・アーキテクチャにより、各辞素は5%個以下の語彙との相関を計算するだけでよく、長文の処理オーバーヘッドを大幅に削減します。128K長文のシナリオでは...

最新のAIリソース

11ヶ月前

055.8K

MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型

MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型

MiniCPM-o 4.5 是面壁智能开源的 9B 全模态旗舰模型，以“边看边听主动说”的端到端架构，在手机端即可跑出 GPT-4o 级体验：支持单图、多图、高帧率长视频、实时语音双工对话，首 tok...

最新のAIリソース

6ヶ月前

055.8K

Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型

Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型

Protenix-v1是字节跳动ByteDance Seed团队推出的首个开源蛋白质结构预测模型，性能在严格对齐训练数据和模型规模后超越AlphaFold 3。模型具备显著的推理时扩展特性：通过增加采...

最新のAIリソース

6ヶ月前

055.8K

Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - 清華大学等と共同でSmart Spectrum AIがオープンソース化した多被写体リファレンスビデオ生成モデル

Kaleidoは、合肥工業大学、清華大学、Smart Spectrum AIが共同開発したオープンソースの多被写体参照映像生成モデルである。複数の参照画像を通して被写体一貫性のある動画を生成し、多被写体一貫性と背景デカップリングにおける既存モデルの欠陥を解決します。

最新のAIリソース

8ヶ月前

055.8K

阶跃深研 - 阶跃星辰推出的AI深入研究工具

ステップス・ディープリサーチ - AIディープリサーチツール by ステップススター

Steps Deep Researchは、Steps Starが発表した効率的なAIリサーチツールで、複雑な問題のリサーチを自律的に完了し、専門的なレポートを短時間で作成することができる。このツールは、金融、コンサルティング、ヘルスケア、法律などの分野向けに設計されており、詳細な検索機能と情報統合機能により、業界レビューで優れた評価を得ている。

最新のAIリソース

1年前

055.8K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

最新のAIリソース

7ヶ月前

055.8K

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

クロード・ソネット4.5 - Anthropicの最強AIプログラミングモデル

クロード・ソネット4.5は、プログラミング、コンピュータ操作、複雑なタスクの自動化のために設計されたAnthropic社の人工知能モデルです。コード生成、長時間のタスク処理、推論、数学的計算を得意とし、初期計画から...

最新のAIリソース

10ヶ月前

055.7K

ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架

ZeroSearch - アリ・トンイ、オープンソースの大規模モデル検索エンジン・フレームワークを発表

ZeroSearchはAlibaba Tongyi Labオープンソースの革新的な大規模モデルの検索エンジンのフレームワークです。このフレームワークは、実際の検索エンジンと対話する必要はありません、検索エンジンのシミュレーションに基づいて、大幅にトレーニングコストを削減し、関連またはノイズ文書を生成するために、独自の事前学習知識の大規模なモデル（80%以上を削減...

最新のAIリソース

1年前

055.6K

PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - TencentハイブリッドオープンソースAIプロンプト単語拡張ツール

PromptEnhancerは、TencentのMixed Metaチームによるオープンソースのプロンプト語強化ツールで、テキストから画像への変換（Text-to-Image、T2I）モデルの生成を改善します。推論の連鎖(Chain-of-Thought, CoT)アプローチにより、...

最新のAIリソース

11ヶ月前

055.5K

FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル（FLM-Audio）は、南洋理工学院（NTI）と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...

最新のAIリソース

10ヶ月前

055.5K

Kimi Linear - 月之暗面开源的新型混合线性注意力架构

キミ・リニア - 月の裏側でオープンソース化された新しいハイブリッド・リニア・アテンション・アーキテクチャ

キミ・リニアは、ダークサイド・オブ・ザ・ムーンがオープンソース化した新しいハイブリッド・リニア・アテンション・アーキテクチャで、キミ・デルタ・アテンション（KDA）を中核とし、従来のアテンション・モデルをよりきめ細かいゲーティング・メカニズムによって最適化し、ハードウェア効率とメモリ制御能力を大幅に向上させている。

最新のAIリソース

9ヶ月前

055.4K

混元图像2.1 - 腾讯推出的开源文生图模型

ハイブリッドイメージ2.1 - テンセントのオープンソース・ベンダーグラフ・モデル

HunyuanImage 2.1は、高品質の画像生成のために設計されたテンセントのオープンソースグラフィックモデルです。このモデルはネイティブ2K解像度をサポートし、複雑なシーンやディテールを正確にレンダリングすることができ、キャラクターの表情や動きを生き生きと再現することができます。

最新のAIリソース

11ヶ月前

055.4K

SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Labのオープンソース会話音声合成モデル

SoulX-Podcastは、高品質のポッドキャストコンテンツを生成するために設計された、Soul AI Labのオープンソースの先進的な複数話者会話音声合成モデルです。SoulX-Podcastは複数ラウンドのダイアログを生成する機能を持ち、実際のポッドキャスティングシナリオでスムーズなダイアログをシミュレートできます。

最新のAIリソース

9ヶ月前

055.3K

NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - オフラインCPU実行をサポートしたフリーで軽量な音声合成モデル

NeuTTS Airは、Neuphonicチームによって開発されたオープンソースの軽量音声合成モデルで、クラウドに依存することなく、ローカルデバイス（携帯電話、ラップトップ、Raspberry Piなど）上でリアルタイムに実行できる。0.5BパラメータのQwenアーキテクチャと自社開発のNeuCodecコーデックを使用しています。

最新のAIリソース

10ヶ月前

055.3K

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API是基于Go语言开发的开源AI聚合网关工具，可统一管理30+种主流大模型（如OpenAI、Claude、Midjourney等），将不同模型接口转换为标准化OpenAI格式。

最新のAIリソース

7ヶ月前

055.3K

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型，包含中英文双版本，支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化，能在虚拟角色人设稳定性、复杂故...

最新のAIリソース

7ヶ月前

055.3K

ClawWork - 香港大学数据科学实验室开源的AI经济压力测试框架

ClawWork - 香港大学数据科学实验室开源的AI经济压力测试框架

ClawWork是香港大学数据科学实验室开发的AI经济压力测试框架，允许AI在模拟经济环境中完成真实工作任务并获得报酬。核心逻辑是让初始资金仅10美元的AI通过完成220个专业任务（覆盖制造、金融、医...

最新のAIリソース

5ヶ月前

055.3K

SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型

SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型

SoulX-FlashTalk是Soul App AI团队开源的实时数字人生成模型，拥有140亿参数量，实现了0.87秒超低延迟和32帧/秒的高帧率。模型通过双向蒸馏技术解决了传统数字人延迟高、画面易...

最新のAIリソース

6ヶ月前

055K

Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - アリ・トンイのオープンソースAI動画生成フレームワーク、清華大学らと共同開発

Wan-Moveは、Ali Tongyi Labsと清華大学などが共同開発したオープンソースのAI動画生成フレームワークで、精密なモーションコントロール技術による高品質な動画合成に焦点を当てている。核心技術は「潜在的軌道誘導」で、既存の画像-動画モデルに点レベルのモーション制御をシームレスに追加することができる。

最新のAIリソース

8ヶ月前

054.9K

MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - GitHubが提供する公式MCPサーバー管理プラットフォーム。

MCPレジストリは、開発者がMCPサーバーをより簡単に発見し、インストールできるようにするGitHubの集中型プラットフォームです。MCPレジストリを使えば、開発者は必要なAIツールを一箇所ですぐに見つけることができ、大幅に簡素化されます。

最新のAIリソース

11ヶ月前

054.9K

VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 上海AIラボのオープンソース大型報酬体現モデル

VLACは、上海人工知能研究所のオープンソースの具現化報酬マクロモデルです。InternVLマルチモーダル・マクロモデルに基づき、インターネットのビデオデータとロボットの操作データを統合し、実世界におけるロボットの強化学習にプロセス報酬とタスク完了の推定を提供します。

最新のAIリソース

11ヶ月前

054.9K

SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - アップルのオープンソース単眼3Dシーン合成技術

SHARP（Sharp Monocular View Synthesis in Less Than a Second）は、アップルのオープンソース単眼ビュー合成技術です。1枚の写真からシーンのリアルな3D表現を1秒以内に素早く生成できる。

最新のAIリソース

7ヶ月前

054.8K

Ring-2.5-1T - 蚂蚁百灵开源的万亿参数混合线性架构思考模型

Ring-2.5-1T - 蚂蚁百灵开源的万亿参数混合线性架构思考模型

Ring-2.5-1T 是蚂蚁集团百灵大模型团队开源的全球首个万亿参数混合线性架构思考模型，采用1:7 MLA与Lightning Linear Attention混合设计，激活参数量达63B。模型在...

最新のAIリソース

5ヶ月前

054.8K

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0 是小米开源的首代具身智能大模型，拥有47亿参数，采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型，负责理解人类模糊指令与空间推理；动作执行小脑则通过Di...

最新のAIリソース

5ヶ月前

054.7K

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技（Robbyant）开源的交互式世界模型，专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...

最新のAIリソース

6ヶ月前

054.6K

混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team オープンソーステキスト生成3Dモーションモデル

Hybrid Motion1.0（HY-Motion1.0）は、テンセントハイブリッドチームオープンソースのテキスト生成3Dアクションモデルであり、10億パラメータ拡散トランスフォーマーアーキテクチャを使用して、高品質の3Dキャラクターアニメーションの自然言語記述を通じて直接生成することができます。

最新のAIリソース

7ヶ月前

054.6K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

最新のAIリソース

6ヶ月前

054.5K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - DeepSeekが導入したAIモデルの最新バージョン

DeepSeek-V3.1-Terminusは、DeepSeekチームの人工知能言語モデルであるDeepSeek-V3.1のアップグレード版です。このモデルは、言語の一貫性、コード生成、検索機能の面で最適化され、より正確に...

最新のAIリソース

10ヶ月前

054.5K

olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - AI2 オープンソース・マルチモーダル文書解析モデル

olmOCR 2は、Allen Institute for Artificial Intelligence (AI2)によるオープンソースのマルチモーダル文書解析モデルで、olmOCRのアップグレード版である。デジタル化された印刷文書（PDFなど）を高...

最新のAIリソース

9ヶ月前

054.5K

HeyGen - AI 数字人视频创作平台，支持多语言翻译配音

HeyGen - 多言語翻訳・吹き替えに対応したAIデジタルヒューマン動画作成プラットフォーム

HeyGenは、AIを活用したデジタルヒューマンビデオ作成プラットフォームで、合理的なビデオ制作プロセスをサポートし、ユーザーはプロ級のデジタルヒューマンビデオを素早く作成することができます。このプラットフォームは高度なAI技術に基づいており、ユーザーはデジタルキャラクターのイメージと声を完全にコントロールすることができます。

最新のAIリソース

1年前

054.5K

LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”

LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”

LingBot-VA 是蚂蚁灵波开源的全球首个“自回归视频-动作世界模型”，把视频生成与机器人控制塞进同一 Transformer，每一步同时输出下一帧世界画面和对应动作，实现“边想边干”。

最新のAIリソース

6ヶ月前

054.4K

CWM - Meta FAIR开源的代码世界语言模型

CWM - メタFAIRオープンソースコード世界言語モデル

CWM（Code World Model）は、Meta FAIRチームによって公開された320億パラメータのオープンソースの世界言語モデルで、コード生成と推論のために設計された。コードの実行過程をシミュレートし、変数の状態変化を予測し、推論を進めることができる「ワールドモデル」の概念を導入している。

最新のAIリソース

10ヶ月前

054.4K

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Shanghai AI Lab オープンソース大規模モデルトレーニングエンジン

XTuner V1は、上海人工知能研究所によってオープンソース化された新世代の大規模モデル学習エンジンであり、超大規模スパース混合エキスパート（MoE）モデル学習用に設計されている。PyTorch FSDPをベースに開発され、メモリ、通信、負荷の多次元最適化により高性能を実現しています。

最新のAIリソース

11ヶ月前

054.3K

Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - ByteHopper Seedチームがオープンソース化した新しい循環言語モデル

Ouroは、ByteDance Seedチームによって開発された新しいタイプのループ言語モデル（LLM）であり、パラメータ共有型のリカレント計算構造によって、事前学習段階で推論機能を直接構築するという革新的なコアを持つ。このモデルは、24層を基本ブロックとし、...

最新のAIリソース

9ヶ月前

054.1K

Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video - Show Lab オープンソースAI教育ビデオ生成フレームワーク

Code2Videoは、コードスニペットを自動的に高品質のビデオコンテンツ（MP4形式）に変換する革新的なオープンソースプロジェクトです。このプロジェクトは、ユニークなコード中心のパラダイムを通して、carbon-now-cliツールを使ってコードを美しい画像に生成します。

最新のAIリソース

10ヶ月前

054.1K

Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...

最新のAIリソース

10ヶ月前

054K

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型，被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构，在单一建模框架内集成三大核心能力：参考图像转视频、智能...

最新のAIリソース

6ヶ月前

053.7K

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next-アリ・トンイが発表した最新ベースモデル

Qwen3-Nextは、Ali Tongyi氏によってオープンソース化された新世代のハイブリッドアーキテクチャ・ビッグモデルで、Gated DeltaNetとGated Attention技術を組み合わせたものである。

最新のAIリソース

11ヶ月前

053.7K

Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 同義万象のアクション生成モデルオープンソース

Wan2.2-Animateは、Tongyi Wanxiangのオープンソースのアクション生成モデルで、アクションの模倣とロールプレイングの2つのモードをサポートしています。ユーザーはキャラクター画像と参照ビデオを入力するだけで、モデルはビデオキャラクターの動きと表情を画像キャラクターに移行し、画像キャラクターにダイナミックな表情を与えることができます。

最新のAIリソース

10ヶ月前

053.7K

Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Mistral AIによるオープンソースコマンドラインコーディングアシスタント

Mistral Vibeは、Devstralモデルに基づいて開発されたMistral AIによるオープンソースのコマンドラインコーディングアシスタントで、コード検索、ファイル操作、バージョン管理などのタスクを完了するための自然言語対話をサポートします。プロジェクトの構造やGitのステータスを@記号で自動的にスキャンすることができます。

最新のAIリソース

8ヶ月前

053.5K

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル（Metaより

SAMオーディオは、複雑なオーディオミックスから任意のターゲット音を正確に分離する、Meta社のオープンソースのマルチモーダルオーディオセグメンテーションモデルです。テキスト、ビジュアル、時間次元のキューを組み合わせることで、オーディオ編集、ノイズ除去、音抽出、...といったタスクのための柔軟で効率的なオーディオ処理を可能にします。

最新のAIリソース

7ヶ月前

053.5K

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架，最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题，提供一键复现热门模型（如Vo...

最新のAIリソース

7ヶ月前

053.4K

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音（TTS）模型，专为高效、低延迟的语音合成而设计。基于350M参数的精简架构，单步推理生成音频，时间延迟极低，在150...

最新のAIリソース

7ヶ月前

053.3K

DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - HKUSTオープンソース・マルチモーダルAI画像編集・生成モデル

DreamOmni2は、HKUSTのJiajiaチームによるオープンソースのマルチモーダルAI画像編集・生成モデルである。テキストと画像のコマンドを同時に処理することができ、複数の参照画像をサポートし、クリエイターにより柔軟な創作方法を提供する。このモデルは、3段階のデータ合成プロセスを使用して学習され、共同学習生成/編集...

最新のAIリソース

9ヶ月前

053.3K

PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架

PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架

PaperBanana是北大与谷歌团队联合开源的AI学术插图自动生成框架，专门解决科研人员绘制方法示意图和统计图表的痛点。框架通过五个智能体协作（检索、规划、造型、渲染和批评），实现从文本描述到Neu...

最新のAIリソース

6ヶ月前

053K

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom-テンセントがHKCSとNTUと共同開発したオープンソースの楽曲生成モデル

SongBloomは、テンセントAIラボが香港中文大学（深圳）、南京大学と共同で開発したオープンソースの楽曲生成モデルで、AIによる楽曲生成における「可塑性」の問題を解決し、高品質で構造的に完全な楽曲生成を実現している。10秒間の参考音声と対応する歌詞を入力するだけで、...

最新のAIリソース

10ヶ月前

053K

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - ピクセルレベルのマルチモーダルモデル、香港理工大学、Tencent、CASなどがオープンソース化

UniPixelは、香港理工大学、テンセント、中国科学院、Vivoが共同で提案した、ピクセルレベルの視覚言語理解を実現するための新しいマルチモーダルモデルである。オブジェクト参照とセグメンテーション機能を統合することで、画像セグメンテーション、ビデオセグメンテーション、領域理解、ピ...

最新のAIリソース

10ヶ月前

052.9K

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - バイト、HKU共同オープンソース視覚推論モデル

Mini-o3は、ByteDanceと香港大学が共同で立ち上げたオープンソースモデルで、複雑な視覚探索問題の解決に焦点を当てている。このモデルは、強力な多ラウンド対話型推論機能を持ち、深い探索と試行錯誤を通じてターゲットを見つけることができる。

最新のAIリソース

11ヶ月前

052.9K

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - Tencent Mixed Metaオープンソース軽量翻訳モデル

Hunyuan-MT-7Bは、テンセントのMixed Meta Teamが導入した軽量翻訳モデルで、70億の参照数を持ち、33の言語と広東語、ウイグル語、チベット語を含む5つの中国語の民間言語/方言の相互翻訳をサポートする。国際計算言語学会（ACL）のWMT2025コンペティションで...

最新のAIリソース

11ヶ月前

052.8K

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成，采用1:2文本-音频token调度策略...

最新のAIリソース

6ヶ月前

052.7K

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - マイクロソフトのオープンソースの効率的なAI推論モデル

rStar2-Agentは、AIME24テストで80.61 TP3Tの精度を達成し、強力な数学的問題解決能力を実証した、Microsoftによってオープンソース化された高度なAI数学的推論モデルです。このモデルは科学的推論能力を備えており、GPQA-Diamondベンチマークで...

最新のAIリソース

11ヶ月前

052.6K

DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - GoogleのオープンソースAI研究エージェントのテストベンチマーク

DeepSearchQAはGoogleのオープンソースAI研究エージェントテストベンチマークであり、複雑なマルチステップクエリタスクにおける知能のパフォーマンスを評価するために設計されている。17のドメインをカバーする900の手作業で設計された「因果連鎖」タスクで構成され、AIは人間の研究者のように行動し、多段階のクエリを実行する必要があります。

最新のAIリソース

8ヶ月前

052.6K

MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Ali Tongyi Labs オープンソースユニバーサルGUIインテリジェントボディベースモデル

MAI-UIはAlibaba Tongyi LabsによるオープンソースのユニバーサルGUIインテリジェントボディベースモデルであり、4つの主要機能：クロスアプリケーション操作、ファジー意味理解、アクティブユーザインタラクション、マルチステッププロセス調整。エンドクラウドコラボレーションアーキテクチャを採用し、軽量モデルはデバイスに常駐して日常的なタスクを処理し、複雑なタスクはクラウドのビッグ...

最新のAIリソース

7ヶ月前

052.6K

Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHopのオープンソース高忠実度ビデオ生成モデル

Lynxは、ByteDanceによってオープンソース化された高忠実度のパーソナライズド・ビデオ生成モデルであり、1枚のポートレート写真だけで、アイデンティティに一貫性のあるビデオを生成することができます。ディフュージョントランスフォーマー（DiT）をベースモデルとしており、IDアダプターとRef-adapte...

最新のAIリソース

10ヶ月前

052.5K

问小白o4 - 问小白推出的并行思考模型，同时开启8条思考路径

Ask o4 - Ask o4が導入した、8つの思考経路を同時に開くパラレル思考モデル

Ask White o4は、8つの思考経路を同時に開き、問題を多角的に分析し、最適解を自動的にフィルタリングする革新的な並列思考モデルです。このモデルには、高度なLong-CoT強化学習とプロセス報酬学習技術が組み込まれており、強力な深層推論機能を持ち、複雑なタスクで優れたパフォーマンスを発揮します。

最新のAIリソース

11ヶ月前

052.4K

美间：在线软装（家装）设计工具，快速生成设计方案，软装辅助AI工具箱

Meiman：オンラインソフトファニッシング（家庭用家具）デザインツール、デザインソリューションの迅速な生成、ソフトファニッシング補助AIツールキット

総合紹介 Meimanは、住宅デザインとマーケティング交渉に焦点を当てたオンラインプラットフォームです。このサイトでは、デザイナーと住宅所有者が高品質のデザイン提案を迅速に作成できるよう、豊富なデザイン素材、ソフトファニシング、提案書PPTテンプレート、ポスターテンプレートなどを提供しています。Meimanのオンラインソフトファニシングデザインツールは、わずか10秒で使用することができます...

最新のAIリソース # AIイメージエディター # AI生成プレゼンテーション/PPT

1年前

052.2K

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型，专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作：前者负责快速召回候选结果，后者通过深度跨模态交互（如...

最新のAIリソース

7ヶ月前

052.2K

GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - StepsチームによるオープンソースのエンドサイドマルチモーダルGUIエージェントモデル

GELab-Zeroは、Step Leapチームによるオープンソースのエンドサイド・マルチモーダルGUIエージェントモデルで、Qwen3-VL-4B-Instructをベースに4Bパラメータで構築されています。UI要素を認識し、クリックやスライドなどの操作を実行することができ、アプリケーション間のタスク処理をサポートしています。

最新のAIリソース

8ヶ月前

052.2K

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 清華とジャイアントネットワークのオープンソース多言語音声合成フレームワーク

DiaMoE-TTSは、清華大学とGiant Networkが共同でオープンソース化した多方言音声合成フレームワークで、国際音声記号（IPA）に基づき、方言データの不足、正書法の不統一、複雑な音韻変化の問題を解決します。統一されたIPAフロントエンドの標準化された音素表現により、方言間の差異を排除し、方言の音韻の変化...

最新のAIリソース

10ヶ月前

052.2K

Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Firefox カーネルベースのオープンソース AI ウェブブラウザ

Zen BrowserはFirefoxカーネルをベースとしたオープンソースブラウザで、垂直タブバーやワークスペースの分離などのコア機能を備え、シンプルで効率的なブラウジング体験に焦点を当てています。サイドバーのデザインにより、50以上のタブの完全なタイトルを明確に表示でき、マルチウィンドウの画面分割ブラウジングをサポートします。

最新のAIリソース

7ヶ月前

051.9K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - ディープシークの最新のオープンソース実験的AIモデル

DeepSeek-V3.2-Expは、DeepSeekがオープンソース化した実験的なAIモデルで、DeepSeek Sparse Attention（DSA）メカニズムを導入することで、長文処理の効率を大幅に向上させています。このモデルはDeepSeek...

最新のAIリソース

10ヶ月前

051.9K

MedASR - 谷歌开源的医疗语音识别模型

MedASR - Googleのオープンソース医療音声認識モデル

MedASRは、Googleによってオープンソース化された1億500万パラメータの医療用音声認識モデルであり、5,000時間の減感作された臨床コーパスで微調整され、薬物、用量、解剖学用語に最適化され、6グラムの医療用言語モデルを内蔵し、民間の放射線学データセットRAD-DICTでの単語エラー率はわずか4.6である。

最新のAIリソース

7ヶ月前

051.7K

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B是华为开源的7B参数规模的多模态模型，专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色，支持实时推理（5FPS），单卡延迟仅160毫秒。

最新のAIリソース

7ヶ月前

051.6K

Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Antオープンソースユニファイドオーディオマルチモーダル生成モデル

Ming-UniAudioは、テキスト、オーディオ、イメージ、ビデオの混合入出力をサポートする、Ant Groupのオープンソース統一オーディオマルチモーダル生成モデルです。マルチスケールトランスフォーマーと混合エキスパート(MoE)アーキテクチャを使用し、モダリティを意識したルーティングメカニズムにより、クロスモーダルな入出力を効率的に処理します。

最新のAIリソース

10ヶ月前

051.6K

Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - Ant-BellingオープンソースのMoEアーキテクチャ言語モデルシリーズ

Ling-V2は、Ant-Bellingチームによって導入されたMoEアーキテクチャに基づく大規模言語モデルファミリーである。最初のバージョンであるLing-mini-2.0は、総パラメータが160億であり、入力トークンあたり14億のパラメータしか起動しない。

最新のAIリソース

10ヶ月前

051.4K

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型，参数规模为30B，激活参数量3B，上下文窗口达200K，最大输出令牌为128K。在编程能力上表现出色，SWE-bench验证集分数达59.2...

最新のAIリソース

6ヶ月前

051.3K

MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

MOVA（MOSS-Video-and-Audio）是上海创智学院 OpenMOSS 团队联合模思智能（MOSI）开源的端到端音视频生成模型，是中国首个高性能开源音视频模型。突破了传统"先画面后配音...

最新のAIリソース

6ヶ月前

051.1K

GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex-OpenAIが導入した最強のプログラミングモデル

GPT-5-Codexは、OpenAIの強力なプログラミング最適化モデルで、GPT-5によってさらに強化され、ソフトウェアエンジニアのために設計されています。このモデルは、高品質なコードを迅速に生成し、複数のプログラミング言語をサポートし、パフォーマンスを向上させるために既存のコードを最適化します。

最新のAIリソース

11ヶ月前

051.1K

FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 関数呼び出しに最適化されたGoogleオープンソースの軽量AIモデル

FunctionGemmaは、Googleからの関数呼び出しに最適化された軽量AIモデルであり、2億7000万パラメータを持つGemma 3の基本モデルをベースに開発され、携帯電話やブラウザ、その他のデバイス上で自然言語をリアルタイムに実行可能なAPI命令に変換する。核となる機能は、ローカルのオフ...

最新のAIリソース

7ヶ月前

050.9K

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型，通过深度检索和推理，能生成万字长篇...

最新のAIリソース

6ヶ月前

050.9K

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型，核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略（1.2T多模态令牌数据）和创新的并行协同推理技术（PACORE...

最新のAIリソース

6ヶ月前

050.9K

Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - 上海AIラボと復旦大学がオープンソース化したインタラクティブ世界生成モデル

Yume 1.5は、復旦大学上海人工知能研究所と上海創新研究院が共同開発したオープンソースのインタラクティブ世界生成モデルで、リアルタイムのインタラクティブレンダリング（シングルカードで12FPS）が可能です。時空間結合チャネルモデリング（TSCM）技術を採用しており、コンテキストの長さが長くなっても...

最新のAIリソース

7ヶ月前

050.8K

聆音EchoCare - 香港科学院开源的超声基座大模型

エコーケア - 香港科学院オープンソース超音波ベース大型モデル

EchoCareは、中国科学院香港創新研究院（CAS）の人工知能・ロボットイノベーションセンター（CAIR）によって開発された超音波ベースの大規模モデルであり、多施設、多地域、多民族、50人以上の個人をカバーする世界最大の超音波画像データセット（450万枚以上）で学習される。

最新のAIリソース

10ヶ月前

050.7K

TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology、Tsinghua、その他のオープンソースのビデオ生成アクセラレーションフレームワーク

TurboDiffusionは、清華大学、BioDigital Technology、UC Berkeleyが共同でオープンソース化したビデオ生成アクセラレーション・フレームワークで、ほぼロスレスな画質を維持しながら、ビデオ生成速度を100～200倍向上させることができる。スパース線形注意、サンプルステップ蒸留、8ビット...

最新のAIリソース

7ヶ月前

050.5K

EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - チームシャンダによるオープンソース長期メモリオペレーティングシステム

EverMemOSは、陳天樵が率いるシャンダチームが立ち上げたオープンソースの長期記憶オペレーティングシステムであり、AI知能のために設計され、大規模言語モデルの固定コンテキストウィンドウに起因するメモリ破壊の問題を解決する。このシステムは人間の脳の記憶メカニズムに基づいており、4層アーキテクチャ（エージェント層、メモリ層、インデックス層...）を採用している。

最新のAIリソース

9ヶ月前

050.4K

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - Smart Spectrum AIによるオープンソース産業グレード音声合成システム

GLM-TTSは、強力な音声合成機能を持つオープンソースの産業用音声合成システムです。GLM-TTSは2段階の生成アーキテクチャを採用しており、第1段階ではテキストを音声トークン列に変換し、第2段階ではトークン列を高品質な音声に変換します。このシステムは、3秒間の音声サンプルのみをサポートし、音声を完成させます。

最新のAIリソース

8ヶ月前

050.4K

Granite-Docling-258M - IBM开源的视觉语言模型

Granite-Docling-258M - IBM オープンソース視覚言語モデル

Granite-Docling-258Mは、効率的な文書変換のために設計された、IBMによる超コンパクトなオープンソースの視覚言語モデルです。このモデルは、レイアウト、表、数式、その他の要素をそのままに、文書を機械可読形式に変換します。

最新のAIリソース

10ヶ月前

050.3K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值

最新のAIリソース

6ヶ月前

050.3K

T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - グーグルのオープンソース次世代エンコーダー・デコーダーモデル

T5Gemma 2は、Googleがオープンソース化した新世代のエンコーダー・デコーダーモデルで、Gemma 3アーキテクチャをベースに、マルチモーダルおよびロングコンテキストの処理機能をアップグレードしたものである。テキストや画像を含む幅広いデータタイプをサポートし、非常に長いコンテキスト（最大128K）を処理することができる。

最新のAIリソース

7ヶ月前

050.3K

RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Wisdom Spectrum AIのオープンソース・リアルタイム・ストリーミング映像生成システム

RealVideoは、Smart Spectrum AIが提供するオープンソースのリアルタイム・ストリーミング・ビデオ生成システムで、2～3秒で自然で滑らかなビデオ応答を素早く生成することができる。ユーザーは写真をアップロードしてテキストを入力するだけで、対応する音声と動画を生成し、AIキャラクターとのリアルタイム対話を可能にする。

最新のAIリソース

8ヶ月前

050.3K

LazyCraft - 开源AI Agent应用开发与管理平台，基于LazyLLM构建

LazyCraft - LazyLLM上に構築されたオープンソースのAIエージェントアプリケーション開発・管理プラットフォーム

LazyCraftは、オープンソースフレームワークLazyLLMに基づいてShangtangによって構築されたオープンソースのAIエージェントアプリケーション開発および管理プラットフォームであり、企業と開発者にワンストップのAIアプリケーション開発ソリューションを提供します。開発者が敷居が低く、低コストで大規模なモデルアプリケーションを迅速に構築し、リリースすることを支援します。

最新のAIリソース

9ヶ月前

050.2K

PromptFill - 开源的结构化提示词生成AI工具，专为AI绘画设计

PromptFill - AI絵画のために設計されたオープンソースの構造化キューワード生成AIツール

PromptFillはAI描画のために設計された構造化キュー生成ツールで、視覚的な「穴埋め」インタラクションを通じて、複雑なプロンプトを素早く構築、管理、反復することができ、AI画像生成の効率と品質を向上させます。PromptFillのコア機能...

最新のAIリソース

7ヶ月前

050.1K

Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

深さ何でも3 - ByteHopシードオープンソース用3Dビジュアル再構築モデル

Depth Anything 3（DA3）は、Byte Jump Seedチームによって開発され、オープンソース化された3D視覚再構成モデルです。単一のトランスフォーマーアーキテクチャを通して、どのような視点でも空間的なジオメトリの再構築を実現し、深度マップとレイマップを予測するだけで3Dシーンを復元することができます。

最新のAIリソース

8ヶ月前

050K

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型，基于 LLaSA-3B 和 CosyVoice2 开发，专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...

最新のAIリソース

7ヶ月前

050K

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型，参数规模为 19.6 亿。专为智能体任务设计，具备强大的“原生智能体能力”，在多项任务中超越同规模甚至更大模型。

最新のAIリソース

7ヶ月前

049.9K

もっと読む