Fish Audio - AI音声合成とサウンドクローニングツール
Fish Audioは、テキスト音声合成(TTS)と音声クローンをサポートする強力な生成AI音声合成ツールです。ユーザーはテキストを入力するだけで、自然で滑らかな音声に変換することができ、プラットフォームはさまざまな言語と音声スタイルを提供し、さまざまなシナリオやユーザー...
SignGemma - Google DeepMindの手話翻訳モデル
SignGemmaは、Google DeepMindが提供する世界で最も強力な手話通訳AIモデルであり、アメリカ手話(ASL)の英語テキストへの正確な翻訳をサポートする。このモデルはマルチモーダルトレーニングに基づいており、視覚データとテキストデータを組み合わせることで、手話の動作をリアルタイムで捉え、素早くテキストに翻訳する。
FLUX.1 Kontext - ブラックフォレストの画像生成・編集モデル
FLUX.1 Kontextは、Black Forest Labs社の画像生成・編集モデルで、コンテキストを意識した画像処理技術を提供する。このモデルは、テキストや画像の合図に対する反応を理解し、オブジェクトの修正、スタイルの変換、背景の置換などのタスクを実行しながら、コーナー...
WebAgent - Ali Tongyi オープンソース自律検索AIエージェント
WebAgentは、Alibaba Tongyi Labsが開発したオープンソースの自律型検索AIエージェントで、強力なエンドツーエンドの自律型情報検索と多段階の推論機能を備えています。WebAgentは、人間のようにネットワーク環境を能動的に認識、判断、行動することができ、学術研究やビジネスの意思決定に広く利用されています。
リンコードIDE - 同義リンコード、AIネイティブ開発環境ツールを発表
Spirit Code IDEは、同義Spirit Codeが発売したAIネイティブ統合開発環境(IDE)で、千題の3大モデルに深く適応し、強力なプログラミング知能体モードを持っており、プロジェクトの認識、コードの検索、端末操作の実行などのタスクを自律的に完了することをサポートします。MCPツールをサポートし、Magic Hitch MCP Squareの3...
BAGEL - Wordpressがオープンソースのマルチモーダルベースモデルを発表
BAGELは、ByteDanceによってオープンソース化されたマルチモーダルベースモデルで、140億のパラメータを持ち、そのうち70億がアクティブである。このモデルベースとMixed Transformer Expert Architecture (MoT)は、それぞれ独立した2つのエンコーダで画像のピクセルレベルとセマンティックレベルの特徴をキャプチャし、画像、テキスト、ビデオの効率的な処理をサポートします。
DeepSeek-R1 - DeepSeekのAI推論モデル。
DeepSeek-R1は、杭州を拠点とするDeepSeekが発表した高性能AI推論モデルで、OpenAIのo1正式版に対するベンチマークである。このモデルは、大規模な強化学習技術に基づいて事後学習されており、数学、コード、自然言語で推論を行うために必要なラベル付きデータはごくわずかである。
Phantom Boat AI - ワンストップのAIショートフィルム制作プラットフォーム、様々なタイプの映像コンテンツを一括生成
Phantom Boat AIは、CM、プロモ、アニメーションなど、様々なタイプの映像コンテンツの効率的な一括生成をサポートする、ワンストップの強力なAIショートフィルム作成プラットフォームです。Midjourney、Runwayをはじめとする世界最先端のAIモデルをベースとしたこのプラットフォームは、脚本作成から...
Circuit Tracer - モデルの内部構造を視覚化するAnthropicのオープンソースツール
Circuit Tracerは、大規模な言語モデルの内部動作を研究するためのAnthropic社のオープンソースツールです。帰属グラフ(attribution graph)の生成に基づいて、モデルが特定の出力を生成する際に経る内部ステップを明らかにする...
Google AI Edge Gallery - グーグル、AIモデル搭載の携帯電話をサポートするAIアプリを発表
Google AI Edge Galleryは、機械学習(ML)とジェネレーティブ人工知能(GenAI)モデルをネイティブデバイス上で体験・利用できる、グーグルの実験的AIアプリです。このアプリはAndroid端末に対応しています。