ボルケーノ・アーク、ビッグモデル・アプリケーション・ラボをリリース：エンタープライズAI上陸を加速するオープンソースの業界アプリケーション・テンプレート

昨今、DeepSeekに代表される国内外のビッグモデルの性能はますます強力になっており、AI活用は2025年に爆発的な成長を遂げると業界では一般的に考えられている。しかし、企業にとっては、強力なビッグモデルがあっても、適用シーンが不明確であったり、適用形態が不透明であったりという問題に直面している。ビッグモデル技術をどのように産業応用に実用化し、真に価値あるAI製品を開発するかは、この1年、業界の焦点であり、多くの企業が模索を続けている問題でもある。

ビーンバッグ・モデリング・サービスを長年利用してきた経験に基づき、我々は以下の点に留意している。火山の箱舟最近、「ビッグモデル・アプリケーション・ラボ」を立ち上げ、その中心的な特徴は「統合しやすく、着地しやすく、よりオープン」である。簡単に言えば、Volcano Arkは企業向けに一連の厳選されたアプリケーションシナリオを提供し、業界のテンプレートとして高品質のAIアプリケーションを開発し、必要な企業向けにオープンソースの形で提供する。

対話型バイリンガルビデオジェネレーター：AIを活用した教育用アニメーションの新しいパラダイム

エージェント開発者である私たちのチームは、Volcano Arkの "Interactive Bilingual Video Generator "というアプリケーションに興味を持ち、導入してテストすることにしました。これを機に、教育におけるAIアニメーションの可能性を探っていきたいと考えています。

ラピッド・デプロイメント・ガイド

主な手順を以下に詳しく説明するので、理解しやすく、操作しやすい。

まず、特定のコード・リポジトリをクローンする必要がある：

# 仓库下载
git clone https://github.com/volcengine/ai-app-lab.git
# 进入对应具体目录
cd demohouse/chat2cartoon

次に .env ファイルで環境変数を設定する。テキスト生成グラフ、音声合成、ビデオ生成、ビデオ理解のモデルに関するパラメータを設定する必要がある。

# 大模型接入点ID，用于脚本创作、分镜、角色  https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&OpenTokenDrawer=false
LLM_ENDPOINT_ID='ep-xxx'
# 视觉理解大模型接入点ID，用于最终视频影片交互
VLM_ENDPOINT_ID='ep-2025xxx'
# 火山引擎TOS储存桶名，用于存储模型产物 https://console.volcengine.com/tos/bucket/
TOS_BUCKET='chat2'
# 语音技术API Access Key https://console.volcengine.com/speech/service/
TTS_ACCESS_KEY='7naxxx'
# 语音技术API Resource ID https://console.volcengine.com/speech/service/
TTS_API_RESOURCE_ID='volc.service_type.10029'
# 语音技术App Key https://console.volcengine.com/speech/service/
TTS_APP_KEY='113xxx'
# 生视频大模型接入点ID（暂时只支持Doubao-视频生成模型）
CGT_ENDPOINT_ID='ep-20250306153842-pg2b4'
# 火山方舟API Key，用于方舟模型接入点推理时做鉴权 https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey
ARK_API_KEY='99831b24-55xxxx'
# 火山引擎账号Access Key，用于访问TOS API，上传模型产物  https://console.volcengine.com/iam/keymanage/
VOLC_ACCESSKEY='AKLTYxxxx'
# 火山引擎账号Secret Key，用于访问TOS API，上传模型产物 https://console.volcengine.com/iam/keymanage/
VOLC_SECRETKEY='Tmprexxxx'

ヴォルケーノ・アークのサービス開始と設定

まず、Volcano Arkの関連サービスを開く必要がある（このプラットフォームでは、あらゆる種類のAIモデルが提供されている）。Volcano Arkにログインした後、ページの左下にある「Open Management」を見つけてクリックし、ビッグ言語モデルとビジュアルビッグモデルのサービスをそれぞれ開く。

モデルサービスを開いたら、実際に使用するモデルであるアクセスポイントを作成する必要がある。左側の "Online Reasoning "をクリックし、"Custom Reasoning Access Point "をクリックして推論アクセスポイントを作成する。

ページのプロンプトに従って情報を入力し、必要な特定のモデルを追加して、アクセスを確認します。

作成に成功したら、アクセスポイントIDをコピーします。

具体的なモデルの選択は、実際のニーズや好みによって調整することができる。今回のテストでは、以下のモデルを選んだ：

LLM_ENDPOINT_ID オプション Doubao-1.5-pro-32k
VLM_ENDPOINT_ID オプション Doubao-vision-pro-32k
CGT_ENDPOINT_ID オプション Doubao-视频生成-Seaweed

これらのモデルのAPIキーを取得するには（つまり ARK_API_KEY新しいAPI Keyを作成したい場合は、ページの左下で管理できます。新しいAPI Keyを作成する必要がある場合は、ページの左下で管理できます。

TOSストレージバケットの構成

作成したTOSストレージバケットをクリックして、クロスドメインアクセスを設定する。

特定のパラメータは、実際のアプリケーションのシナリオに応じて調整してください。本記事で提供するパラメータ構成は、あくまで参考例です（本番環境を構成する際にはご注意ください）。

ボルケーノ・エンジンのアクセス・コントロール

次に、ボルケーノ・エンジンのアクセス・コントロール・ページにアクセスする：

https://console.volcengine.com/iam/keymanage/

TOS APIにアクセスするためのVolcano Engineのアクセスキーとシークレットキーを取得します。

に相当する。 .env ファイル内の VOLC_ACCESSKEY 歌で応える VOLC_SECRETKEY パラメーター

オブジェクト・ストレージの構成

モデルが生成したファイルをアップロードするには、TOS APIを使用します。オブジェクトストレージのページに移動します：

https://console.volcengine.com/tos

Bucket List "をクリックし、"Create Bucket "をクリックし、関連情報を入力してストレージバケットを作成する。この例では、作成されたバケットの名前は chat2したがって .env 論文 TOS_BUCKET パラメータは chat2.

音声技術の設定

最後に、音声技術セクションを設定する。ボルケーノ・エンジンの音声技術プラットフォームをご覧ください：

https://console.volcengine.com/speech/app

アプリケーションを作成し、「大規模モデル音声合成」と「ストリーミング音声認識大規模モデル」サービスを選択します。

作成後、左側のメニューをクリックし、以下のAPP IDとAccess Tokenを見つけてください。

ボルケーノ・エンジンの公式ドキュメントによると

TTS_ACCESS_KEY アクセス・トークンに対応する。

TTS_APP_KEY APP IDに対応する。

https://www.volcengine.com/docs/6561/1329505

これまでのところだ。.env ファイルの設定が完了しました。次に、プロジェクトの依存関係をインストールし、プログラムを実行する必要があります。

バックエンドオペレーション

# 进入后端
cd backend
# 安装 poetry
pip install poetry==1.6.1
# 用 poetry 安装依赖库
poetry install
# 后端启动！
poetry run python index.py

実行に成功すると、ターミナルに以下のようなメッセージが表示される。

フロントエンドオペレーション

# 进入前端
cd frontend
# 安装 pnpm
npm install -g pnpm@8
# 利用 pnpm 安装依赖包
pnpm install
# 复制环境变量 .env 文件
cp ../.env ./
# 前端启动！
pnpm dev

実行に成功すると、ターミナルに以下のようなメッセージが表示される。

上記の手順が完了したら、ブラウザで次のページにアクセスしてください。 http://localhost:8080/ インタラクティブなバイリンガルビデオジェネレータを使用してください。

プロジェクト・アーキテクチャとテスト結果

プロジェクトの全体的なプロセス・アーキテクチャを以下に示す：

テスト結果によると、「Interactive Bilingual Video Generator」は、ワンクリックで分単位の動画を生成することができ、操作が非常に簡単で効率的です。ユーザーは複雑なパラメータ設定をする必要がなく、ビデオの要件を入力するだけで、要件を満たす長いビデオ作品を素早く生成することができ、作成効率が大幅に向上します。

生成される動画は高品質で、クリアで滑らかなグラフィックと、首尾一貫した自然なストーリー展開が特徴です。さらに、このアプリはビデオコンテンツに関するユーザーとのインタラクティブなQ&Aをサポートしています。

オープンソースの適用：ビッグモデルを軌道に乗せるための重要なステップ

をとおしてコーズ Volcano Ark AI Application Open Source Labの立ち上げにおけるプラットフォームのテンプレート化は、ローコードからハイコードへのソリューションの拡張を意味するだけでなく、一般性から深いカスタマイズへのアプリケーションシナリオの進化を意味する。

ビッグモデル技術応用の波において、アプリケーションオープンソースの戦略的意義は、モデルオープンソースそのものを超えている。強力なモデルがAI応用のエンジンであることは事実だが、モデル能力を実際のビジネスシナリオにいかに効率的に統合するかが、AI応用の着地を促進し、最終的にビジネス能力を向上させるカギとなる。

ボルケーノ・エンジン・オープンソースAIラボは、オープンソースのハイコードSDKとプロトタイプAIアプリケーションを提供し、AIアプリケーションの着地のための「最後の1キロメートル」を正確に埋めます。オープンソースのAIアプリケーションは、企業に迅速なスタートアップ・ソリューションを提供します。

多くの企業がビッグモデルの大きな可能性を認識し、理論的なレベルからビジネスシナリオに適用する方法を理解しているが、実際の運用ではまだ多くの障害に直面している。オープンソースのAIプロトタイプアプリケーションの出現により、企業の開発者は、複雑なモデルのドッキングやアプリケーションの開発プロセスをゼロから把握することなく、迅速に学習し、ビジネスニーズに合ったAIアプリケーションを構築・拡張することができるため、試行錯誤のコスト、時間、人件費を大幅に削減することができる。

AI技術の愛好家や開発者の大半は、彼らが最初にAIアプリケーション開発の分野に関与するとき、彼らはしばしばLangChainのような抽象度の高い高度にカプセル化されたフレームワークに接触する。 LangChainフレームワークの熟練者は、確かに大幅に開発効率を向上させることができますが、その構文糖と抽象的な概念の数が多いだけでなく、初心者に高い学習しきい値をもたらす。これに対して、Volcano Engineが提供するPython SDKであるArkitectは、とっつきやすく、ツールチェーンや開発プロセスも直感的だ。また、公式デモでは、技術的なアーキテクチャ図や実装の詳細が詳しく説明されており、開発者が深く理解するのに便利です。

Volcano Ark AI Application Labの立ち上げは、間違いなく企業や開発者に強力なAIアプリケーション開発プラットフォームを提供する。特に、そのオープンソース戦略がAIアプリケーション開発の敷居を下げ、様々な産業におけるビッグモデル技術の着地プロセスを加速させたことは称賛に値する。より多くのオープンソースアプリケーションが登場することで、AI技術は何千もの産業に真に統合され、より大きな可能性を解放すると信じる理由がある。