昨今、DeepSeekに代表される国内外のビッグモデルの性能はますます強力になっており、AI活用は2025年に爆発的な成長を遂げると業界では一般的に考えられている。しかし、企業にとっては、強力なビッグモデルがあっても、適用シーンが不明確であったり、適用形態が不透明であったりという問題に直面している。ビッグモデル技術をどのように産業応用に実用化し、真に価値あるAI製品を開発するかは、この1年、業界の焦点であり、多くの企業が模索を続けている問題でもある。
ビーンバッグ・モデリング・サービスを長年利用してきた経験に基づき、我々は以下の点に留意している。火山の箱舟最近、「ビッグモデル・アプリケーション・ラボ」を立ち上げ、その中心的な特徴は「統合しやすく、着地しやすく、よりオープン」である。簡単に言えば、Volcano Arkは企業向けに一連の厳選されたアプリケーションシナリオを提供し、業界のテンプレートとして高品質のAIアプリケーションを開発し、必要な企業向けにオープンソースの形で提供する。
対話型バイリンガルビデオジェネレーター:AIを活用した教育用アニメーションの新しいパラダイム
エージェント開発者である私たちのチームは、Volcano Arkの "Interactive Bilingual Video Generator "というアプリケーションに興味を持ち、導入してテストすることにしました。これを機に、教育におけるAIアニメーションの可能性を探っていきたいと考えています。
ラピッド・デプロイメント・ガイド
主な手順を以下に詳しく説明するので、理解しやすく、操作しやすい。
まず、特定のコード・リポジトリをクローンする必要がある:
#リポジトリダウンロード
git clone https://github.com/volcengine/ai-app-lab.git
# 特定のディレクトリに移動する
cd demohouse/chat2cartoon
次に 環境
ファイルで環境変数を設定する。 テキスト生成グラフ、音声合成、ビデオ生成、ビデオ理解のモデルに関するパラメータを設定する必要がある。
# スクリプトの作成、サブプロット、役割のための大規模モデルのアクセスポイント ID https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=&OpenTokenDrawer=false
LLM_ENDPOINT_ID='ep-xxx'
# 視覚的理解ラージモデル最終ビデオフィルム相互作用のためのアクセスポイントID
VLM_ENDPOINT_ID='ep-2025xxx'
# Volcano Engine TOS storage bucket name for storing model artefacts https://console.volcengine.com/tos/bucket/。
TOS_BUCKET='chat2'
# 音声技術APIアクセスキー https://console.volcengine.com/speech/service/
TTS_ACCESS_KEY='7naxxx'
# 音声技術 API リソース ID https://console.volcengine.com/speech/service/
TTS_API_RESOURCE_ID='volc.service_type.10029'
# 音声技術アプリキー https://console.volcengine.com/speech/service/
TTS_APP_KEY='113xxx'
# Generate Video Large Model Access Point ID(現在のところ、Doubao-Video Generation Modelのみサポートされています。)
CGT_ENDPOINT_ID='ep-20250306153842-pg2b4'
# Volcano Ark API Key for Ark model access point reasoning when doing authentication https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey
ARK_API_KEY='99831b24-55xxxx'
# TOS APIにアクセスし、モデル製品をアップロードするためのVolcano Engineアカウントアクセスキー https://console.volcengine.com/iam/keymanage/
VOLC_ACCESSKEY='AKLTYxxxx'
#ボルケーノエンジンアカウントシークレットキー、TOS APIへのアクセス、モデル製品のアップロードに使用 https://console.volcengine.com/iam/keymanage/
VOLC_SECRETKEY='Tmprexxxx'
ヴォルケーノ・アークのサービス開始と設定
まず、Volcano Arkの関連サービスを開く必要がある(このプラットフォームでは、あらゆる種類のAIモデルが提供されている)。Volcano Arkにログインした後、ページの左下にある「Open Management」を見つけてクリックし、ビッグ言語モデルとビジュアルビッグモデルのサービスをそれぞれ開く。
モデルサービスを開いたら、実際に使用するモデルであるアクセスポイントを作成する必要がある。左側の "Online Reasoning "をクリックし、"Custom Reasoning Access Point "をクリックして推論アクセスポイントを作成する。
ページのプロンプトに従って情報を入力し、必要な特定のモデルを追加して、アクセスを確認します。
作成に成功したら、アクセスポイントIDをコピーします。
具体的なモデルの選択は、実際のニーズや好みによって調整することができる。 今回のテストでは、以下のモデルを選んだ:
llm_endpoint_id
オプション同包-1.5-プロ-32k
vlm_endpoint_id
オプションドウバオ-ビジョン-プロ-32k
cgt_endpoint_id
オプション道場-ビデオジェネレーション-海藻
これらのモデルのAPIキーを取得するには(つまり ARK_API_KEY
新しいAPI Keyを作成したい場合は、ページの左下で管理できます。新しいAPI Keyを作成する必要がある場合は、ページの左下で管理できます。
TOSストレージバケットの構成
作成したTOSストレージバケットをクリックして、クロスドメインアクセスを設定する。
特定のパラメータは、実際のアプリケーションのシナリオに応じて調整してください。 本記事で提供するパラメータ構成は、あくまで参考例です(本番環境を構成する際にはご注意ください)。
ボルケーノ・エンジンのアクセス・コントロール
次に、ボルケーノ・エンジンのアクセス・コントロール・ページにアクセスする:
https://console.volcengine.com/iam/keymanage/
TOS APIにアクセスするためのVolcano Engineのアクセスキーとシークレットキーを取得します。
に相当する。 環境
ファイル内の VOLC_ACCESSKEY
歌で応える VOLC_SECRETKEY
パラメーター
オブジェクト・ストレージの構成
モデルが生成したファイルをアップロードするには、TOS APIを使用します。 オブジェクトストレージのページに移動します:
https://console.volcengine.com/tos
Bucket List "をクリックし、"Create Bucket "をクリックし、関連情報を入力してストレージバケットを作成する。 この例では、作成されたバケットの名前は チャット2
したがって 環境
論文 TOS_BUCKET
パラメータは チャット2
.
音声技術の設定
最後に、音声技術セクションを設定する。 ボルケーノ・エンジンの音声技術プラットフォームをご覧ください:
https://console.volcengine.com/speech/app
アプリケーションを作成し、「大規模モデル音声合成」と「ストリーミング音声認識大規模モデル」サービスを選択します。
作成後、左側のメニューをクリックし、以下のAPP IDとAccess Tokenを見つけてください。
ボルケーノ・エンジンの公式ドキュメントによると
TTS_ACCESS_KEY
アクセス・トークンに対応する。
TTS_APP_KEY
APP IDに対応する。
https://www.volcengine.com/docs/6561/1329505
これまでのところだ。環境
ファイルの設定が完了しました。 次に、プロジェクトの依存関係をインストールし、プログラムを実行する必要があります。
バックエンドオペレーション
# バックエンドに入る
cd バックエンド
# poetryをインストールする
pip install poetry==1.6.1
# poetryで依存関係をインストール
poetryをインストール
#バックエンド起動
poetry run python index.py
実行に成功すると、ターミナルに以下のようなメッセージが表示される。
フロントエンドオペレーション
# frontendに移動する
cd frontend
# pnpmをインストールする
npm install -g pnpm@8
# pnpmで依存関係をインストールする
pnpm install
# 環境変数.envファイルをコピーする
cp .../.env ./.env .
#フロントエンド起動
pnpm dev
実行に成功すると、ターミナルに以下のようなメッセージが表示される。
上記の手順が完了したら、ブラウザで次のページにアクセスしてください。 http://localhost:8080/
インタラクティブなバイリンガルビデオジェネレータを使用してください。
プロジェクト・アーキテクチャとテスト結果
プロジェクトの全体的なプロセス・アーキテクチャを以下に示す:
テスト結果によると、「Interactive Bilingual Video Generator」は、ワンクリックで分単位の動画を生成することができ、操作が非常に簡単で効率的です。 ユーザーは複雑なパラメータ設定をする必要がなく、ビデオの要件を入力するだけで、要件を満たす長いビデオ作品を素早く生成することができ、作成効率が大幅に向上します。
生成される動画は高品質で、クリアで滑らかなグラフィックと、首尾一貫した自然なストーリー展開が特徴です。 さらに、このアプリはビデオコンテンツに関するユーザーとのインタラクティブなQ&Aをサポートしています。
オープンソースの適用:ビッグモデルを軌道に乗せるための重要なステップ
をとおして コーズ Volcano Ark AI Application Open Source Labの立ち上げにおけるプラットフォームのテンプレート化は、ローコードからハイコードへのソリューションの拡張を意味するだけでなく、一般性から深いカスタマイズへのアプリケーションシナリオの進化を意味する。
ビッグモデル技術応用の波において、アプリケーションオープンソースの戦略的意義は、モデルオープンソースそのものを超えている。 強力なモデルがAI応用のエンジンであることは事実だが、モデル能力を実際のビジネスシナリオにいかに効率的に統合するかが、AI応用の着地を促進し、最終的にビジネス能力を向上させるカギとなる。
ボルケーノ・エンジン・オープンソースAIラボは、オープンソースのハイコードSDKとプロトタイプAIアプリケーションを提供し、AIアプリケーションの着地のための「最後の1キロメートル」を正確に埋めます。 オープンソースのAIアプリケーションは、企業に迅速なスタートアップ・ソリューションを提供します。
多くの企業がビッグモデルの大きな可能性を認識し、理論的なレベルからビジネスシナリオに適用する方法を理解しているが、実際の運用ではまだ多くの障害に直面している。 オープンソースのAIプロトタイプアプリケーションの出現により、企業の開発者は、複雑なモデルのドッキングやアプリケーションの開発プロセスをゼロから把握することなく、迅速に学習し、ビジネスニーズに合ったAIアプリケーションを構築・拡張することができるため、試行錯誤のコスト、時間、人件費を大幅に削減することができる。
AI技術の愛好家や開発者の大半は、彼らが最初にAIアプリケーション開発の分野に関与するとき、彼らはしばしばLangChainのような抽象度の高い高度にカプセル化されたフレームワークに接触する。 LangChainフレームワークの熟練者は、確かに大幅に開発効率を向上させることができますが、その構文糖と抽象的な概念の数が多いだけでなく、初心者に高い学習しきい値をもたらす。 これに対して、Volcano Engineが提供するPython SDKであるArkitectは、とっつきやすく、ツールチェーンや開発プロセスも直感的だ。 また、公式デモでは、技術的なアーキテクチャ図や実装の詳細が詳しく説明されており、開発者が深く理解するのに便利です。
Volcano Ark AI Application Labの立ち上げは、間違いなく企業や開発者に強力なAIアプリケーション開発プラットフォームを提供する。 特に、そのオープンソース戦略がAIアプリケーション開発の敷居を下げ、様々な産業におけるビッグモデル技術の着地プロセスを加速させたことは称賛に値する。 より多くのオープンソースアプリケーションが登場することで、AI技術は何千もの産業に真に統合され、より大きな可能性を解放すると信じる理由がある。