如今,DeepSeek 等国内外大模型的性能日趋强大,业界普遍认为,2025 年 AI 应用将迎来爆发式增长。然而,对于企业而言,即使拥有了强大的大模型,仍然面临着应用场景不明晰、应用形态不确定的问题。如何将大模型技术切实落地到行业应用中,开发出真正有价值的 AI 产品,是近一年来行业普遍关注的焦点,也是众多企业持续探索的难题。
基于对豆包模型服务的长期使用经验,我们注意到火山方舟近期推出了“大模型应用实验室”,其核心特点是“易集成、易落地、更开放”。简单来说,火山方舟为企业提供了一系列精选的应用场景,并开发了高质量的 AI 应用作为行业模板,以开源的形式提供给有需求的企业使用。
互动双语视频生成器:AI赋能教育动画新范式
作为 Agent 开发者,我们团队对火山方舟中一个名为“互动双语视频生成器”的应用产生了浓厚的兴趣,并决定对其进行部署和测试。希望借此机会,探索 AI 动画在教育领域的应用潜力。
快速部署指南
为了方便读者理解和操作,以下将对关键步骤进行详细说明。
首先,需要克隆具体的代码仓库:
# 仓库下载
git clone https://github.com/volcengine/ai-app-lab.git
# 进入对应具体目录
cd demohouse/chat2cartoon
接着,打开 .env
文件,配置环境变量。 需要配置文生图、语音合成、视频生成、视频理解等模型的相关参数。
# 大模型接入点ID,用于脚本创作、分镜、角色 https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&OpenTokenDrawer=false
LLM_ENDPOINT_ID='ep-xxx'
# 视觉理解大模型接入点ID,用于最终视频影片交互
VLM_ENDPOINT_ID='ep-2025xxx'
# 火山引擎TOS储存桶名,用于存储模型产物 https://console.volcengine.com/tos/bucket/
TOS_BUCKET='chat2'
# 语音技术API Access Key https://console.volcengine.com/speech/service/
TTS_ACCESS_KEY='7naxxx'
# 语音技术API Resource ID https://console.volcengine.com/speech/service/
TTS_API_RESOURCE_ID='volc.service_type.10029'
# 语音技术App Key https://console.volcengine.com/speech/service/
TTS_APP_KEY='113xxx'
# 生视频大模型接入点ID(暂时只支持Doubao-视频生成模型)
CGT_ENDPOINT_ID='ep-20250306153842-pg2b4'
# 火山方舟API Key,用于方舟模型接入点推理时做鉴权 https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey
ARK_API_KEY='99831b24-55xxxx'
# 火山引擎账号Access Key,用于访问TOS API,上传模型产物 https://console.volcengine.com/iam/keymanage/
VOLC_ACCESSKEY='AKLTYxxxx'
# 火山引擎账号Secret Key,用于访问TOS API,上传模型产物 https://console.volcengine.com/iam/keymanage/
VOLC_SECRETKEY='Tmprexxxx'
火山方舟服务开通与配置
首先,需要开通火山方舟的相关服务(各类 AI 模型均在此平台提供)。登录火山方舟后,在页面左下角找到并点击“开通管理”,分别开通大语言模型和视觉大模型服务。
在开通模型服务后,需要创建接入点,即实际使用的模型。点击左侧 “在线推理”,然后点击 “自定义推理接入点”,创建推理接入点。
根据页面提示填写信息,添加所需的具体模型后,确认接入。
创建成功后,复制接入点 ID。
具体的模型选择可以根据实际需求和偏好进行调整。 在本次测试中,我们选择了以下模型:
LLM_ENDPOINT_ID
选择Doubao-1.5-pro-32k
VLM_ENDPOINT_ID
选择Doubao-vision-pro-32k
CGT_ENDPOINT_ID
选择Doubao-视频生成-Seaweed
要获取这些模型的 API Key(即 ARK_API_KEY
),请点击“查看 API Key” 按钮。如果需要创建新的 API Key,可以在页面左下角进行管理。
TOS 存储桶配置
点击进入已创建的 TOS 存储桶,配置跨域访问。
具体参数配置请根据实际应用场景进行调整。 文中提供的参数配置仅为示例,供参考使用(生产环境请务必谨慎配置)。
火山引擎访问控制
接下来,进入火山引擎的访问控制页面:
https://console.volcengine.com/iam/keymanage/
获取火山引擎的 Access Key 和 Secret Key,用于访问 TOS API。
分别对应 .env
文件中的 VOLC_ACCESSKEY
和 VOLC_SECRETKEY
参数。
对象存储配置
TOS API 用于上传模型生成的文件。 进入对象存储页面:
https://console.volcengine.com/tos
点击 “桶列表”,再点击 “创建桶”,填写相关信息后即可创建存储桶。 在本例中,创建的存储桶名称为 chat2
,因此 .env
文件中 TOS_BUCKET
参数应设置为 chat2
。
语音技术配置
最后是语音技术部分的配置。 访问火山引擎语音技术平台:
https://console.volcengine.com/speech/app
创建应用,并选择 “大模型语音合成” 和 “流式语音识别大模型” 服务。
创建完成后,点击左侧任意菜单,即可在下方找到 APP ID 和 Access Token。
根据火山引擎官方文档,
TTS_ACCESS_KEY
对应 Access Token,
TTS_APP_KEY
对应 APP ID。
https://www.volcengine.com/docs/6561/1329505
至此,.env
文件的配置工作已经完成。 接下来,需要安装项目依赖并运行程序。
后端运行
# 进入后端
cd backend
# 安装 poetry
pip install poetry==1.6.1
# 用 poetry 安装依赖库
poetry install
# 后端启动!
poetry run python index.py
如果运行成功,终端将显示类似以下信息的输出。
前端运行
# 进入前端
cd frontend
# 安装 pnpm
npm install -g pnpm@8
# 利用 pnpm 安装依赖包
pnpm install
# 复制环境变量 .env 文件
cp ../.env ./
# 前端启动!
pnpm dev
如果运行成功,终端将显示类似以下信息的输出。
完成上述步骤后,即可在浏览器中访问 http://localhost:8080/
开始使用“互动双语视频生成器”。
项目架构与测试结果
项目的整体流程架构如下图所示:
测试结果表明,“互动双语视频生成器” 支持用户一键生成分钟级视频,操作极其简便高效。 用户无需进行繁琐的参数设置,只需输入视频需求,即可快速生成符合要求的长视频作品,从而大幅提升创作效率。
生成的视频质量较高,画面清晰流畅,故事情节连贯自然。 此外,该应用还支持与用户就视频内容进行互动问答。
应用开源:大模型落地的关键一步
从 Coze 平台的模板化应用,到火山方舟 AI 应用开源实验室的推出,这不仅代表着解决方案从低代码向高代码的延伸,更标志着应用场景从通用性向深度定制化的演进。
在大模型技术落地应用的浪潮中,应用开源所蕴含的战略意义,甚至超越了模型开源本身。 诚然,强大的模型是 AI 应用的引擎,但如何高效地将模型能力融入到实际业务场景中,才是推动 AI 应用落地、并最终提升业务能力的关键所在。
火山引擎开源 AI 实验室提供的开源、高代码 SDK 以及原型 AI 应用,恰恰为 AI 应用落地补上了“最后一公里”。 开源的 AI 应用为企业提供了一个快速启动的最佳方案。
许多企业虽然认识到大模型的巨大潜力,也从理论层面理解了如何将其应用于自身业务场景,但在实际操作中,仍然面临诸多障碍。 而开源 AI 原型应用的出现,让企业开发者无需再从零开始摸索复杂的模型对接和应用开发流程,能够迅速上手,快速学习并构建和扩展符合自身业务需求的 AI 应用,从而大幅降低试错成本、时间成本以及人力成本。
对于广大的 AI 技术爱好者和开发者而言,在初涉 AI 应用开发领域时,往往会接触到 LangChain 等高度封装且抽象程度较高的框架。 LangChain 框架在熟练掌握后,确实能够显著提升开发效率,但其大量的语法糖和抽象概念,也给初学者带来了较高的学习门槛。 相比之下,火山引擎提供的 Python SDK Arkitect,则更易于上手,其工具链和开发流程也更加直观。 此外,官方 Demo 中还提供了详细的技术架构图和实现细节,方便开发者深入理解。
火山方舟 AI 应用实验室的推出,无疑为企业和开发者提供了一个强大的 AI 应用开发平台。 尤其值得称赞的是,其开源策略降低了 AI 应用开发的门槛,加速了大模型技术在各行各业的落地进程。 随着更多开源应用的涌现,我们有理由相信,AI 技术将真正融入到千行百业,释放出更大的潜能。