Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

A Volcano Ark lança o Big Model Application Lab: modelos de aplicativos do setor de código aberto para acelerar a aterrissagem de IA empresarial

Atualmente, o desempenho de grandes modelos nacionais e internacionais, como o DeepSeek, está se tornando cada vez mais poderoso, e o setor geralmente acredita que os aplicativos de IA darão início a um crescimento explosivo em 2025. No entanto, para as empresas, mesmo com grandes modelos poderosos, elas ainda enfrentam os problemas de cenários de aplicação pouco claros e formulários de aplicação incertos. Como implementar na prática a tecnologia de modelos grandes em aplicativos do setor e desenvolver produtos de IA realmente valiosos tem sido o foco do setor no ano passado e também é um problema que muitas empresas continuam a explorar.

Com base em nossa longa experiência com serviços de modelagem de beanbag, observamos queArca vulcânicaRecentemente, lançou o "Big Model Application Lab", cujos principais recursos são "fácil de integrar, fácil de aterrissar, mais aberto". Simplificando, a Volcano Ark fornece uma série de cenários de aplicativos selecionados para empresas e desenvolve aplicativos de IA de alta qualidade como modelos do setor, que são fornecidos na forma de código aberto para as empresas que precisam.


 

Gerador de vídeo bilíngue interativo: um novo paradigma para animação educacional habilitada para IA

Como desenvolvedores de agentes, nossa equipe se interessou por um aplicativo chamado "Interactive Bilingual Video Generator" no Volcano Ark e decidiu implantá-lo e testá-lo. Esperamos aproveitar essa oportunidade para explorar o potencial da animação com IA na educação.

Guia de implantação rápida

As principais etapas são explicadas em detalhes abaixo para facilitar a compreensão e a operação.

Primeiro, o repositório de código específico precisa ser clonado:

# 仓库下载
git clone https://github.com/volcengine/ai-app-lab.git
# 进入对应具体目录
cd demohouse/chat2cartoon

Em seguida, abra o .env para configurar as variáveis de ambiente. Você precisa configurar os parâmetros relacionados aos modelos para gráficos gerados por texto, síntese de fala, geração de vídeo e compreensão de vídeo.

# 大模型接入点ID,用于脚本创作、分镜、角色  https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&OpenTokenDrawer=false
LLM_ENDPOINT_ID='ep-xxx'
# 视觉理解大模型接入点ID,用于最终视频影片交互
VLM_ENDPOINT_ID='ep-2025xxx'
# 火山引擎TOS储存桶名,用于存储模型产物 https://console.volcengine.com/tos/bucket/
TOS_BUCKET='chat2'
# 语音技术API Access Key https://console.volcengine.com/speech/service/
TTS_ACCESS_KEY='7naxxx'
# 语音技术API Resource ID https://console.volcengine.com/speech/service/
TTS_API_RESOURCE_ID='volc.service_type.10029'
# 语音技术App Key https://console.volcengine.com/speech/service/
TTS_APP_KEY='113xxx'
# 生视频大模型接入点ID(暂时只支持Doubao-视频生成模型)
CGT_ENDPOINT_ID='ep-20250306153842-pg2b4'
# 火山方舟API Key,用于方舟模型接入点推理时做鉴权 https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey
ARK_API_KEY='99831b24-55xxxx'
# 火山引擎账号Access Key,用于访问TOS API,上传模型产物  https://console.volcengine.com/iam/keymanage/
VOLC_ACCESSKEY='AKLTYxxxx'
# 火山引擎账号Secret Key,用于访问TOS API,上传模型产物 https://console.volcengine.com/iam/keymanage/
VOLC_SECRETKEY='Tmprexxxx'

Abertura e configuração do serviço Volcano Ark

Em primeiro lugar, você precisa abrir os serviços relevantes do Volcano Ark (todos os tipos de modelos de IA são fornecidos nessa plataforma). Depois de fazer login no Volcano Ark, localize e clique em "Open Management" (Gerenciamento aberto) no canto inferior esquerdo da página e abra o serviço de modelo de linguagem grande e modelo visual grande, respectivamente.

 

Depois de abrir o serviço de modelo, você precisa criar o ponto de acesso, que é o modelo real a ser usado. Clique em "Online Reasoning" (Raciocínio on-line) no lado esquerdo e, em seguida, clique em "Custom Reasoning Access Point" (Ponto de acesso de raciocínio personalizado) para criar um ponto de acesso de inferência.

Preencha as informações de acordo com as solicitações da página, adicione o modelo específico necessário e confirme o acesso.

Após a criação bem-sucedida, copie o ID do ponto de acesso.

As escolhas de modelos específicos podem ser ajustadas de acordo com as necessidades e preferências reais. Neste teste, escolhemos os seguintes modelos:

  1. LLM_ENDPOINT_ID opção Doubao-1.5-pro-32k
  2. VLM_ENDPOINT_ID opção Doubao-vision-pro-32k
  3. CGT_ENDPOINT_ID opção Doubao-视频生成-Seaweed

Para obter a chave de API para esses modelos (ou seja ARK_API_KEYSe quiser criar uma nova chave de API, você poderá gerenciá-la no canto inferior esquerdo da página. Se precisar criar uma nova chave de API, você poderá gerenciá-la no canto inferior esquerdo da página.

 

Configuração do bucket de armazenamento do TOS

Clique no bucket de armazenamento TOS criado para configurar o acesso entre domínios.

Ajuste os parâmetros específicos de acordo com os cenários reais de aplicação. As configurações de parâmetros fornecidas neste artigo são apenas exemplos para referência (tenha cuidado ao configurar o ambiente de produção).

Controle de acesso ao Volcano Engine

Em seguida, vá para a página de controle de acesso do Volcano Engine:

https://console.volcengine.com/iam/keymanage/

Obtém a chave de acesso e a chave secreta do Volcano Engine para acessar a API do TOS.

correspondente a .env no arquivo VOLC_ACCESSKEY responder cantando VOLC_SECRETKEY Parâmetros.

Configuração de armazenamento de objetos

A API TOS é usada para carregar arquivos gerados por modelos. Vá para a página Armazenamento de objetos:

https://console.volcengine.com/tos

Clique em "Bucket List" (Lista de compartimentos), depois clique em "Create Bucket" (Criar compartimento) e preencha as informações relevantes para criar um compartimento de armazenamento. Neste exemplo, o nome do bucket criado é chat2Portanto, o .env Documentos TOS_BUCKET O parâmetro deve ser definido como chat2.

Configuração da tecnologia de voz

Por fim, a seção de tecnologia de voz é configurada. Visite a plataforma de tecnologia de voz do Volcano Engine:

https://console.volcengine.com/speech/app

Crie um aplicativo e selecione os serviços "Large Model Speech Synthesis" e "Streaming Speech Recognition Large Model".

Depois de criado, clique em qualquer menu à esquerda para encontrar o ID do APP e o token de acesso abaixo.

De acordo com a documentação oficial do Volcano Engine.

TTS_ACCESS_KEY correspondente ao token de acesso.

TTS_APP_KEY Corresponde à ID do APP.

https://www.volcengine.com/docs/6561/1329505

Até o momento..env A configuração dos arquivos foi concluída. Em seguida, você precisa instalar as dependências do projeto e executar o programa.

operação de back-end

# 进入后端
cd backend
# 安装 poetry
pip install poetry==1.6.1
# 用 poetry 安装依赖库
poetry install
# 后端启动!
poetry run python index.py

Se a execução for bem-sucedida, o terminal exibirá uma saída semelhante à mensagem a seguir.

operação front-end

# 进入前端
cd frontend
# 安装 pnpm
npm install -g pnpm@8
# 利用 pnpm 安装依赖包
pnpm install
# 复制环境变量 .env 文件
cp ../.env ./
# 前端启动!
pnpm dev

Se a execução for bem-sucedida, o terminal exibirá uma saída semelhante à mensagem a seguir.

Depois de concluir as etapas acima, você pode visitar em seu navegador http://localhost:8080/ Comece a usar o Interactive Bilingual Video Generator.

Arquitetura do projeto e resultados dos testes

A arquitetura geral do processo do projeto é mostrada abaixo:

Os resultados dos testes mostram que o "Interactive Bilingual Video Generator" permite que os usuários gerem vídeos de um minuto com um clique, o que é extremamente fácil e eficiente de operar. Os usuários não precisam configurar parâmetros complicados, basta inserir os requisitos do vídeo para gerar rapidamente um trabalho de vídeo longo que atenda aos requisitos, o que aumenta muito a eficiência da criação.

Os vídeos gerados são de alta qualidade, com gráficos claros e suaves e um enredo coerente e natural. Além disso, o aplicativo oferece suporte a perguntas e respostas interativas com os usuários sobre o conteúdo do vídeo.

 

Aplicação do código-fonte aberto: uma etapa fundamental para fazer grandes modelos decolarem

através de (uma lacuna) Coze O aplicativo de modelo da plataforma para o lançamento do Volcano Ark AI Application Open Source Lab não só representa a extensão da solução de low-code para high-code, mas também marca a evolução do cenário do aplicativo da generalidade para a personalização profunda.

Na onda da aplicação da tecnologia de grandes modelos, a importância estratégica do código aberto do aplicativo vai além do próprio código aberto do modelo. É verdade que um modelo potente é o motor do aplicativo de IA, mas como integrar com eficiência a capacidade do modelo em cenários de negócios reais é a chave para promover a aterrissagem do aplicativo de IA e, por fim, melhorar a capacidade dos negócios.

O Volcano Engine Open Source AI Lab fornece SDKs de código aberto de alto nível e protótipos de aplicativos de IA, que preenchem com precisão o "último quilômetro" para a aterrissagem de aplicativos de IA. Os aplicativos de IA de código aberto oferecem uma solução de inicialização rápida para as empresas.

Embora muitas empresas reconheçam o enorme potencial dos grandes modelos e entendam como aplicá-los aos seus cenários de negócios em um nível teórico, elas ainda enfrentam muitos obstáculos na operação real. O surgimento de protótipos de aplicativos de IA de código aberto permite que os desenvolvedores corporativos aprendam, criem e expandam rapidamente aplicativos de IA que atendam às suas necessidades de negócios sem precisar começar do zero para descobrir o complexo processo de acoplamento de modelos e desenvolvimento de aplicativos, reduzindo significativamente os custos de tentativa e erro, os custos de tempo e os custos de mão de obra.

Para a maioria dos entusiastas e desenvolvedores de tecnologia de IA, quando se envolvem pela primeira vez no campo do desenvolvimento de aplicativos de IA, eles geralmente entram em contato com estruturas altamente encapsuladas com um alto grau de abstração, como a LangChain. A estrutura LangChain, quando dominada com habilidade, pode de fato melhorar significativamente a eficiência do desenvolvimento, mas seu grande número de conceitos abstratos e de açúcar sintático também pode trazer um limiar de aprendizado mais alto para o iniciante. Por outro lado, o Arkitect, o SDK Python fornecido pelo Volcano Engine, é muito mais fácil de começar, e sua cadeia de ferramentas e seu processo de desenvolvimento são mais intuitivos. Além disso, a demonstração oficial também fornece um diagrama de arquitetura técnica detalhada e detalhes de implementação, o que é conveniente para os desenvolvedores entenderem profundamente.

O lançamento do Laboratório de Aplicativos de IA da Volcano Ark oferece, sem dúvida, uma poderosa plataforma de desenvolvimento de aplicativos de IA para empresas e desenvolvedores. É especialmente louvável que sua estratégia de código aberto tenha reduzido o limite do desenvolvimento de aplicativos de IA e acelerado o processo de aterrissagem da tecnologia de grandes modelos em vários setores. Com o surgimento de mais aplicativos de código aberto, temos motivos para acreditar que a tecnologia de IA será realmente integrada a milhares de setores e liberará um potencial maior.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " A Volcano Ark lança o Big Model Application Lab: modelos de aplicativos do setor de código aberto para acelerar a aterrissagem de IA empresarial
pt_BRPortuguês do Brasil