Atualmente, o desempenho de grandes modelos nacionais e internacionais, como o DeepSeek, está se tornando cada vez mais poderoso, e o setor geralmente acredita que os aplicativos de IA darão início a um crescimento explosivo em 2025. No entanto, para as empresas, mesmo com grandes modelos poderosos, elas ainda enfrentam os problemas de cenários de aplicação pouco claros e formulários de aplicação incertos. Como implementar na prática a tecnologia de modelos grandes em aplicativos do setor e desenvolver produtos de IA realmente valiosos tem sido o foco do setor no ano passado e também é um problema que muitas empresas continuam a explorar.
Com base em nossa longa experiência com serviços de modelagem de beanbag, observamos queArca vulcânicaRecentemente, lançou o "Big Model Application Lab", cujos principais recursos são "fácil de integrar, fácil de aterrissar, mais aberto". Simplificando, a Volcano Ark fornece uma série de cenários de aplicativos selecionados para empresas e desenvolve aplicativos de IA de alta qualidade como modelos do setor, que são fornecidos na forma de código aberto para as empresas que precisam.
Gerador de vídeo bilíngue interativo: um novo paradigma para animação educacional habilitada para IA
Como desenvolvedores de agentes, nossa equipe se interessou por um aplicativo chamado "Interactive Bilingual Video Generator" no Volcano Ark e decidiu implantá-lo e testá-lo. Esperamos aproveitar essa oportunidade para explorar o potencial da animação com IA na educação.
Guia de implantação rápida
As principais etapas são explicadas em detalhes abaixo para facilitar a compreensão e a operação.
Primeiro, o repositório de código específico precisa ser clonado:
Download do repositório #
git clone https://github.com/volcengine/ai-app-lab.git
# Vá para o diretório específico
cd demohouse/chat2cartoon
Em seguida, abra o .env
para configurar as variáveis de ambiente. Você precisa configurar os parâmetros relacionados aos modelos para gráficos gerados por texto, síntese de fala, geração de vídeo e compreensão de vídeo.
# ID de ponto de acesso de modelo grande para criação de script, subplotagem, funções https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=& OpenTokenDrawer=false
LLM_ENDPOINT_ID='ep-xxx'
# Visual Understanding Large Model ID do ponto de acesso para interação final do filme de vídeo
VLM_ENDPOINT_ID='ep-2025xxx'
# Volcano Engine Nome do bucket de armazenamento TOS para armazenar artefatos do modelo https://console.volcengine.com/tos/bucket/
TOS_BUCKET='chat2'
Chave de acesso à API da tecnologia de voz do # https://console.volcengine.com/speech/service/
TTS_ACCESS_KEY='7naxxx'
ID do recurso da API da tecnologia de voz # https://console.volcengine.com/speech/service/
TTS_API_RESOURCE_ID='volc.service_type.10029'
Chave do aplicativo da tecnologia de voz # https://console.volcengine.com/speech/service/
TTS_APP_KEY='113xxx'
# Generate Video Large Model Access Point ID (por enquanto, somente o modelo de geração de vídeo Doubao é compatível)
CGT_ENDPOINT_ID='ep-20250306153842-pg2b4'
# Volcano Ark API Key para raciocínio do ponto de acesso do modelo Ark ao fazer a autenticação https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey
ARK_API_KEY='99831b24-55xxxx'
Chave de acesso à conta do Volcano Engine # para acessar a API TOS e carregar produtos de modelo https://console.volcengine.com/iam/keymanage/
VOLC_ACCESSKEY='AKLTYxxxx'
Chave secreta da conta do Volcano Engine do #, usada para acessar a API do TOS e fazer upload de produtos modelo https://console.volcengine.com/iam/keymanage/
VOLC_SECRETKEY='Tmprexxxx'
Abertura e configuração do serviço Volcano Ark
Em primeiro lugar, você precisa abrir os serviços relevantes do Volcano Ark (todos os tipos de modelos de IA são fornecidos nessa plataforma). Depois de fazer login no Volcano Ark, localize e clique em "Open Management" (Gerenciamento aberto) no canto inferior esquerdo da página e abra o serviço de modelo de linguagem grande e modelo visual grande, respectivamente.
Depois de abrir o serviço de modelo, você precisa criar o ponto de acesso, que é o modelo real a ser usado. Clique em "Online Reasoning" (Raciocínio on-line) no lado esquerdo e, em seguida, clique em "Custom Reasoning Access Point" (Ponto de acesso de raciocínio personalizado) para criar um ponto de acesso de inferência.
Preencha as informações de acordo com as solicitações da página, adicione o modelo específico necessário e confirme o acesso.
Após a criação bem-sucedida, copie o ID do ponto de acesso.
As escolhas de modelos específicos podem ser ajustadas de acordo com as necessidades e preferências reais. Neste teste, escolhemos os seguintes modelos:
LLM_ENDPOINT_ID
opçãoDoubao-1.5-pro-32k
VLM_ENDPOINT_ID
opçãoDoubao-vision-pro-32k
CGT_ENDPOINT_ID
opçãoDoubao-Geração de vídeo-Algas marinhas
Para obter a chave de API para esses modelos (ou seja ARK_API_KEY
Se quiser criar uma nova chave de API, você poderá gerenciá-la no canto inferior esquerdo da página. Se precisar criar uma nova chave de API, você poderá gerenciá-la no canto inferior esquerdo da página.
Configuração do bucket de armazenamento do TOS
Clique no bucket de armazenamento TOS criado para configurar o acesso entre domínios.
Ajuste os parâmetros específicos de acordo com os cenários reais de aplicação. As configurações de parâmetros fornecidas neste artigo são apenas exemplos para referência (tenha cuidado ao configurar o ambiente de produção).
Controle de acesso ao Volcano Engine
Em seguida, vá para a página de controle de acesso do Volcano Engine:
https://console.volcengine.com/iam/keymanage/
Obtém a chave de acesso e a chave secreta do Volcano Engine para acessar a API do TOS.
correspondente a .env
no arquivo VOLC_ACCESSKEY
responder cantando VOLC_SECRETKEY
Parâmetros.
Configuração de armazenamento de objetos
A API TOS é usada para carregar arquivos gerados por modelos. Vá para a página Armazenamento de objetos:
https://console.volcengine.com/tos
Clique em "Bucket List" (Lista de compartimentos), depois clique em "Create Bucket" (Criar compartimento) e preencha as informações relevantes para criar um compartimento de armazenamento. Neste exemplo, o nome do bucket criado é chat2
Portanto, o .env
Documentos TOS_BUCKET
O parâmetro deve ser definido como chat2
.
Configuração da tecnologia de voz
Por fim, a seção de tecnologia de voz é configurada. Visite a plataforma de tecnologia de voz do Volcano Engine:
https://console.volcengine.com/speech/app
Crie um aplicativo e selecione os serviços "Large Model Speech Synthesis" e "Streaming Speech Recognition Large Model".
Depois de criado, clique em qualquer menu à esquerda para encontrar o ID do APP e o token de acesso abaixo.
De acordo com a documentação oficial do Volcano Engine.
TTS_ACCESS_KEY
correspondente ao token de acesso.
TTS_APP_KEY
Corresponde à ID do APP.
https://www.volcengine.com/docs/6561/1329505
Até o momento..env
A configuração dos arquivos foi concluída. Em seguida, você precisa instalar as dependências do projeto e executar o programa.
operação de back-end
# Entre no backend
cd backend
# instalar o poetry
pip install poetry==1.6.1
# instalar dependências com o poetry
poetry install
Inicialização do backend #!
poetry run python index.py
Se a execução for bem-sucedida, o terminal exibirá uma saída semelhante à mensagem a seguir.
operação front-end
# Ir para o frontend
cd frontend
# instalar o pnpm
npm install -g pnpm@8
# Instale as dependências com o pnpm
pnpm install
# Copie o arquivo .env da variável de ambiente
cp ... /.env . /.env .
Inicialização do front-end do #!
pnpm dev
Se a execução for bem-sucedida, o terminal exibirá uma saída semelhante à mensagem a seguir.
Depois de concluir as etapas acima, você pode visitar em seu navegador http://localhost:8080/
Comece a usar o Interactive Bilingual Video Generator.
Arquitetura do projeto e resultados dos testes
A arquitetura geral do processo do projeto é mostrada abaixo:
Os resultados dos testes mostram que o "Interactive Bilingual Video Generator" permite que os usuários gerem vídeos de um minuto com um clique, o que é extremamente fácil e eficiente de operar. Os usuários não precisam configurar parâmetros complicados, basta inserir os requisitos do vídeo para gerar rapidamente um trabalho de vídeo longo que atenda aos requisitos, o que aumenta muito a eficiência da criação.
Os vídeos gerados são de alta qualidade, com gráficos claros e suaves e um enredo coerente e natural. Além disso, o aplicativo oferece suporte a perguntas e respostas interativas com os usuários sobre o conteúdo do vídeo.
Aplicação do código-fonte aberto: uma etapa fundamental para fazer grandes modelos decolarem
através de (uma lacuna) Coze O aplicativo de modelo da plataforma para o lançamento do Volcano Ark AI Application Open Source Lab não só representa a extensão da solução de low-code para high-code, mas também marca a evolução do cenário do aplicativo da generalidade para a personalização profunda.
Na onda da aplicação da tecnologia de grandes modelos, a importância estratégica do código aberto do aplicativo vai além do próprio código aberto do modelo. É verdade que um modelo potente é o motor do aplicativo de IA, mas como integrar com eficiência a capacidade do modelo em cenários de negócios reais é a chave para promover a aterrissagem do aplicativo de IA e, por fim, melhorar a capacidade dos negócios.
O Volcano Engine Open Source AI Lab fornece SDKs de código aberto de alto nível e protótipos de aplicativos de IA, que preenchem com precisão o "último quilômetro" para a aterrissagem de aplicativos de IA. Os aplicativos de IA de código aberto oferecem uma solução de inicialização rápida para as empresas.
Embora muitas empresas reconheçam o enorme potencial dos grandes modelos e entendam como aplicá-los aos seus cenários de negócios em um nível teórico, elas ainda enfrentam muitos obstáculos na operação real. O surgimento de protótipos de aplicativos de IA de código aberto permite que os desenvolvedores corporativos aprendam, criem e expandam rapidamente aplicativos de IA que atendam às suas necessidades de negócios sem precisar começar do zero para descobrir o complexo processo de acoplamento de modelos e desenvolvimento de aplicativos, reduzindo significativamente os custos de tentativa e erro, os custos de tempo e os custos de mão de obra.
Para a maioria dos entusiastas e desenvolvedores de tecnologia de IA, quando se envolvem pela primeira vez no campo do desenvolvimento de aplicativos de IA, eles geralmente entram em contato com estruturas altamente encapsuladas com um alto grau de abstração, como a LangChain. A estrutura LangChain, quando dominada com habilidade, pode de fato melhorar significativamente a eficiência do desenvolvimento, mas seu grande número de conceitos abstratos e de açúcar sintático também pode trazer um limiar de aprendizado mais alto para o iniciante. Por outro lado, o Arkitect, o SDK Python fornecido pelo Volcano Engine, é muito mais fácil de começar, e sua cadeia de ferramentas e seu processo de desenvolvimento são mais intuitivos. Além disso, a demonstração oficial também fornece um diagrama de arquitetura técnica detalhada e detalhes de implementação, o que é conveniente para os desenvolvedores entenderem profundamente.
O lançamento do Laboratório de Aplicativos de IA da Volcano Ark oferece, sem dúvida, uma poderosa plataforma de desenvolvimento de aplicativos de IA para empresas e desenvolvedores. É especialmente louvável que sua estratégia de código aberto tenha reduzido o limite do desenvolvimento de aplicativos de IA e acelerado o processo de aterrissagem da tecnologia de grandes modelos em vários setores. Com o surgimento de mais aplicativos de código aberto, temos motivos para acreditar que a tecnologia de IA será realmente integrada a milhares de setores e liberará um potencial maior.