Volcano Ark lanza Big Model Application Lab: plantillas de aplicaciones industriales de código abierto para acelerar el aterrizaje de la IA empresarial

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

46.7K 00

Hoy en día, el rendimiento de los grandes modelos nacionales y extranjeros, como DeepSeek, es cada vez más potente, y la industria en general cree que las aplicaciones de IA marcarán el comienzo de un crecimiento explosivo en 2025. Sin embargo, para las empresas, incluso con grandes modelos potentes, todavía se enfrentan a los problemas de escenas de aplicación poco claras y formas de aplicación inciertas. En el último año, el sector se ha centrado en cómo implantar de forma práctica la tecnología de grandes modelos en las aplicaciones industriales y desarrollar productos de IA realmente valiosos, y también es un problema que muchas empresas siguen explorando.

Basándonos en nuestra larga experiencia en el uso del servicio de modelización de bolsas de frijoles, observamos quearca volcánicaRecientemente ha lanzado el "Big Model Application Lab", cuyas características principales son "fácil de integrar, fácil de aterrizar, más abierto". En pocas palabras, Volcano Ark proporciona una serie de escenarios de aplicación seleccionados para las empresas y desarrolla aplicaciones de IA de alta calidad como plantillas de la industria, que se proporcionan en forma de código abierto para las empresas que lo necesiten.

Generador de vídeo bilingüe interactivo: un nuevo paradigma para la animación educativa con IA

Como desarrolladores de agentes, nuestro equipo se interesó por una aplicación llamada "Generador de vídeo interactivo bilingüe" en Volcano Ark y decidió desplegarla y probarla. Esperamos aprovechar esta oportunidad para explorar el potencial de la animación con IA en la educación.

Guía de implantación rápida

A continuación se explican detalladamente los pasos clave para facilitar su comprensión y funcionamiento.

En primer lugar, hay que clonar el repositorio de código específico:

# 仓库下载
git clone https://github.com/volcengine/ai-app-lab.git
# 进入对应具体目录
cd demohouse/chat2cartoon

A continuación, abra el .env para configurar las variables de entorno. Es necesario configurar los parámetros relacionados con los modelos para gráficos generados por texto, síntesis de voz, generación de vídeo y comprensión de vídeo.

# 大模型接入点ID，用于脚本创作、分镜、角色  https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&OpenTokenDrawer=false
LLM_ENDPOINT_ID='ep-xxx'
# 视觉理解大模型接入点ID，用于最终视频影片交互
VLM_ENDPOINT_ID='ep-2025xxx'
# 火山引擎TOS储存桶名，用于存储模型产物 https://console.volcengine.com/tos/bucket/
TOS_BUCKET='chat2'
# 语音技术API Access Key https://console.volcengine.com/speech/service/
TTS_ACCESS_KEY='7naxxx'
# 语音技术API Resource ID https://console.volcengine.com/speech/service/
TTS_API_RESOURCE_ID='volc.service_type.10029'
# 语音技术App Key https://console.volcengine.com/speech/service/
TTS_APP_KEY='113xxx'
# 生视频大模型接入点ID（暂时只支持Doubao-视频生成模型）
CGT_ENDPOINT_ID='ep-20250306153842-pg2b4'
# 火山方舟API Key，用于方舟模型接入点推理时做鉴权 https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey
ARK_API_KEY='99831b24-55xxxx'
# 火山引擎账号Access Key，用于访问TOS API，上传模型产物  https://console.volcengine.com/iam/keymanage/
VOLC_ACCESSKEY='AKLTYxxxx'
# 火山引擎账号Secret Key，用于访问TOS API，上传模型产物 https://console.volcengine.com/iam/keymanage/
VOLC_SECRETKEY='Tmprexxxx'

Apertura y configuración del servicio Volcano Ark

En primer lugar, es necesario abrir los servicios pertinentes del Arca de los Volcanes (en esta plataforma se proporcionan todo tipo de modelos de IA). Después de iniciar sesión en Volcano Ark, busque y haga clic en "Open Management" en la esquina inferior izquierda de la página, y abra el servicio de big language model y visual big model respectivamente.

Una vez abierto el servicio de modelos, es necesario crear el punto de acceso, que es el modelo real que se va a utilizar. Haga clic en "Razonamiento en línea" en el lado izquierdo y, a continuación, en "Punto de acceso de razonamiento personalizado" para crear un punto de acceso de inferencia.

Rellene la información según las indicaciones de la página, añada el modelo específico requerido y, a continuación, confirme el acceso.

Una vez creado, copie el ID del punto de acceso.

La elección del modelo específico puede ajustarse en función de las necesidades y preferencias reales. En esta prueba, elegimos los siguientes modelos:

LLM_ENDPOINT_ID opción Doubao-1.5-pro-32k
VLM_ENDPOINT_ID opción Doubao-vision-pro-32k
CGT_ENDPOINT_ID opción Doubao-视频生成-Seaweed

Para obtener la clave API de estos modelos (es decir ARK_API_KEYSi desea crear una nueva Clave API, puede gestionarla en la esquina inferior izquierda de la página. Si necesita crear una nueva API Key, puede gestionarla en la esquina inferior izquierda de la página.

Configuración del cubo de almacenamiento del TOS

Haga clic en el bucket de almacenamiento TOS creado para configurar el acceso entre dominios.

Por favor, ajuste los parámetros específicos de acuerdo con los escenarios de aplicación reales. Las configuraciones de parámetros proporcionadas en este artículo son solo ejemplos de referencia (tenga cuidado al configurar el entorno de producción).

Control de acceso al motor Volcano

A continuación, vaya a la página de Control de Acceso del Motor Volcano:

https://console.volcengine.com/iam/keymanage/

Obtiene la Clave de Acceso y la Clave Secreta del Motor Volcano para acceder a la API TOS.

correspondiente a .env en el archivo VOLC_ACCESSKEY responder cantando VOLC_SECRETKEY Parámetros.

Configuración del almacenamiento de objetos

La API TOS se utiliza para cargar archivos generados por modelos. Vaya a la página Almacenamiento de objetos:

https://console.volcengine.com/tos

Haga clic en "Lista de cubos", luego en "Crear cubo", rellene la información pertinente para crear un cubo de almacenamiento. En este ejemplo, el nombre del cubo creado es chat2En consecuencia .env Documentos TOS_BUCKET El parámetro debe ajustarse a chat2.

Configuración de la tecnología vocal

Por último, se configura la sección de tecnología de voz. Visita la plataforma de tecnología de voz del Motor Volcano:

https://console.volcengine.com/speech/app

Cree una aplicación y seleccione los servicios "Large Model Speech Synthesis" y "Streaming Speech Recognition Large Model".

Una vez creado, haga clic en cualquier menú de la izquierda para encontrar el ID de APP y el código de acceso a continuación.

Según la documentación oficial del Motor Volcano.

TTS_ACCESS_KEY correspondiente al código de acceso.

TTS_APP_KEY Corresponde al ID de la APP.

https://www.volcengine.com/docs/6561/1329505

Hasta ahora..env La configuración de los archivos ha finalizado. A continuación, debe instalar las dependencias del proyecto y ejecutar el programa.

operación back-end

# 进入后端
cd backend
# 安装 poetry
pip install poetry==1.6.1
# 用 poetry 安装依赖库
poetry install
# 后端启动！
poetry run python index.py

Si la ejecución tiene éxito, el terminal mostrará una salida similar al siguiente mensaje.

funcionamiento del front-end

# 进入前端
cd frontend
# 安装 pnpm
npm install -g pnpm@8
# 利用 pnpm 安装依赖包
pnpm install
# 复制环境变量 .env 文件
cp ../.env ./
# 前端启动！
pnpm dev

Si la ejecución tiene éxito, el terminal mostrará una salida similar al siguiente mensaje.

Una vez que haya completado los pasos anteriores, puede visitar en su navegador http://localhost:8080/ Empieza a utilizar el Generador de vídeos interactivos bilingües.

Arquitectura del proyecto y resultados de las pruebas

A continuación se muestra la arquitectura general del proceso del proyecto:

Los resultados de las pruebas muestran que el "Generador de Vídeo Bilingüe Interactivo" permite a los usuarios generar vídeos de un minuto de duración con un solo clic, lo que resulta extremadamente fácil y eficaz de manejar. Los usuarios no necesitan realizar complicados ajustes de parámetros, sólo introducir los requisitos del vídeo, y pueden generar rápidamente trabajos de vídeo largos que cumplan los requisitos, mejorando así enormemente la eficiencia de la creación.

Los vídeos generados son de alta calidad, con gráficos claros y fluidos y un argumento coherente y natural. Además, la aplicación permite preguntas y respuestas interactivas con los usuarios sobre el contenido del vídeo.

Aplicar el código abierto: un paso clave para poner en marcha grandes modelos

a través de (un hueco) Coze La aplicación de plantillas de la plataforma al lanzamiento del laboratorio de código abierto de aplicaciones de IA del Arca de Volcán no sólo representa la ampliación de la solución de código bajo a código alto, sino que también marca la evolución del escenario de aplicación de la generalidad a la personalización profunda.

En la ola de aplicación de la tecnología de grandes modelos, la importancia estratégica del código abierto de la aplicación va incluso más allá del propio código abierto del modelo. Es cierto que un modelo potente es el motor de la aplicación de IA, pero cómo integrar eficazmente la capacidad del modelo en escenarios empresariales reales es la clave para promover el aterrizaje de la aplicación de IA y, en última instancia, mejorar la capacidad empresarial.

Volcano Engine Open Source AI Lab proporciona SDKs y prototipos de aplicaciones de IA de código abierto y alto contenido de código, que rellenan con precisión el "último kilómetro" para el aterrizaje de aplicaciones de IA. Las aplicaciones de IA de código abierto proporcionan una solución rápida de puesta en marcha para las empresas.

Aunque muchas empresas reconocen el enorme potencial de los grandes modelos y entienden cómo aplicarlos a sus escenarios empresariales desde un nivel teórico, todavía se enfrentan a muchos obstáculos en la operación real. La aparición de aplicaciones prototipo de IA de código abierto permite a los desarrolladores empresariales aprender rápidamente y crear y ampliar aplicaciones de IA que satisfagan sus necesidades empresariales sin tener que empezar desde cero para averiguar el complejo proceso de acoplamiento de modelos y desarrollo de aplicaciones, lo que reduce significativamente los costes de ensayo y error, los costes de tiempo y los costes de mano de obra.

Para la mayoría de los entusiastas de la tecnología de IA y los desarrolladores, cuando se involucran por primera vez en el campo del desarrollo de aplicaciones de IA, a menudo entran en contacto con marcos altamente encapsulados con un alto grado de abstracción, como LangChain. LangChain marco en el dominio experto, de hecho, puede mejorar significativamente la eficiencia del desarrollo, pero su gran número de azúcar sintáctico y conceptos abstractos, sino también a los principiantes a traer un umbral de aprendizaje más alto. Por el contrario, Arkitect, el SDK de Python proporcionado por Volcano Engine, es mucho más fácil de empezar, y su cadena de herramientas y el proceso de desarrollo son más intuitivos. Además, la Demo oficial también proporciona un detallado diagrama de arquitectura técnica y detalles de implementación, lo cual es conveniente para que los desarrolladores lo entiendan en profundidad.

El lanzamiento del Laboratorio de Aplicaciones de IA del Arca de Volcán proporciona sin duda una potente plataforma de desarrollo de aplicaciones de IA para empresas y desarrolladores. Es especialmente encomiable que su estrategia de código abierto haya rebajado el umbral de desarrollo de aplicaciones de IA y acelerado el proceso de aterrizaje de la tecnología de grandes modelos en diversas industrias. Con la aparición de más aplicaciones de código abierto, tenemos motivos para creer que la tecnología de IA se integrará realmente en miles de industrias y liberará un mayor potencial.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

El modelo Grok (xAI) de Musk, en beta pública, regala 25 dólares al mes en API gratuitas

Noticias AI # Libre Modelo Grande API

hace 1 año

062.4K

Conch voz lanzamiento nacional, puede ser los mejores productos chinos de doblaje de voz

Noticias AI

hace 1 año

047.9K

Modelo multimodal de chino tradicional de código abierto de MediaTek y modelo de síntesis del habla con acento de Taiwán

Noticias AI

hace 1 año

039.8K

RooCline超越Cline v3.1 ？看看RooCline到底哪里不一样！

¿RooCline más allá de Cline v3.1? Descubra las novedades de RooCline.

Noticias AI

hace 1 año

064.9K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Volcano Ark lanza Big Model Application Lab: plantillas de aplicaciones industriales de código abierto para acelerar el aterrizaje de la IA empresarial

Generador de vídeo bilingüe interactivo: un nuevo paradigma para la animación educativa con IA

Guía de implantación rápida

Apertura y configuración del servicio Volcano Ark

Configuración del cubo de almacenamiento del TOS

Control de acceso al motor Volcano

Configuración del almacenamiento de objetos

Configuración de la tecnología vocal

operación back-end

funcionamiento del front-end

Arquitectura del proyecto y resultados de las pruebas

Aplicar el código abierto: un paso clave para poner en marcha grandes modelos

Perplejidad y Writer, entre otros, lideran la nueva oleada de inversiones mientras los desarrolladores de modelos base vuelven a las valoraciones racionales

Baidu lanza la APP "moon box" de perfil bajo

Artículos relacionados

El modelo Grok (xAI) de Musk, en beta pública, regala 25 dólares al mes en API gratuitas

Conch voz lanzamiento nacional, puede ser los mejores productos chinos de doblaje de voz

Modelo multimodal de chino tradicional de código abierto de MediaTek y modelo de síntesis del habla con acento de Taiwán

¿RooCline más allá de Cline v3.1? Descubra las novedades de RooCline.

Sin comentarios

Últimas colecciones

Últimos artículos

Volcano Ark lanza Big Model Application Lab: plantillas de aplicaciones industriales de código abierto para acelerar el aterrizaje de la IA empresarial

Generador de vídeo bilingüe interactivo: un nuevo paradigma para la animación educativa con IA

Guía de implantación rápida

Apertura y configuración del servicio Volcano Ark

Configuración del cubo de almacenamiento del TOS

Control de acceso al motor Volcano

Configuración del almacenamiento de objetos

Configuración de la tecnología vocal

operación back-end

funcionamiento del front-end

Arquitectura del proyecto y resultados de las pruebas

Aplicar el código abierto: un paso clave para poner en marcha grandes modelos

Perplejidad y Writer, entre otros, lideran la nueva oleada de inversiones mientras los desarrolladores de modelos base vuelven a las valoraciones racionales

Baidu lanza la APP "moon box" de perfil bajo

Artículos relacionados

El modelo Grok (xAI) de Musk, en beta pública, regala 25 dólares al mes en API gratuitas

Conch voz lanzamiento nacional, puede ser los mejores productos chinos de doblaje de voz

Modelo multimodal de chino tradicional de código abierto de MediaTek y modelo de síntesis del habla con acento de Taiwán

¿RooCline más allá de Cline v3.1? Descubra las novedades de RooCline.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos