综合介绍
Story-Flicks 是一个开源的AI工具,专注于帮助用户快速生成高清故事视频。用户只需输入一个故事主题,系统会通过大语言模型生成故事内容,并结合AI生成的图像、音频和字幕,输出完整的视频作品。项目后端基于 Python 和 FastAPI 框架,前端使用 React、Ant Design 和 Vite 搭建。它支持 OpenAI、阿里云、DeepSeek 等多种模型服务商,用户可以灵活选择文本和图像生成模型。无论是创作儿童故事、短篇动画还是教学视频,Story-Flicks 都能轻松满足需求,非常适合开发者、创作者和教育者使用。
功能列表
- 一键生成视频:输入故事主题,自动生成包含图像、文字、音频和字幕的视频。
- 多模型支持:兼容 OpenAI、阿里云、DeepSeek、Ollama 和 SiliconFlow 的文本和图像模型。
- 分段自定义:用户可指定故事段落数,每段生成一张对应图像。
- 多语言输出:支持多种语言的文字和音频生成,适配全球用户。
- 开源部署:提供手动安装和 Docker 部署两种方式,方便本地运行。
- 直观界面:前端页面简单易用,支持参数选择和视频预览。
使用帮助
安装流程
Story-Flicks 提供两种安装方式:手动安装和 Docker 部署。以下是详细步骤,确保用户能顺利搭建环境。
1. 手动安装
步骤 1:下载项目
在终端输入以下命令,将项目克隆到本地:
git clone https://github.com/alecm20/story-flicks.git
步骤 2:配置模型信息
进入后端目录并复制环境配置文件:
cd backend
cp .env.example .env
打开 .env
文件,配置文本和图像生成模型。例如:
text_provider="openai" # 文本生成服务商,可选 openai、aliyun、deepseek 等
image_provider="aliyun" # 图像生成服务商,可选 openai、aliyun 等
openai_api_key="你的OpenAI密钥" # OpenAI 的 API 密钥
aliyun_api_key="你的阿里云密钥" # 阿里云的 API 密钥
text_llm_model="gpt-4o" # 文本模型,如 gpt-4o
image_llm_model="flux-dev" # 图像模型,如 flux-dev
- 如果选择 OpenAI,推荐使用
gpt-4o
作为文本模型,dall-e-3
作为图像模型。 - 如果选择阿里云,推荐使用
qwen-plus
或qwen-max
(文本模型)和flux-dev
(图像模型,当前可免费试用,详情见阿里云文档)。 - 配置完成后保存文件。
步骤 3:启动后端
在终端进入后端目录,创建虚拟环境并安装依赖:
cd backend
conda create -n story-flicks python=3.10 # 创建 Python 3.10 环境
conda activate story-flicks # 激活环境
pip install -r requirements.txt # 安装依赖
uvicorn main:app --reload # 启动后端服务
启动成功后,终端会显示:
INFO: Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO: Application startup complete.
这表示后端服务已运行在 http://127.0.0.1:8000
。
步骤 4:启动前端
在新终端中进入前端目录,安装依赖并运行:
cd frontend
npm install # 安装前端依赖
npm run dev # 启动前端服务
启动成功后,终端显示:
VITE v6.0.7 ready in 199 ms
➜ Local: http://localhost:5173/
在浏览器访问 http://localhost:5173/
,即可看到前端界面。
2. Docker 部署
步骤 1:准备环境
确保本地已安装 Docker 和 Docker Compose。如果未安装,可从官方网站下载。
步骤 2:启动项目
在项目根目录运行:
docker-compose up --build
Docker 会自动构建并启动前后端服务。完成后,访问 http://localhost:5173/
查看前端页面。
使用方法
安装完成后,用户可以通过前端界面生成故事视频。以下是具体操作流程:
1. 访问前端界面
在浏览器输入 http://localhost:5173/
,打开 Story-Flicks 主页面。
2. 设置生成参数
界面提供以下选项:
- 文本生成模型提供商:选择
openai
、aliyun
等。 - 图像生成模型提供商:选择
openai
、aliyun
等。 - 文本模型:输入模型名称,如
gpt-4o
或qwen-plus
。 - 图像模型:输入模型名称,如
flux-dev
或dall-e-3
。 - 视频语言:选择语言,如中文或英文。
- 语音类型:选择音频风格,如男声或女声。
- 故事主题:输入主题,例如“兔子和狐狸的冒险”。
- 故事段落数:输入数字(如 3),每段对应一张图像。
3. 生成视频
填写参数后,点击“Generate”按钮。系统会根据设置生成视频。生成时间与段落数相关,段落越多耗时越长。完成后,视频会显示在页面上,支持播放和下载。
注意事项
- 如果生成失败,检查
.env
文件中的 API 密钥是否正确,或确认网络连接是否正常。 - 使用 Ollama 时,需设置
ollama_api_key="ollama"
,推荐使用qwen2.5:14b
或更大模型,小模型可能效果不佳。 - SiliconFlow 的图像模型目前仅测试过
black-forest-labs/FLUX.1-dev
,确保选择兼容模型。
特色功能操作
一键生成完整视频
在界面输入“狼和兔子的故事”,设置 3 段,点击“Generate”。几分钟后,你会得到一个包含 3 张图像、配音和字幕的视频。例如,官方演示视频展示了“兔子和狐狸”以及“狼和兔子”的故事。
多语言支持
想生成英文视频?将“视频语言”设为“English”,系统会生成英文文字、音频和字幕。切换其他语言同样简单。
自定义分段
需要更长的故事?将段落数设为 5 或更多。每段都会生成一张新图像,故事内容也会相应扩展。
通过以上步骤,用户可以轻松安装并使用 Story-Flicks,快速创作高清故事视频。无论是个人娱乐还是教育用途,这个工具都能帮你实现创意!