综合介绍
Supametas.AI 是一个数据处理平台,专门把网页、文档、音视频等杂乱信息整理成AI能用的结构化数据。它支持从多个来源收集数据,包括网页链接、API、本地文件等,然后输出为 JSON 或 Markdown 格式。平台无需编程经验,普通人也能快速上手。它的核心优势是将传统需要数月的数据处理时间缩短到30分钟,特别适合企业和开发者构建AI知识库(LLM RAG)。Supametas.AI 提供云服务和即将推出的私有化部署,满足不同用户的需求。
功能列表
- 多源数据收集:支持网页URL、API接口、本地文件(PDF、Word、图片、音频、视频)的数据提取。
- 结构化输出:将无序数据转为 JSON 或 Markdown,适配AI模型。
- 知识库集成:对接 OpenAI Storage、Dify Datasets,或通过API自定义集成。
- 自然语言提取:用简单语言提示提取字段,比如“抓取标题和正文”。
- 复杂网页抓取:自动处理列表页、分页、多层页面,支持定时更新。
- 大文件处理:支持数百MB的文件,比如长文档或高清视频。
- 音视频处理:提取时间轴、字幕、对话等内容。
- 无代码界面:操作简单,不需要技术背景。
- 数据隐私:提供云服务和Docker私有部署选项。
使用帮助
Supametas.AI 不需要安装复杂软件,直接在网页上操作即可。下面详细介绍如何使用它的核心功能,帮助用户快速上手。
注册与登录
- 打开
https://supametas.ai/zh
,点击“开始使用”(Get Started)。 - 用邮箱注册,或选择 Google 账号登录。
- 注册后进入免费试用模式,包含基本功能和少量资源。
数据收集与处理
网页抓取
- 登录后,点击“新建数据集”(New Dataset)。
- 选择“URL”数据源,输入目标网页,比如
https://example.com/blog
。 - 设置抓取参数:
- “深度”(Depth Value):设为 3 可抓取三级页面。
- “循环时间”(Loop Time Value):设为 24 表示每天更新。
- 点击“开始处理”(Start Processing),系统自动提取标题、正文等。
- 处理完成后,点击“导出”(Export),选择 JSON 或 Markdown 下载。
本地文件处理
- 在“新建数据集”页面,选“本地文件”(Local File)。
- 点击“上传文件”(Upload File),支持拖拽或选择文件。
- 支持格式包括:
- 文档:
.docx
、.pdf
、.txt
- 图片:
.jpg
、.png
- 音视频:
.mp3
、.mp4
、.mov
- 文档:
- 上传后,系统自动提取内容。比如 PDF 会提取段落,MP3 会转录文字。
- 检查结果,点击“导出”保存。
API 数据拉取
- 选择“API”数据源。
- 输入 API 配置,例如:
{
"contentUrl": "https://api.example.com/data",
"getDemandFormat": "json",
"customKeys": [{"key": "category", "desc": "分类"}]
}
- 点击“测试”(Test),确保数据正常返回。
- 测试通过后,点击“开始处理”,生成结构化数据。
集成知识库
- 处理完数据后,点击“集成”(Integrate)。
- 选择目标平台,如 OpenAI Storage 或 Dify Datasets。
- 输入平台的 API 密钥(在目标平台生成)。
- 点击“连接”(Connect),数据自动上传。
- 自定义集成时,复制平台提供的 API 代码到你的项目。
定时任务设置
- 在数据集页面,点击“设置”(Settings)。
- 选择“定时更新”(Schedule Update),设为每 24 小时。
- 保存后,系统会在后台自动抓取和处理数据。
特色功能操作
音视频提取
- 上传
.mp4
文件。 - 系统生成时间轴和对话文本,比如“00:01 - 你好”。
- 预览结果后导出,适合数字人或播客数据处理。
自然语言字段提取
- 在抓取设置中,输入提示,比如“提取文章标题和日期”。
- 系统根据提示自动识别并整理字段。
处理大文件
- 上传数百MB的 PDF 或视频。
- 系统分段处理,完成后提供完整结构化数据。
注意事项
- 免费版限制数据集数量和处理容量,升级付费版可解锁更多资源。
- 大文件或复杂任务可能需要更多 Token,可绑定外部模型(如 OpenAI)。
- 在“任务管理”(Task Manager)中可查看进度或中止任务。
- 私有部署版(Docker)正在开发,适合企业用户。
Supametas.AI 的界面友好,每个步骤都有引导。建议先用免费版试用,熟悉后再根据需求升级。
应用场景
- 企业知识库构建
金融公司可以用它抓取法规网页和PDF,整理成结构化数据,喂给AI分析。 - 数字人开发
上传音视频素材,提取对话和时间轴,生成训练数据集。 - 电商数据管理
定时抓取商品列表和详情,整理成JSON,优化库存分析。
QA
- 免费版有哪些限制?
免费版没有时间限制,但数据集数量和处理容量有限,适合试用。 - 支持多大的文件?
可处理数百MB的文件,如长篇文档或高清视频。 - 如何保证数据隐私?
云服务加密传输,Docker 私有部署版让数据完全本地化。