综合介绍
知识表(Knowledge Table)是一个开源项目,旨在简化从非结构化文档中提取和探索结构化数据的过程。用户可以通过自然语言查询接口创建结构化的知识表示,如表格和图形。该工具支持自定义提取规则和格式选项,并通过用户界面显示数据来源,确保数据的可追溯性。知识表为商业用户提供了熟悉的电子表格界面,同时为开发者提供了灵活且高度可配置的后端,适用于各种数据处理需求。
功能列表
- 自然语言提取:支持使用自然语言查询从非结构化文档中提取结构化数据。
- 自定义提取规则:用户可以定义提取规则,以确保数据质量。
- 格式控制:可控制提取数据的输出格式。
- 文档过滤:根据元数据或提取的数据过滤文档。
- CSV或图三元组导出:支持将提取的数据下载为CSV或图三元组格式。
- 链式提取:允许在提问中引用之前的列。
使用帮助
安装与运行
- Docker运行:
- 确保已安装Docker和Docker Compose。
- 使用命令
docker-compose up -d --build
启动应用。 - 访问前端
http://localhost:3000
和后端http://localhost:8000
。
- 本地运行:
- 克隆代码库:
git clone https://github.com/yourusername/knowledge-table.git
- 进入后端目录并创建虚拟环境:
cd knowledge-table/backend/ python3 -m venv venv source venv/bin/activate # Windows使用 venv\Scripts\activate pip install -r requirements.txt
- 启动后端服务:
cd src/ python -m uvicorn knowledge_table_api.main:app
- 克隆代码库:
- 前端设置:
- 进入前端目录并安装依赖:
cd ../frontend/ curl https://bun.sh/install | bash # 安装Bun bun install bun start
- 前端服务可在
http://localhost:5173
访问。
- 进入前端目录并安装依赖:
使用流程
- 上传文档:将非结构化文档上传到知识表,系统会将其分割成多个块,并存储在向量数据库中。
- 设置问题与规则:定义要提取的数据类型和相应的问题,系统将根据这些信息进行处理。
- 查看结果:完成数据处理后,用户可以查看结构化输出,并根据需要进行调整。
注意事项
- 确保遵循相关法律法规,避免侵犯他人权益。
- 定期验证提取的数据,以确保其准确性和时效性。