综合介绍
PandasAI是一个基于Python的开源平台,旨在通过自然语言处理技术简化数据分析过程。使用户能够以对话的方式与数据库(如 SQL、CSV、pandas、polars、mongodb、noSQL 等)进行交互。该平台利用大型语言模型(如 GPT-3.5/4、Anthropic、VertexAI)和检索增强生成(RAG)技术,使数据分析变得更加直观和高效,适用于技术和非技术用户。
功能列表
- 自然语言查询:通过自然语言提问,轻松获取数据分析结果。
- 数据可视化:生成图表和图形,直观展示数据。
- 数据清洗:处理缺失值,提升数据质量。
- 特征生成:通过生成新特征,增强数据集。
- 多数据源支持:连接CSV、XLSX、PostgreSQL、MySQL、BigQuery等多种数据源。
- 多模型支持:集成GPT 3.5/4、Anthropic、VertexAI等多种语言模型。
使用帮助
安装流程
- 安装Docker :确保您的机器上已安装Docker。
- 克隆仓库 :运行
git clone https://github.com/Sinaptik-AI/pandas-ai
。 - 构建平台 :进入项目目录并运行
docker-compose build
。 - 启动平台 :运行
docker-compose up
,然后访问http://localhost:3000
。
使用PandasAI库
- 安装库 :
- 使用pip:
pip install pandasai
- 使用poetry:
poetry add pandasai
- 使用pip:
- 导入库 :
import os
import pandas as pd
from pandasai import Agent
- 创建数据框 :
sales_by_country = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
"revenue": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})
- 配置API密钥 :
os.environ["PANDASAI_API_KEY"] = "YOUR_API_KEY"
- 创建Agent并查询 :
agent = Agent(sales_by_country)
response = agent.chat('Which are the top 5 countries by sales?')
print(response)
- 生成图表 :
agent.chat("Plot the histogram of countries showing for each one the gd. Use different colors for each bar")
使用PandasAI平台
- 访问平台 :启动后访问
http://localhost:3000
。 - 上传数据 :通过界面上传CSV或Excel文件。
- 自然语言查询 :在查询框中输入问题,例如“Which are the top 5 countries by sales?”。
- 查看结果 :平台将返回查询结果,并可选择生成相应的图表。
PandasAI 适用于各种数据分析场景,无论是商业分析、学术研究还是个人项目。通过自然语言处理技术,用户可以轻松地从数据中获取有价值的信息,而无需编写复杂的代码。