Introdução geral
O Kats é um kit de ferramentas de código aberto desenvolvido por uma equipe de pesquisadores da Meta (antiga Facebook) e projetado para análise de séries temporais. O Kats oferece uma estrutura leve e fácil de usar que abrange funcionalidades que vão desde a análise estatística básica até a modelagem preditiva sofisticada, a detecção de anomalias e a extração de recursos. Seja você um cientista de dados ou um engenheiro, o Kats pode ajudá-lo a processar e obter insights sobre dados de séries temporais com mais eficiência. Ele não apenas oferece suporte a uma ampla variedade de modelos, mas também fornece tutoriais e exemplos avançados para ajudar os usuários a começar rapidamente.
Lista de funções
- Análise de dados de séries temporaisAnálise e compreensão das características estatísticas básicas: Fornecer compreensão e análise das características estatísticas básicas.
- Detecção de ponto de mudançaIdentificação de pontos de alteração em dados de séries temporais.
- detecção de anomaliasDetectar outliers em dados de séries temporais.
- Previsões de tendênciasUso de vários modelos para prever tendências futuras.
- Extração e incorporação de recursosExtrair recursos úteis de dados de séries temporais.
- análise multivariadaSuporte para a análise de dados de séries temporais multivariadas.
Usando a Ajuda
Processo de instalação
O Kats pode ser instalado por meio do PyPI. Aqui estão as etapas detalhadas de instalação:
- Atualizar pip:
pip install --upgrade pip
- Instalar Kats:
pip install kats
- Se você precisar apenas de alguns dos recursos do Kats, poderá instalar a versão lite:
MINIMAL_KATS=1 pip install kats
Diretrizes para uso
Análise de dados de séries temporais
- Importar as bibliotecas e os dados necessários:
importar pandas como pd
from kats.consts import TimeSeriesData
from kats.models.prophet import ProphetModel, ProphetParams
# Ler os dados
air_passengers_df = pd.read_csv("path/to/air_passengers.csv", header=0, names=["time", "passengers"])
air_passengers_ts = TimeSeriesData(air_passengers_df)
- Criar e treinar modelos preditivos:
params = ProphetParams(seasonality_mode='multiplicative')
model = ProphetModel(air_passengers_ts, params)
model.fit()
- Faça previsões:
forecast = model.predict(steps=30, freq="MS")
Detecção de ponto de mudança
- Introdução de algoritmos de detecção de pontos de alteração:
from kats.detectors.cusum_detection import CUSUMDetector
# Simular dados de séries temporais
df_increase = pd.DataFrame({'time': pd.date_range('2019-01-01', '2019-03-01'), 'value': np.random.randn(60).cusum()})
ts = TimeSeriesData(df_increase)
# Realizar detecção de ponto de alteração
detector = CUSUMDetector(ts)
change_points = detector.detector()
detecção de anomalias
- Importar algoritmos de detecção de anomalias:
from kats.detectors.bocpd import BOCPDetector
Detecção de anomalias no # usando dados simulados
detector = BOCPDetector(ts)
anomalias = detector.detector()
Recomendações de uso
- Pré-processamento de dados: certifique-se de que seus dados de série temporal estejam limpos e lide com quaisquer valores ausentes ou discrepantes para melhorar a precisão de suas análises.
- Seleção do modelo: escolha o modelo certo de acordo com as características dos seus dados. O kats fornece vários modelos e você pode encontrar o mais adequado por meio de experimentos.
- Visualização: use os recursos de visualização incorporados do Kats para entender os padrões de dados e o desempenho do modelo, o que é útil ao analisar e relatar resultados.
- Avaliação de desempenho: avalie o desempenho de diferentes modelos e selecione os melhores hiperparâmetros antes de aplicar o modelo.
Tratamento de problemas comuns
- Problemas de instalação: se você encontrar conflitos de dependência durante a instalação, tente instalar em um ambiente virtual ou consulte as perguntas frequentes na página oficial do GitHub do Kats.
- Problemas de formato de dados: se o formato de seus dados for diferente do esperado pelo Kats, isso poderá resultar em um erro. Verifique se os nomes das colunas de dados estão corretos e se os tipos de dados estão de acordo com o exigido.
- Problemas de desempenho: para conjuntos de dados em grande escala, considere a amostragem de dados ou use modelos mais eficientes para reduzir o tempo de computação.