Introdução geral
O MediaCrawler é uma ferramenta de rastreamento de conteúdo de mídia social criada para desenvolvedores. Ao fornecer uma função de rastreamento avançada, ela pode obter rapidamente vídeos, imagens, comentários, curtidas, retweets e outros dados de plataformas sociais como Xiaohongshu, Jieyin, Shutterbug, B-station, Weibo e assim por diante. Essa ferramenta usa o Playwright como uma ponte, preservando o ambiente do navegador após o login e obtendo parâmetros criptografados por meio da execução de expressões JS, simplificando assim a dificuldade da engenharia reversa complexa.
Apenas para uso profissional, observe que a coleta de dados precisa ser realizada dentro do escopo da autorização.
Lista de funções
Suporte a plataformas como Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo, etc.
Fornecer login por cookie, login por código QR, login por número de celular e outros métodos
Suporte à pesquisa de palavras-chave e à função de rastreamento de ID de vídeo/post especificado
Suporte a cache de estado de login e pool de proxy IP
Fornecer soluções de CAPTCHA com controle deslizante (algumas plataformas)
terraço | Pesquisa de palavras-chave | Especifique o ID do post a ser rastreado | Comentários secundários | Página inicial do Criador Designado | Cache de estado de login | Pool de proxy IP | Gerar nuvens de palavras de comentários |
---|---|---|---|---|---|---|---|
Little Red Book (site de rede social) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
jitterbug | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
violino | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Estação B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
microblog | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
quadro de mensagens eletrônicas | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Usando a Ajuda
Criar e ativar um ambiente virtual Python
Instale as dependências: use o comando `pip install -r requirements.txt`.
Para instalar o driver do navegador Playwright: use o comando `playwright install`.
Para executar o rastreador: use um argumento de linha de comando, como `python main.py --platform xhs --lt qrcode --type search`.
Use `python main.py --help` para ver exemplos de rastreadores para outras plataformas.
Verifique a estrutura do código do projeto e responda a mais perguntas no repositório do GitHub.