VBDeepSeek : un outil open source pour générer du matériel d'étude de mots pour la 4e année à l'aide de DeepSeek

Dernières ressources sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

Introduction générale

"Vocabulary Book by DeepSeek" est un projet open source développé sur la base du grand modèle de DeepSeek, visant à aider les apprenants d'anglais à maîtriser efficacement le vocabulaire du College English Level 4 (CET-4). Le projet est hébergé sur GitHub, créé par le développeur vxiaozhi, grâce à un script Python combiné aux puissantes capacités de génération de langage de DeepSeek. Il génère automatiquement des supports d'apprentissage du vocabulaire qui contiennent la signification des mots, les mots racines, des phrases d'exemple et des techniques de mémorisation. L'outil organise les mots par ordre alphabétique, a un format de sortie clair, prend en charge le stockage de fichiers JSON et convient aux étudiants, aux enseignants ou aux auto-apprenants. Le code du projet est ouvert et 80% ou plus est automatiquement généré par DeepSeek, reflétant l'application innovante de l'IA dans l'éducation. Que vous prépariez votre 4e année ou que vous amélioriez votre vocabulaire, cet outil offre un soutien pratique à l'apprentissage.

Liste des fonctions

Génération automatique de matériel d'étude de vocabulaire pour la quatrième année d'étudesLe site Web de DeepSeek : Il fait appel à l'interface de DeepSeek pour générer des significations de mots, des analyses de racines, des phrases d'exemple et des conseils de mémorisation.
Stockage alphabétiqueLes mots CET-4 sont divisés en fichiers JSON de A à Z en fonction de la première lettre, ce qui facilite la recherche et la gestion.
Génération d'images utilesLes images mnémoniques : Générer des images mnémoniques liées aux mots par le biais de scripts pour améliorer la mémorisation.
Générateur d'articlesLe site Web de l'Institut d'études de marché (IEM) : Il génère des articles d'apprentissage du vocabulaire au format Markdown commençant par une lettre, adaptés à la rédaction de blogs ou à l'organisation de notes.
Soutien à l'Open SourceLes utilisateurs sont libres de modifier ou d'étendre les fonctionnalités.

Utiliser l'aide

Processus d'installation

"Vocabulary Book by DeepSeek" est un outil basé sur Python qui nécessite un certain environnement de programmation pour fonctionner. Vous trouverez ci-dessous les étapes détaillées de l'installation et de l'utilisation :

1. préparation à l'environnement

Installation de PythonPour ce faire, vous devez vous assurer que Python 3.8 ou supérieur est installé sur votre système. Vous pouvez le télécharger et l'installer à partir du site web de Python.
projet de clonagePour télécharger le projet localement, ouvrez un terminal ou une ligne de commande et entrez la commande suivante :
```
git clone https://github.com/vxiaozhi/vocabulary-book-by-deepseek.git
cd vocabulary-book-by-deepseek
```

Installation des dépendancesLe projet s'appuie sur plusieurs bibliothèques Python, exécutez la commande suivante pour les installer :
```
pip install -r requirements.txt
```
si ce n'est pas le casrequirements.txtLa bibliothèque de base peut être installée manuellement :
```
pip install requests openai pillow
```
Configuration de l'API DeepSeekLa clé de l'API DeepSeek est nécessaire. Après avoir créé un compte DeepSeek, obtenez la clé dans la plateforme DeepSeek et remplissez-la dans la section d'appel API dans le fichier de configuration du projet ou dans le code.

2. utilisation des fonctions principales

Le projet se compose de deux scripts principaux : l'outil d'aide à la rédaction de mots et l'outil d'aide à la génération d'images. Voici le déroulement détaillé des opérations :

(1) Produire des documents d'étude sur les mots

Préparer les données de motsLes projets sont fournis par défautdata/cet4/Fichiers JSON triés par lettres A-Z dans le répertoire (par ex.A.json,B.json). Chaque fichier contient une liste de mots commençant par la lettre correspondante.
Exécution de scripts: :
- Ouvrez un terminal et allez dans le répertoire du projet.
- Exécutez la commande suivante pour générer une analyse de mots :
```
python cet4_word_helper.py
```
- Le script lira ledata/cet4/Les mots de la liste sont utilisés pour générer des significations de mots, des racines, des phrases d'exemple et des conseils de mémoire par le biais de l'API DeepSeek, et les résultats sont sauvegardés dans le fichierresult/cet4/Fichier JSON dans le répertoire (par ex.A.json).

Voir les résultatsExemple de la structure du fichier JSON généré :

{
"word": "abandon",
"meaning": "放弃",
"root": "a-(加强) + bandon(控制)",
"example": "He had to abandon his car in the snow.",
"memory_tip": "想象一个人在雪地里放弃aband控制on车。"
}

(2) Génération d'images mnémoniques

Exécuter le script de génération d'image: :
- Exécutez la commande suivante :
```
python gen_words_img.py
```
- Le script sera basé sur leresult/cet4/Les données du mot dans le script sont utilisées pour générer des images mnémoniques, qui sont enregistrées par défaut dans le répertoire spécifié (vous devez configurer le chemin de sortie dans le script).
Paramètres personnalisésModification de la loi sur la protection des donnéesgen_words_img.pytels que la taille, la résolution ou le style de l'image, afin de s'assurer que les images générées répondent aux exigences.

(3) Générer des articles de vocabulaire

Exécuter le script de génération d'articles: :
- Mise en œuvre :
```
python gen_articles.py
```
- Lecture du texteresult/cet4/dans le fichier JSON, générant 26 fichiers Markdown (tels que le fichier2025-02-11-cet4-A.md), enregistrer surresult/cet4_articles/Catalogue.

format de sortieChaque fichier contient des analyses de mots commençant par des lettres, adaptées à l'apprentissage ou au partage. Exemple :

---
title: "四级词汇-A开头单词"
date: 2025-02-11
---
## abandon
词义：放弃  
词根：a-(加强) + bandon(控制)  
例句：He had to abandon his car in the snow.  
记忆技巧：想象一个人在雪地里放弃aband控制on车。

3. considérations opérationnelles

Sécurité des clés APILes clés de l'API DeepSeek ne doivent pas être codées en dur directement dans les scripts, il est recommandé d'utiliser des variables d'environnement pour les stocker :
```
export DEEPSEEK_API_KEY='你的密钥'
```
connexion au réseauLe script s'appuyant sur l'API DeepSeek, il convient de s'assurer que le réseau est libre au moment de l'exécution du script.
Vérification du chemin d'accès aux fichiersSidata/cet4/peut-êtreresult/cet4/Le répertoire est manquant, vous devez créer manuellement ou ajuster la configuration du chemin d'accès au script.
Fonctionnalité étendueLe code peut être modifié selon les besoins, par exemple pour ajouter la prise en charge des mots de niveau 6 ou pour ajuster le format de sortie.

4) Fonctionnement des caractéristiques spéciales

fichier de lotLes profils de mots : Générer des profils de mots pour toutes les lettres en une seule fois en exécutant le script principal une seule fois.
Mémoire assistée par l'imageLes images des aides générées peuvent être importées dans des notes électroniques ou imprimées pour accompagner l'apprentissage par le texte.
Partage d'articlesLes fichiers Markdown peuvent être utilisés directement pour la publication de blogs ou importés dans des outils tels que Notion pour organiser des notes d'étude.

Repères de mission Cline

Tâche 1

用 Python 写一个 cet4 单词助记工具，对单词进行词义词根分析、例举例句、并提供一些高效的记忆技巧和窍门。 详细需求如下：
1. 单词已经按照字母归类存储在data/cet4/目录下，分别为： A.json B.json ... Z.json
2. 读取每一个 data/cet4/目录下 每个JSON文件中的所有单词，对每个单词调用OpenAI的接口生成该单词的词义、词根、例句、记忆技巧信息。
3. 生成的单词信息保存到 result/cet4/目录下，分别为： A.json B.json ... Z.json

Tâche2

用 Python3.8 写一个单词助记图片生成工具gen_words_img.py， 详细需求如下：
1. 读取每一个 result/cet4/目录下 每个JSON文件中的所有单词信息，每个单词信息包括word、analysis、draw_explain、draw_prompt 4个字段。
2. 对每个单词调用replicate的接口(接口具体实现在provider_replicate.py:replicate_run)生成该单词的图片。
3. 生成的图片文件保存到 result/cet4_imgs/目录下，文件名称格式为：{first_letter_of_word}/{word}.jpg。如果对应图片文件已存在，则跳过本图片文件的生成。
4. 假设所有依赖库已经安装。

Tâche3

用 Python3.8 写一个文章生成工具gen_articles.py， 为26个英文字母各生成一个文件，共26个文件，文件名格式为：2025-02-11-cet4-{letter}.md, 每个文件的内容组成如下：
"""
---
layout:     post
title:      "四级词汇-{letter}开头单词"
subtitle:   "四级词汇-{letter}开头单词"
date:       2025-02-11
author:     "vxiaozhi"
catalog: true
tags:
- english
- cet4
---

{{ for all word begin with letter}}
## word
{word.analysis}
{{end}}
"""
其中 word.analysis 通过读取 result/cet4/{letter}.json 获得，result/cet4/{letter}.json存储了{letter}开头的全部单词的信息，如果result/cet4/{letter}.json 不存在，则跳过该letter对应文件的生成。
更多约束如下：
1、2025-02-11-cet4-{letter}.md 保存到 result/cet4_articles 目录下。
2、Python 使用 3.8 版本。
3、假设所有Python依赖库已经安装。