Danswer : un assistant IA pour la gestion des connaissances et la recherche documentaire en entreprise, intégrant de multiples outils de travail

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

33.2K 00

Introduction générale

Danswer est un assistant IA de recherche documentaire d'entreprise open source conçu pour se connecter aux documents, applications et personnes d'une équipe afin de fournir une recherche unifiée et des réponses aux requêtes en langage naturel par le biais d'une interface de chat intelligente et de capacités de recherche unifiée. Il garantit que les données de l'utilisateur et les journaux de discussion sont entièrement contrôlés par l'utilisateur. Sa conception modulaire et son évolutivité facile en font un outil idéal pour la gestion des connaissances et la collaboration au sein d'une équipe.

Actuellement renommé onyx et a remanié la grande majorité des fonctionnalités.

Liste des fonctions

Interface de chatDialogue avec les documents, sélection de documents spécifiques avec lesquels interagir.
Assistant IA personnaliséLes assistants d'intelligence artificielle : créer des assistants d'intelligence artificielle dotés de différents conseils et de bases de connaissances.
Recherche de documents: Permet de rechercher des documents et de répondre à des questions en langage naturel par l'IA.
Connecteurs multiplesLes outils de travail courants tels que Google Drive, Confluence, Slack et bien d'autres sont pris en charge.
Intégration de SlackLes résultats de la recherche et les réponses aux questions sont directement accessibles dans Slack.
l'authentification de l'utilisateurGestion de l'accès au niveau des documents : permet de gérer l'accès au niveau des documents.
Gestion des rôlesLa gestion des rôles pour les administrateurs et les utilisateurs habituels est prise en charge.
Persistance du journal de bordLes services d'aide à l'enfance et à la famille : Sauvegarder les journaux de conversation pour les demandes de renseignements complémentaires.
Configuration de l'interface utilisateurInterface utilisateur : fournit une interface utilisateur pour configurer les assistants et les messages d'aide de l'IA.
soutien multimodalSupport pour le dialogue avec les images, les vidéos, etc.
Invocation de l'outil et configuration du proxyLe système d'appel d'outils et les options de configuration de l'agent (prévu).

Utiliser l'aide

Processus d'installation

déploiement local: :
- Téléchargez et installez Docker.
- Cloner le dépôt GitHub de Danswer.
- Naviguez dans le répertoire du projet dans le terminal et exécutezdocker-compose upCommandement.
- Ouvrez votre navigateur et visitezhttp://localhost:8000a commencé à utiliser Danswer.
Déploiement dans le nuage: :
- Installer Docker sur la machine virtuelle.
- Cloner le dépôt GitHub de Danswer.
- Naviguez dans le répertoire du projet dans le terminal et exécutezdocker-compose upCommandement.
- Configurez le nom de domaine et le certificat SSL pour garantir un accès sécurisé.
Déploiement de Kubernetes: :
- Installer et configurer un cluster Kubernetes.
- Cloner le dépôt GitHub de Danswer.
- Trouvez le fichier de déploiement Kubernetes dans le répertoire du projet et exécutez la commande kubectl appropriée pour le déployer.

Lignes directrices pour l'utilisation

Interface de chat: :
- Ouvrez l'application web Danswer, connectez-vous et accédez à l'écran de discussion.
- Sélectionnez le document avec lequel vous souhaitez dialoguer, saisissez une question en langage naturel et Danswer vous fournira la réponse appropriée.
Assistant IA personnalisé: :
- Dans l'interface administrateur, créez un nouvel assistant AI.
- Configurez les conseils et la base de connaissances de l'assistant et enregistrez les paramètres.
- Sélectionnez différents assistants d'intelligence artificielle avec lesquels parler dans l'écran de discussion.
Recherche de documents: :
- Saisissez une requête en langage naturel dans la barre de recherche et Danswer vous renverra des documents pertinents et des réponses générées par l'IA.
- Permet de filtrer et de trier les résultats de la recherche afin de trouver rapidement les informations dont vous avez besoin.
Intégration de Slack: :
- Installez l'application Danswer dans Slack.
- Configurer la connexion de Danswer à Slack pour autoriser l'accès aux canaux pertinents.
- Saisissez une requête directement dans Slack et Danswer vous renverra les résultats de la recherche et les réponses.
Authentification des utilisateurs et gestion des rôles: :
- Ajouter et gérer des utilisateurs dans l'interface administrateur.
- Configurer les droits d'accès et les rôles des utilisateurs pour garantir la sécurité des données.
Persistance du journal de bord: :
- Tous les chats sont sauvegardés automatiquement et les utilisateurs peuvent consulter l'historique à tout moment.
- Prise en charge de la recherche et du filtrage des journaux de discussion, ce qui permet de retrouver facilement les conversations passées.

Fonctions vedettes

Recherche efficace: Combinaison des modèles d'intégration BM-25 et de préfixe pour fournir une expérience de recherche hybride optimale.
Modèles personnalisésLa technologie de l'apprentissage profond : elle prend en charge les modèles d'apprentissage profond personnalisés et l'apprentissage à partir du retour d'information des utilisateurs.
Options de déploiement multiplesLe système de gestion de l'information de l'entreprise : prend en charge les déploiements locaux, dans le nuage et Kubernetes, en s'adaptant de manière flexible aux besoins d'équipes de différentes tailles.
soutien multimodalLes versions futures permettront de dialoguer avec des images, des vidéos, etc. afin d'améliorer l'expérience de l'utilisateur.
Invocation de l'outil et configuration du proxyLe système de gestion de l'information (SGI) : Il offre des options flexibles d'invocation de l'outil et de configuration de l'agent afin de répondre aux besoins des différentes équipes.
Compréhension de l'organisation et conseils d'expertsDanswer sera en mesure de reconnaître les experts au sein de l'équipe et de fournir des conseils pertinents afin d'améliorer la collaboration au sein de l'équipe.

Vue d'ensemble du système

Explication des différents composants et processus du système

Cette page présente le fonctionnement de Danswer à un niveau élevé. L'objectif est de rendre notre conception plus transparente. Vous pourrez ainsi utiliser Danswer en toute confiance.

Si vous souhaitez personnaliser le système ou devenir un contributeur open source, c'est un excellent point de départ.

architecture du système

Que Danswer soit déployé sur une instance unique ou sur une plateforme d'orchestration de conteneurs, le flux de données est le même. Les documents sont extraits et traités par des connecteurs, puis stockés de manière persistante dans Vespa/Postgres, qui s'exécute dans des conteneurs système.

Les données sensibles ne quittent votre installation Danswer que lorsqu'elle appelle LLM pour générer une réponse. La persistance des données sur l'API LLM dépend des conditions du service d'hébergement LLM que vous utilisez.

Nous notons également que Danswer dispose de quelques données télémétriques très limitées et anonymes, qui nous aident à améliorer le système en identifiant les goulets d'étranglement et les connecteurs de données peu fiables. Vous pouvez désactiver la télémétrie en définissant la variable d'environnement DISABLE_TELEMETRY sur True.

flux intégré

Chaque document est divisé en parties plus petites appelées "chunks".

En transmettant des blocs au LLM au lieu du document complet, nous sommes en mesure de réduire le bruit dans le modèle en ne transmettant que les parties pertinentes du document. En outre, cela améliore considérablement le rapport coût-efficacité, étant donné que les services LLM sont généralement facturés par jeton. Enfin, en incorporant des blocs au lieu de documents complets, nous pouvons conserver plus de détails puisque chaque vecteur incorporé ne peut encoder qu'une quantité limitée d'informations.

L'ajout de microblocs approfondit encore ce concept. En intégrant des blocs de tailles différentes, Danswer peut récupérer le contexte et les détails de haut niveau. Les microblocs peuvent également être activés ou désactivés au moyen de variables d'environnement, car la génération de plusieurs vecteurs par bloc peut ralentir l'indexation des documents en cas de faibles performances matérielles.

Pour choisir notre modèle d'intégration, nous utilisons le dernier codeur double de pointe, qui est suffisamment petit pour fonctionner sur une unité centrale tout en conservant des temps de recherche de documents inférieurs à la seconde.

Procédure de demande de renseignements

Ce flux est typiquement mis à jour car nous nous efforçons continuellement de pousser les capacités du pipeline d'extraction pour tirer profit des dernières avancées des communautés de recherche et open source. Notez également que de nombreux paramètres de ce flux, tels que le nombre de documents à extraire, le nombre de documents à réorganiser, les modèles à utiliser, les blocs à transmettre à LLM, etc. sont configurables.