documentation

    La vie d'une data chez Wuha

    Vous vous demandez comment nous traitons vos données, et c'est plus que compréhensible... Tout d’abord parce que c'est un sujet sensible tant en terme de sécurité qu'au niveau éthique. Ensuite parce que nous travaillons sur des millions de données, et en particulier les vôtres. Nous ne ferons pas référence ici aux informations relatives à vos données personnelles et en conformité avec le Règlement Général sur la Protection des Données personnelles (RGPD) que vous pouvez consulter dans notre politique de confidentialité. Nous allons par contre vous expliquer comment nous procédons pour vous proposer la meilleure expérience de recherche ! Et pour cela, vous découvrirez comment fonctionne notre Intelligence Artificielle. Par ailleurs, sachez que nous ne prenons pas vos données en otage : vous avez la possibilité de les récupérer et de les supprimer définitivement.

    Qu’est-ce que Wuha récupère ?

    La solution proposée par Wuha permet de connecter un certain nombre d'applications, et par conséquent, de collecter une quantité notable de données. L'objectif étant de vous permettre de vous restituer la meilleure information parmi diverses sources, Wuha doit donc avoir accès aux données contenues dans ces applications.

    Le type de données récupéré lors de la connexion d'une application est inhérent à la nature même de cette application. Connecter Wuha à :

    • Des applications de stockage (Google Drive, Dropbox, Box, Ordinateur...), vous donnera un accès facile à vos documents en recherchant par le biais de leur :

      • nom et contenu
      • date de création ou de modification
      • format (pdf, docx, pptx...)
      • auteurs & contributeurs
    • Des applications de messagerie (Microsoft Outlook, Gmail, Slack...) vous permettra de retrouver les emails et pièces jointes les plus pertinents en recherchant grâce :

      • au sujet, à l’étiquette ou au contenu de l'email et de la pièce jointe
      • au format de la pièce jointe (pdf, docx, pptx...)
      • à la date à laquelle l’email a été envoyé ou reçu
      • à l'adresse email de l'expéditeur, du destinataire ou d'autres contacts de la chaîne d'échange d’emails

    Vos données pour le meilleur des résultats

    Vos data transitent chiffrées en toute sécurité et permettent à nos Data Scientists de vous proposer le meilleur des résultats possible parmi la quantité phénoménale de données dont vous disposez ! Tout le travail de notre équipe repose sur la compréhension du langage naturel. Le NLP (Natural Language Processing ou Traitement Automatique du Langage naturel en français) permet ainsi de faire le lien entre vos requêtes et le contenu d'un document. Pour cela, le NLP s'articule en "pipeline" : pour absorber la complexité de notre modèle de Machine Learning, nous divisons chaque requête en un enchaînement de plusieurs traitements plus simples.

    En toute transparence, voici les étapes en question sur lesquelles repose notre IA (Intelligence Artificielle) :

    1. Exploration de l'application que vous connectez (ex: Google Drive)
    2. Extraction brute des données textuelles et enrichissement des documents. Cette étape permet entre autre d'identifier :

      • la langue du document,
      • le type de document (facture, CV, bon de commande...) grâce à un algorithme de classification entraîné par des techniques d’apprentissage supervisé.
      • la similarité avec les autres documents. Cela nous permet de regrouper à l’affichage ces documents
    3. Nettoyage et enrichissement : les données sont envoyées au cluster Elasticsearch qui se charge de :

      • Uniformiser les données pour optimiser la recherche

        • répartition des data dans l'index linguistique correspondant
        • suppression des "Stop Words" (le, la, les, le...)
        • lemmatisation : retrait des pluriels et des genres (masculin/féminin)
        • les apostrophes, les accents sont supprimés
        • passage en minuscule
      • Enrichir les données :

        • détection des dates et des noms/prénoms
        • recherche automatique des synonymes et acronymes présent dans le texte.
        • identification de groupes nominaux
    4. Traitement de votre requête : Notre système, développé par notre équipe de Data Scientists, s'appuie sur des techniques de Deep Learning pour effectuer sur les requêtes, en une fraction de secondes, une reconnaissance d’entités nommées (en Anglais NER - Named Entity Recognition). C'est en éprouvant ces techniques qu'il nous est ainsi possible d'identifier si cette requête concerne une personne, une date, un lieu, un groupe nominal ou enfin une extension de fichier.

    Les algorithmes articulés dans notre pipeline NLP extraient ainsi les meilleures propositions de chaque source connectée. Un dernier traitement par notre IA permet de vous restituer des résultats pertinents : en fonction de votre expérience, Wuha vous soumettra les documents les plus adéquats.

    En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de Cookies pour réaliser des statistiques de visites. En savoir plus