La vie d'une data chez Wuha

Vous vous demandez comment nous traitons vos données, et c'est bien compréhensible... Tout d'abord parce que c'est un sujet sensible tant en terme de sécurité qu'au niveau éthique. Ensuite parce que nous brassons des millions de données, et en particulier les vôtres. Nous ne ferons pas référence ici aux informations relatives à vos données personnelles et en conformité avec le Règlement Général sur la Protection des Données personnelles (RGPD) que vous pouvez consulter dans notre politique de confidentialité. Nous allons par contre vous expliquer comment nous procédons pour vous proposer la meilleure expérience de recherche ! Et pour cela, vous découvrirez comment fonctionne notre Intelligence Artificielle. Par ailleurs, sachez que nous ne prenons pas vos données en otage : vous avez la possibilité de les récupérer et de les supprimer définitivement.

Qu’est-ce que Wuha récupère ?

La solution proposée par Wuha suggère de connecter un certain nombre d'applications, et par conséquent, de collecter une quantité notable de données. L'objectif étant de vous permettre de vous restituer la meilleure information parmi diverses sources, Wuha doit donc avoir accès aux données contenues dans ces applications.
Le type de données récupérées lors de la connexion d'une application est inhérent à la nature même cette application. Connecter Wuha à :

  • Des applications de stockage (Google Drive, Dropbox, Box, Ordinateur...) vous donnera un accès facile à vos documents en recherchant par le biais de leur:
    • nom et contenu
    • date de création ou de modification
    • format (pdf, docx, pptx...)
    • auteurs & contributeurs
  • Des applications de messagerie (Microsoft Outlook, Gmail, Slack...) vous permettra de retrouver les emails et pièces jointes les plus pertinents en recherchant grâce :
    • au sujet, étiquette ou au contenu de l'email et de la pièce jointe
    • au format de la pièce jointe (pdf, docx, pptx...)
    • à la date à laquelle le mail a été envoyé ou reçu
    • à l'adresse email de l'expéditeur, du destinataire ou d'autres contacts de la chaîne d'échange de mail

Vous avez le pouvoir !

Pas de panique, vos données sont en sécurité et vous gardez le contrôle total sur vos data. Vous pouvez :

  • déconnecter une application : l'application est automatiquement supprimée de Wuha et ses données désindexées.
  • supprimer un document, un email ou autre : la synchronisation de notre API met immédiatement à jour vos données dans Wuha et efface de nos bases de données l'élément en question.
  • télécharger vos données personnelles : Dans Mon compte > Confidentialité > Télécharger vos données
  • supprimer vos données : il s'agit tant de vos données personnelles que des documents indexés lors de la connexion de vos applications à Wuha.
  • supprimer définitivement votre compte

Wuha respecte par ailleurs les autorisations d'accès aux applications que vous connectez. Ainsi dès lors que vous perdez l'accès à un document sur Google Drive par exemple, cela se met immédiatement à jour dans l'API Wuha. Toute la confidentialité des informations entre équipes notamment est ainsi préservée.

Vos données pour le meilleur des résultats

Vos data transitent chiffrées en toute sécurité et permettent à nos data scientists de vous proposer le meilleur des résultats parmi la quantité phénoménale de données dont ils disposent ! Tout le travail de notre équipe repose sur la compréhension du langage naturel. Le NLP (Natural Language Processing ou Traitement automatique du langage naturel en français) permet ainsi de faire le lien entre vos requêtes et le contenu d'un document. Pour cela, le NLP s'articule en "pipeline" : pour absorber la complexité de notre modèle de Machine Learning, nous divisons chaque requête en un enchaînement de plusieurs processes plus simples.
En toute transparence, voici les étapes en question sur lesquelles repose notre IA (Intelligence Artificielle) :

  1. Exploration de l'application que vous connectez (ex: Google Drive)
  2. Extraction brute des données textuelles et enrichissement des documents. Cette étape permet entre autre d'identifier
    • la langue d'un document,
    • le type de document (facture, CV, bon de commande...) grâce à un algorithme de classification entraîné par des techniques d’apprentissage supervisé.
    • la similarité avec les autres documents. Cela nous permet de regrouper à l’affichage ces documents
  3. Indexation. Les données sont envoyées au cluster Elastic Search qui se charge de :
    • Uniformiser les données pour optimiser la recherche
      • répartition des data dans l'index linguistique correspondant
      • suppression des "Stop Words" (le, la, les, le...)
      • retrait des pluriels, genres (masculin/féminin) : il s'agit du process de lemmatisation
      • les apostrophes, les accents sont supprimés
      • passage en minuscule
    • Enrichir les données :
      • détection des dates et des noms/prénoms
      • recherche automatique synonymes et acronymes présent dans le texte
      • identification de groupes nominaux
  4. Traitement de votre requête : Notre système, développé par notre équipe de Data Scientist, s'appuie sur des techniques de Deep Learning pour effectuer sur les requêtes, en une fraction de secondes, une reconnaissance d’entité nommée (en Anglais NER - Named Entity Recognition). C'est en éprouvant ces techniques qu'il nous est ainsi possible d'identifier si cette requête concerne une personne, une date, un lieu, un groupe nominal ou enfin une extension de fichier.

Les algorithmes articulés dans notre pipeline NLP extraient ainsi les meilleures propositions de chaque source connectée. Un dernier traitement par notre IA permet de vous restituer des résultats pertinents: en fonction de votre expérience, Wuha vous soumettra les documents les plus adéquats.