Aller au contenu principal

Enquêtes assistées par la technologie

Rejoignez-nous pour un voyage dans le monde des enquêtes assistées par la technologie, où nous utilisons les dernières technologies pour analyser des ensembles de données de millions de documents en quelques semaines afin de distinguer le signal du bruit et d'identifier les faits qui comptent.

Nous prenons l'exemple d'un de nos clients, une entreprise internationale dont le siège est en Suisse et qui a été accusée de comportement anticoncurrentiel par une autorité étrangère. Cette entreprise nous a demandé d'aider son conseiller juridique externe à répondre aux allégations en menant une enquête et en identifiant les faits essentiels à partir des données des courriels des principales personnes concernées. Après avoir reçu un ensemble de données comprenant environ 1 million d'e-mails et de pièces jointes, Deloitte a utilisé des techniques de traitement du langage naturel (NLP) pour identifier rapidement des preuves clés dans un grand volume de contenu généré par l'utilisateur. Grâce à la technologie, Deloitte a pu le faire rapidement, efficacement et à moindre coût par rapport aux méthodes traditionnelles.

L'analyse de texte par la linguistique informatique

 

Les enquêtes modernes impliquent généralement de très grands volumes de données textuelles. La plupart des données textuelles sont aujourd'hui sous forme électronique et le processus d'identification des preuves dans les informations stockées électroniquement (ESI) est connu sous le nom d'E-Discovery. Le plus grand défi auquel sont confrontés les praticiens de l'E-Discovery est d'analyser et d'examiner de grands volumes de données textuelles de manière satisfaisante, tout en respectant des délais et des coûts raisonnables et proportionnés.

Les approches d'investigation assistées par la technologie et basées sur des concepts tels que le NLP jouent un rôle crucial dans l'amélioration de la rapidité, de la qualité et de la réduction des coûts. Le NLP est une discipline à l'intersection de la linguistique et de l'informatique et concerne le traitement et l'analyse à grande échelle de données textuelles non structurées dans le but de recueillir des faits et des informations pertinents de manière structurée. Les techniques basées sur le NLP conviennent à la fois aux enquêtes ciblées, lorsqu'il existe un point de départ clair ou des allégations, et aux enquêtes exploratoires, lorsque très peu d'informations a priori sont disponibles.

Le cas présenté ci-dessus est particulièrement représentatif des tendances générales que sont les délais serrés et les gros volumes de données. Le client ne disposait que de deux semaines pour analyser plus d'un million de documents collectés, la "population de documents", afin de fournir à l'autorité des informations juridiquement contraignantes. La population de documents était constituée de courriels, de documents et de feuilles de calcul Excel.

L'utilisation de la PNL s'est avérée cruciale pour respecter le délai imparti.

Processus d'enquête électronique

 

Du point de vue du client, l'objectif premier de l'enquête était d'examiner en profondeur les allégations formulées par l'autorité étrangère.

Les détails de l'allégation et les personnes potentiellement impliquées ont été utilisés pour définir une procédure d'analyse de l'ensemble des documents. Le conseiller juridique de l'entreprise a eu connaissance, avant l'enquête, d'une sélection de 20 communications pertinentes entre les personnes concernées, l'"échantillon", qui a servi de point de référence pour l'enquête sur l'allégation.

Pour éviter un examen manuel long et coûteux d'un grand nombre de documents, les enquêteurs et les avocats ont mis en œuvre une procédure séquentielle en trois étapes assistée par la technologie pour permettre au client de faire une déclaration aux autorités en temps voulu. Il est important de noter que si les méthodes ont été utilisées de manière séquentielle dans ce cas précis, les trois méthodes présentées ci-dessous peuvent être utilisées conjointement mais aussi indépendamment l'une de l'autre. Parmi les trois, seul le modèle de classification de texte nécessite une contribution humaine ou un jugement :

  1. Regroupement de textes : Trouver des documents conceptuellement similaires à l'échantillon de 20 documents sur la base d'une analyse sémantique de la population de documents.
  2. Recherche par mot-clé et par concept : trouver des documents correspondant à des termes de recherche prédéfinis et à des concepts englobant des groupes de termes sémantiquement similaires.
  3. Classification informatique : Trouver les documents qui sont marqués comme susceptibles d'être pertinents par un modèle de classification de texte basé sur des documents classés par un évaluateur humain.

1. Regroupement de textes

 

Le regroupement de textes est l'agrégation automatisée d'une population de documents en sous-groupes ou "clusters". Les groupes sont constitués de documents dont la signification et le contexte sont similaires. Le regroupement est basé sur une analyse automatisée de la fréquence des mots dans chaque document et ne nécessite aucune évaluation ou entrée de la part de l'utilisateur. La visualisation de ces grappes permet à l'enquêteur de comprendre plus rapidement les principaux concepts contenus dans les données et de les examiner plus efficacement.

Les résultats du processus de regroupement ont permis d'identifier les documents conceptuellement similaires à l'échantillon pertinent. Ensuite, dans le cadre d'un examen manuel, les enquêteurs ont examiné les documents au sein de la plateforme d'examen et ont marqué ces documents comme étant pertinents ou non pertinents pour l'affaire. Le résultat de cet examen manuel a ensuite été utilisé pour développer un algorithme de classification de texte (voir la section 3 pour plus de détails).

2. Recherches de concepts et termes de recherche

 

L'utilisation de termes de recherche par mots-clés au cours de la phase initiale d'une enquête est une méthode couramment utilisée pour réduire le volume de documents à examiner manuellement par le conseiller juridique. Par rapport aux approches basées sur le regroupement, les termes de recherche requièrent beaucoup plus d'informations de la part des enquêteurs. La difficulté de l'utilisation des termes de recherche a consisté à définir une liste appropriée de termes de recherche par mot-clé. Cette liste a été compilée et affinée par un processus itératif d'essais et d'erreurs tout en examinant le nombre d'occurrences. Ces termes affinés ont permis d'identifier plus facilement le contenu pertinent pour l'enquête.

En plus de la recherche par mot-clé, le NLP a été en mesure de trouver des mots qui avaient tendance à apparaître dans des contextes similaires au sein de la population de documents. Cela a permis d'effectuer une "recherche de concepts" : la recherche d'un mot particulier a également permis de trouver d'autres mots ayant une signification similaire dans l'ensemble des documents. Par exemple, une recherche sur "scared" (peur) a également permis d'identifier les documents contenant le terme "afraid" (peur).

À l'aide d'un puissant outil d'analyse de données, des listes de "termes similaires", constituées de variations de termes et d'autres expressions utilisées dans des contextes similaires, ont été générées pour un mot-clé initial. L'outil a permis aux enquêteurs d'ajuster l'accent mis sur certains concepts dans les résultats de la recherche. La combinaison de l'utilisation de variations de termes et de termes similaires avec un accent spécifique a permis d'obtenir un taux de pertinence plus élevé qu'une recherche par mot-clé pur.

Un autre avantage de la recherche de concepts est que, contrairement aux recherches par mots-clés, elle permet de détecter les communications codées ou les euphémismes, car ces termes apparaîtront probablement dans les résultats sous la rubrique "termes similaires".

Lorsque les termes de recherche ou les recherches de concepts sont sélectionnés de manière efficace, ils peuvent apporter une valeur ajoutée en identifiant d'autres documents très pertinents qui fournissent à l'équipe d'enquêteurs des faits et des informations clés. Grâce à ces connaissances nouvellement acquises, un modèle de classification de texte a été formé pour faire avancer l'analyse, comme décrit ci-dessous.

3. Modèle de classification de texte

 

Dans le modèle de classification des textes, un petit ensemble de documents déjà examinés et codés par les chercheurs a été soumis à un algorithme qui a analysé le contenu sémantique des documents et identifié les relations entre le contenu sémantique et la décision d'examen (pertinent/non pertinent). Ce processus de soumission de documents codés comme pertinents ou non pertinents par les enquêteurs dans le but d'identifier des modèles indiquant la pertinence est appelé "phase d'entraînement" et peut être répété encore et encore après l'examen de documents supplémentaires par des évaluateurs humains, afin d'affiner encore la précision de la classification. Le résultat de la phase de formation est un "modèle de classification de texte".

Après avoir identifié les modèles présents dans les documents avec des décisions de codage spécifiques, le modèle de classification de texte a utilisé ces modèles pour classer automatiquement tous les autres documents dans l'ensemble de la population documentaire en attribuant une probabilité de pertinence à chacun des autres documents. 

Les enquêteurs se sont concentrés sur les documents jugés pertinents par le modèle avec un degré de confiance élevé. C'était le moyen le plus rapide d'identifier un grand nombre de documents pertinents pour répondre à la demande des autorités.

Cette capacité du modèle de classification à évaluer une population entière de documents s'est avérée extrêmement utile. Les performances du modèle ont été améliorées par la prise en compte continue des documents nouvellement examinés. En particulier, l'effet des cycles de formation répétés a été important pour les documents dont la probabilité initiale de pertinence était d'environ 50 %. Une probabilité de pertinence ou de non-pertinence de 50 % indique que le modèle n'est pas certain de la catégorie à laquelle le document appartient.

Le modèle de classification des textes a également été combiné avec les résultats du regroupement pour s'assurer que les documents de tous les groupes étaient examinés et ajoutés à l'ensemble de formation. Cela a permis de s'assurer que tous les groupes de concepts étaient pris en compte lors de la phase de formation et de réduire le risque que des classes entières de documents soient exclues de l'analyse.

Résultat de l'enquête

 

Malgré les informations initiales limitées à 20 communications électroniques, les enquêteurs ont pu examiner un ensemble d'environ 2 400 documents sur une population initiale d'environ un million, le tout dans le délai de deux semaines. Parmi ceux-ci, environ 800 documents ont été jugés pertinents, ce qui représente un taux de pertinence relativement élevé de 33 % dans le sous-ensemble ciblé fourni par l'analyse. Cette méthode s'est avérée beaucoup plus efficace qu'un processus standard utilisant des termes de recherche par mots clés.

La combinaison des méthodes technologiques utilisées a permis aux enquêteurs d'identifier un nombre important de documents pertinents pour l'affaire. Sur la base de ces documents, le conseiller juridique de notre client a été en mesure de fournir une déclaration concluante à l'autorité étrangère.

Les enquêtes modernes sont basées sur la technologie et sont multidisciplinaires. La coopération étroite entre les conseillers juridiques de nos clients et notre équipe expérimentée en matière d'e-discovery reste l'un des facteurs clés de succès dans la conduite défendable d'enquêtes basées sur la technologie.

Did you find this useful?

Thanks for your feedback

Si vous souhaitez contribuer à l'amélioration de Deloitte.com, veuillez remplir un formulaire de demande d'information. Enquête de 3 minutes