Begleiten Sie uns auf eine Reise in die Welt der technologiegestützten Ermittlungen, bei denen wir die neueste Technologie einsetzen, um Datensätze mit Millionen von Dokumenten innerhalb weniger Wochen zu analysieren, um das Signal vom Rauschen zu unterscheiden und die Fakten zu identifizieren, auf die es ankommt.
Wir verwenden als Beispiel einen unserer Kunden, ein internationales Unternehmen mit Hauptsitz in der Schweiz, dem von einer ausländischen Behörde wettbewerbswidriges Verhalten vorgeworfen wurde. Dieses Unternehmen beauftragte uns, seinen externen Rechtsbeistand bei der Reaktion auf die Anschuldigungen zu unterstützen, indem wir eine Untersuchung durchführten und die wichtigsten Fakten aus den E-Mail-Daten der wichtigsten Personen identifizierten. Nach Erhalt eines Datensatzes, der etwa 1 Million E-Mails und Anhänge umfasste, setzte Deloitte Techniken zur Verarbeitung natürlicher Sprache (NLP) ein, um innerhalb einer grossen Menge von nutzergenerierten Inhalten schnell wichtige Beweise zu identifizieren. Mit Hilfe der Technologie war Deloitte in der Lage, dies schnell, effizient und zu geringeren Kosten als bei herkömmlichen Methoden zu tun.
Moderne Ermittlungen umfassen in der Regel sehr grosse Mengen an Textdaten. Die meisten Textdaten liegen heutzutage in elektronischer Form vor, und der Prozess der Identifizierung von Beweismitteln in elektronisch gespeicherten Informationen (ESI) ist als E-Discovery bekannt. Die grösste Herausforderung für E-Discovery-Fachleute besteht darin, grosse Mengen an Textdaten in einem zufriedenstellenden Standard zu analysieren und zu überprüfen und dabei einen vernünftigen und angemessenen Zeit- und Kostenrahmen einzuhalten.
Technologiegestützte Ermittlungsansätze, die auf Konzepten wie NLP basieren, spielen eine entscheidende Rolle bei der Verbesserung der Geschwindigkeit, der Qualität und der Senkung der Kosten. NLP ist eine Disziplin an der Schnittstelle von Linguistik und Informatik und bezieht sich auf die gross angelegte Verarbeitung und Analyse von unstrukturierten Textdaten mit dem Ziel, relevante Fakten und Erkenntnisse auf strukturierte Weise zu sammeln. NLP-basierte Techniken eignen sich sowohl für gezielte Untersuchungen, bei denen ein klarer Ausgangspunkt oder Vorwürfe vorliegen, als auch für explorative Untersuchungen, bei denen nur sehr wenige Informationen a priori verfügbar sind.
Der oben vorgestellte Fall war besonders repräsentativ für die übergreifenden Trends von knappen Fristen und grossen Datenmengen. Der Kunde hatte nur zwei Wochen Zeit, um über eine Million gesammelter Dokumente, den so genannten 'Dokumentenbestand', zu analysieren, um der Behörde rechtsverbindliche Informationen zu liefern. Der Dokumentenbestand bestand aus E-Mails, Dokumenten und Excel-Tabellen.
Um die anspruchsvolle Frist einzuhalten, war der Einsatz von NLP entscheidend.
Das Hauptziel der Untersuchung aus Sicht des Mandanten war die gründliche Prüfung der von der ausländischen Behörde erhobenen Vorwürfe.
Anhand der Einzelheiten des Vorwurfs und der potenziell beteiligten Personen wurde ein Verfahren zur Analyse des Dokumentenbestands festgelegt. Der Rechtsbeistand des Unternehmens kannte vor der Untersuchung eine Auswahl von 20 relevanten Kommunikationen zwischen Personen von Interesse, die 'Stichprobe', die einen Bezugspunkt für die Untersuchung des Vorwurfs darstellte.
Um eine langwierige und kostspielige manuelle Durchsicht einer grossen Anzahl von Dokumenten zu vermeiden, setzten die Ermittler zusammen mit den Anwälten einen sequentiellen, technologiegestützten Prozess in drei Schritten ein, um dem Mandanten eine zeitnahe Aussage gegenüber den Behörden zu ermöglichen. Es ist wichtig anzumerken, dass die drei im Folgenden vorgestellten Methoden zwar sequentiell für diesen speziellen Fall eingesetzt wurden, aber auch unabhängig voneinander verwendet werden können. Von den drei Methoden erfordert nur das Textklassifizierungsmodell menschliche Eingaben oder Beurteilungen:
Text-Clustering ist die automatisierte Zusammenfassung der Dokumentenpopulation in Untergruppen oder "Clustern". Die Cluster bestehen aus Dokumenten mit ähnlicher Bedeutung und ähnlichem Kontext. Das Clustering basiert auf einer automatischen Häufigkeitsanalyse der Wörter in jedem Dokument und erfordert keine Bewertung oder Eingabe durch den Benutzer. Eine Visualisierung dieser Cluster ermöglicht es dem Untersucher, die wichtigsten Konzepte in den Daten schneller zu verstehen und sie effizienter zu überprüfen.
Anhand der Ergebnisse des Clustering-Prozesses wurden Dokumente identifiziert, die der relevanten Stichprobe konzeptionell ähnlich waren. Als nächstes überprüften die Ermittler die Dokumente innerhalb der Überprüfungsplattform in einer manuellen Überprüfung und markierten diese Dokumente als relevant oder nicht relevant für den Fall. Das Ergebnis dieser manuellen Überprüfung wurde später verwendet, um einen Algorithmus zur Textklassifizierung zu entwickeln (weitere Einzelheiten in Abschnitt 3).
Die Verwendung von Schlüsselwörtern in der Anfangsphase einer Untersuchung ist eine gängige Methode, um die Menge der Dokumente zu reduzieren, die von den Rechtsberatern manuell überprüft werden müssen. Im Vergleich zu den Clustering-basierten Ansätzen erforderten die Suchbegriffe viel mehr Input von den Ermittlern. Die Herausforderung bei der Verwendung von Suchbegriffen bestand darin, eine geeignete Liste von Suchbegriffen zu definieren. Diese Liste wurde in einem iterativen Prozess von Versuch und Irrtum zusammengestellt und verfeinert, während die Anzahl der Treffer geprüft wurde. Diese verfeinerten Begriffe ermöglichten eine einfachere Identifizierung der für die Untersuchung relevanten Inhalte.
Neben der Suche nach Schlüsselwörtern konnte NLP auch Wörter finden, die in der Regel in ähnlichen Kontexten in der Dokumentenpopulation vorkommen. Dies ermöglichte eine 'Konzeptsuche' - eine Suche nach einem bestimmten Wort suchte auch nach anderen Wörtern mit ähnlicher Bedeutung in der Dokumentenmenge. Zum Beispiel wurden bei einer Suche nach "Angst" auch Dokumente mit dem Begriff "Angst" gefunden.
Mithilfe eines leistungsstarken Datenanalyse-Tools wurden für ein anfängliches Schlüsselwort Listen mit "ähnlichen Begriffen" erstellt, die aus Variationen von Begriffen und anderen Ausdrücken bestanden, die in ähnlichen Kontexten verwendet wurden. Das Tool ermöglichte es den Ermittlern, die Gewichtung bestimmter Begriffe in den Suchergebnissen anzupassen. Die Kombination aus der Verwendung von Begriffsvariationen und ähnlichen Begriffen mit spezifischer Betonung führte zu einer höheren Relevanzrate als eine reine Stichwortsuche.
Ein weiterer Vorteil der Konzeptsuche ist, dass sie im Gegensatz zur Suche nach Schlüsselwörtern erkennen kann, wenn Personen in Codes oder Euphemismen kommunizieren, da diese Begriffe wahrscheinlich unter "ähnliche Begriffe" in den Ergebnissen auftauchen werden.
Wenn Suchbegriffe oder Konzepte effektiv ausgewählt werden, können sie einen Mehrwert schaffen, indem sie weitere hochrelevante Dokumente identifizieren, die dem Untersuchungsteam wichtige Fakten und Erkenntnisse liefern. Mit diesem neu erworbenen Wissen wurde ein Textklassifizierungsmodell trainiert, um die Analyse weiter voranzutreiben, wie unten beschrieben.
Beim Textklassifizierungsmodell wurde ein kleiner Satz von Dokumenten, die bereits von den Prüfern geprüft und kodiert worden waren, einem Algorithmus vorgelegt, der den semantischen Inhalt der Dokumente analysierte und Beziehungen zwischen dem semantischen Inhalt und der Prüfentscheidung (relevant/nicht relevant) identifizierte. Dieser Prozess der Übermittlung von Dokumenten, die von den Prüfern als relevant oder nicht relevant eingestuft wurden, um Muster zu erkennen, die auf Relevanz hindeuten, wird als 'Trainingsphase' bezeichnet und kann immer wieder wiederholt werden, nachdem zusätzliche Dokumente von menschlichen Prüfern überprüft wurden, um die Genauigkeit der Klassifizierung weiter zu verfeinern. Das Ergebnis der Trainingsphase ist ein "Textklassifizierungsmodell".
Nach der Identifizierung von Mustern in Dokumenten mit bestimmten Kodierungsentscheidungen verwendete das Textklassifizierungsmodell diese Muster, um alle anderen Dokumente in der gesamten Dokumentenpopulation automatisch zu klassifizieren, indem es jedem der anderen Dokumente eine Relevanzwahrscheinlichkeit zuordnete.
Die Ermittler konzentrierten sich auf die Dokumente, die vom Modell mit einem hohen Mass an Vertrauen als relevant eingestuft wurden. Dies war der schnellste Weg, um eine grosse Anzahl relevanter Dokumente zu identifizieren, die für die Anfrage der Behörden relevant waren.
Diese Fähigkeit des Klassifizierungsmodells, eine gesamte Dokumentenpopulation zu bewerten, war äusserst nützlich. Die Leistung des Modells wurde durch die kontinuierliche Berücksichtigung von neu überprüften Dokumenten verbessert. Insbesondere bei Dokumenten mit einer anfänglichen Relevanzwahrscheinlichkeit von etwa 50 % war die Wirkung wiederholter Trainingsrunden stark. Eine Wahrscheinlichkeit von 50 % für Relevanz oder Nichtrelevanz bedeutet, dass das Modell unsicher ist, zu welcher Kategorie das Dokument gehört.
Das Textklassifizierungsmodell wurde auch mit den Ergebnissen des Clustering kombiniert, um sicherzustellen, dass Dokumente aus allen Clustern überprüft und dem Trainingssatz hinzugefügt wurden. Auf diese Weise wurde sichergestellt, dass alle Cluster von Konzepten in der Trainingsphase berücksichtigt wurden, und das Risiko, dass ganze Klassen von Dokumenten von der Analyse ausgeschlossen werden, wurde verringert.
Trotz der begrenzten anfänglichen Informationen von 20 E-Mail-Kommunikationen waren die Ermittler in der Lage, innerhalb der zweiwöchigen Frist einen Satz von etwa 2.400 Dokumenten aus einer anfänglichen Population von etwa einer Million zu untersuchen. Davon wurden etwa 800 Dokumente als relevant eingestuft, was einer relativ hohen Relevanzrate von 33 % innerhalb der von der Analyse bereitgestellten Teilmenge entspricht. Dies war weitaus effektiver als ein Standardverfahren mit Schlagwortsuche.
Die Kombination der eingesetzten technologiebasierten Methoden ermöglichte es den Ermittlern, eine erhebliche Anzahl von Dokumenten zu identifizieren, die für den Fall relevant waren. Auf der Grundlage dieser Dokumente war der Rechtsbeistand unseres Mandanten in der Lage, eine schlüssige Erklärung gegenüber der ausländischen Behörde abzugeben.
Moderne Ermittlungen sind technologiebasiert und multidisziplinär. Die enge Zusammenarbeit zwischen den Rechtsberatern unserer Kunden und unserem erfahrenen E-Discovery-Team ist einer der wichtigsten Erfolgsfaktoren für die vertretbare Durchführung technologiebasierter Ermittlungen.