eDiscovery

Article

eDiscovery: Neue Wege beim Aufspüren kritischer Daten und Fakten im Unternehmen

Vom Suchen zum Entdecken

Schneller, gründlicher und erkenntnisreicher: Künstliche Intelligenz und innovative Workflows stellen die Gewinnung von Fakten aus Kommunikationsdaten, Office-Dokumenten und Datenbanken auf eine neue Grundlage. Die Kombination mit Technologien aus dem Process Mining lässt dabei sogar die Compliance des gesamten Beweisdaten-Life Cycles messbar werden. Doch nicht nur die Möglichkeiten erweitern sich, sondern auch die Anforderungen an die Akteure unterliegen einer Veränderung.

Wenn in einem Unternehmen der juristische Ernstfall eintritt, müssen zügig Fakten auf den Tisch. Ob es um externe Prozessführung geht oder eine interne Untersuchung – für einen erfolgreichen Ablauf ist ein zeitnaher Zugriff auf die betreffenden Beweisdaten wesentlich. Damit der Weg von der Identifikation der Ausgangsdaten bis hin zu den Ergebnisdaten – den eigentlichen Fakten – gerichtsfest ist, gilt es viele Regeln zu beachten.

Die Experten wissen: Die eigentliche Herausforderung liegt zu Beginn zunächst darin, aus der enormen Menge an verteilten Daten eines Unternehmens in unterschiedlichsten Formaten, Aktenbergen und geschäftlichen Unterlagen die Menge der sachverhaltsrelevanten Ausgangsdaten zu bestimmen. Ein zähes und zuweilen auch unpräzises Unterfangen – wenn man wie bislang in erster Linie den Weg über Experteninterviews, Auswertung von Organigrammen und die Analyse von Zugriffsberechtigungen auf fallrelevante Applikationen und Daten beschreitet. Im Ergebnis stehen oftmals noch immer hohe Anzahlen von Betroffenen, deren Daten auszuwerten sind, sowie Applikationen, Datenbanken und File-Ablagen mit weiteren potenziell relevanten Daten, von den zunächst noch analogen Aktenbergen ganz zu schweigen. Eine zu weitreichende Auslegung des Untersuchungsumfangs an dieser Stelle bestimmt maßgeblich den Aufwand der gesamten nun erforderlichen Analysen und Dokumentenreviews. Auch nach Anwendung von Stichwortsuchen, zeitlichen Eingrenzungen, Formatfiltern und Priorisierungen verbleibt ein Ausmaß an Daten und Dokumenten, das in vielen Fällen über Wochen, Monate, teilweise Jahre aufwendig in Handarbeit auszuwerten ist.

Doch mit neuen technologischen Ansätzen steht nun ein grundlegend erweitertes Handwerkszeug bereit. Avancierte Analyse-Tools, Automatisierung von Abläufen und die gezielte Einbindung menschlicher Expertise ermöglichen eine schnellere und kosteneffizientere Aufklärung. Dabei werden die Grenzen der Abbildung von Fragestellungen über Stichwortsuchen überwunden und mittels unsupervised learning oft auch ein breiterer und tieferer Erkenntnisgewinn zur Sache ermöglicht. Die Handlungsfähigkeit eines Unternehmens wird durch innovative Technologien und Arbeitsweisen weit über Litigations, Investigations, Schiedsverfahren, regulatorische Anfragen und Formen interner Sonderuntersuchungen hinaus gesteigert. Mitunter entwickeln sich in einigen Unternehmen aus dem Litigation Support sogar regelrechte Kompetenzzentren für die Auswertung von textbasierten Daten im Unternehmen.

Das ist eine beeindruckende Entwicklung, die viele Veränderungen mit sich bringt. Dieser Deloitte-Artikel nimmt Impulse dieses Veränderungsprozesses auf und stellt ausgewählte Trends entlang der eDiscovery-Prozesskette dar. Diese ist zugegebenermaßen lang, aber bietet dafür interessante Impulse für unterschiedlichste Akteure. Der Sprung zwischen den Themen ist möglich und erwünscht. Unter anderem werden die folgenden hochrelevanten Fragestellungen beleuchtet:

  1. Inwieweit werden Technologien und Methoden der eDiscovery für andere Maßnahmen der Faktenfindung im Unternehmen adaptiert?
  2. Welche Bereicherung bietet die agile Software-Entwicklung im Rahmen eines Projekts?
  3. Bietet eDiscovery auch Antworten auf die Herausforderung einer Over-Preservation und die zunehmenden Data Lakes?
  4. Warum haben wir trotz steigender Datenmengen einen Trend zur Reduktion von Beweisdatenkopien?
  5. Wie können Mitarbeiter eines Unternehmens auf ihre unterstützende Rolle im Rahmen einer eDiscovery vorbereitet werden?
  6. In welcher Wechselwirkung steht Robotic Process Automation mit dem gesteigerten Pflegeaufwand bei der Dokumentation im Rahmen des Beweisdatenmanagements?
  7. Warum werden die Motivation von internen und externen Teams sowie Maßnahmen zur Arbeitsflexibilisierung immer wichtiger?
  8. Ist Reuse von Beweisdaten ein Tabuthema?
  9. Kann die Verknüpfung von Systemen für Legal Hold und Evidence Tracking gelingen?
  10. Warum ist es heute einfacher, Aufbewahrungsfristen zu monitoren und proaktiv einzuhalten?
  11. Welche Vorteile liegen in der Verknüpfung von Process Mining und eDiscovery?
  12. Kann unsupervised learning blinde Flecken in der Untersuchungshypothese überwinden?
  13. Unterstützen aktuelle Technologien des Early Case Assessments das menschliche Denken in Assoziationen?
  14. Kann supervised learning den Review-Marathon verkürzen?
  15. Wie können Verantwortliche im Unternehmen durch KPIs und Compliance-Metriken noch stärker in der Entscheidungsfindung unterstützt werden?
  16. Ist die Rolle des digitalen Case Managers im Vormarsch?
  17. Werden Digital Forensic-Experten noch wichtiger?
  18. Kann es effektive Analysen ohne personenbezogene und personenbeziehbare Informationen geben?  
  19. Wie können Managed Services und SaaS den Alltag im Unternehmen unterstützen?
  20. Resultieren aus der Kombination all dieser Themen messbare Ergebnisse?

Ein Deloitte-Artikel über das neue Gewand der analytisch verwandelten eDiscovery.

eDiscovery: Worum es geht

Eine kurze Aussage in einer einzigen E-Mail, ein kurzer unerlaubter Datenzugriff oder Veränderungen an einem elektronischen Dokument: In einem Rechtsstreit können unscheinbare Tatsachen und Informationen einen enormen Unterschied in der Beweislage darstellen – den Unterschied zwischen Erfolg und Niederlage. Doch diese Daten in einem Unternehmen aufzuspüren, gleicht der sprichwörtlichen Suche nach der Nadel im Heuhaufen. Umso mehr in unserer digitalen Ära, in der alljährlich steigende Datenmengen in den vernetzten Unternehmen anfallen.

Je nach Fallkonstellation ist dabei eine vollständige oder hinreichende Sichtung von bestimmtem, meist sehr umfangreichem Material erforderlich. Und das unter dem Druck präziser prozeduraler Vorgaben, ablaufender Fristen und stringenter Kostenkontrolle. Denn schließlich muss der Aufwand in einem untersuchungsökonomisch sinnvollen Verhältnis zum angestrebten Nutzen einer Untersuchung stehen. Wie erreichen eDiscovery-Experten diese Ziele heute effizienter als je zuvor? Welche Modelle, Methoden und Werkzeuge setzen sie dabei ein? In welchen Bereichen werden sie tätig?

Verstöße, Vergehen, Verfahren: Daten gesucht!

„eDiscovery“ – darunter sollen hier technologiegestützte Vorgehensweisen verstanden werden, bei denen Daten eines Unternehmens identifiziert, beweisfest gesichert und zur Faktenfindung analysiert werden, um als Beweismittel in zivil- oder strafrechtlichen Verfahren vorgelegt zu werden. Gerichtsverfahren und ihre Vorbereitung sind also der klassische Anwendungsfall. Die regulatorischen Grundlagen sind weitreichend und ebenso haben sich zum Teil sehr detaillierte Quasi-Industriestandards herausgebildet, die aber hier nicht Gegenstand sein sollen.

Doch gerade die hohen Anforderungen in Bezug auf Nachvollziehbarkeit und Akzeptanz der Verfahrensweisen haben teilweise dazu geführt, dass seit Jahren verfügbare Technologien wie bspw. verschiedene Formen des supervised learnings sehr zögerlich angewandt wurden. Im Kerngebiet der eDiscovery ist entscheidend, ob ein technologisches Verfahren vom jeweiligen Gericht anerkannt wird. Unterschiedliche Technologien und Vorgehensweisen sind mittlerweile von Gerichten in verschiedenen Ländern und Jurisdiktionen anerkannt.

Eine der wesentlichen Veränderungen liegt sicherlich in dem intensiveren Einsatz von Workflow- und Analyse-Ansätzen, nicht nur in der klassischen eDiscovery selbst, sondern auch in technologisch-methodisch angelehnten Vorgehensweisen. In der Regel handelt es sich dabei um Szenarien, in denen eine präzise Identifikation von Unternehmensdaten in Text-, Bild-, Audio- oder auch Video-Format und darauf basierende zuverlässige Sachverhaltsauskünfte und Bereitstellungen von Daten notwendig sind: etwa für die Beschaffung von Informationen bei internen Sonderuntersuchungen zu verdächtigen Geschäftsvorgängen, für die präzise Beantwortung regulatorischer Anfragen oder auch im Zusammenhang mit Schiedsverfahren. Die Methoden und Technologien werden aber beispielsweise auch bei Sachverhaltsaufklärung von Datenlecks oder der Identifikation steuerrelevanter Dokumente angewandt. Vermehrt erfolgt die Anwendung aber auch zur Identifikation und Bereinigung großer Dokumenten- und Datenbestände – quasi search and delete – um eine mittlerweile zu redundante Datenvorhaltung wieder auf ein vernünftiges Maß zu reduzieren.

Eine spannende Entwicklung, denn damit werden Methoden und Technologien der eDiscovery aufgrund der sachverhaltsübergreifenden Einsatzmöglichkeit relevant für Unternehmen aller Größen. Ein global agierender Konzern z.B. muss sich zwangsläufig mit der Regulatorik der eDiscovery auseinandersetzen. Das kann aber auch einen Mittelständler betreffen, wenn er etwa in einen Patentstreit mit einem US-Unternehmen verwickelt wird und vor Ort klagen muss. Steuerrechtliche Fragestellungen sind für alle Unternehmen hochrelevant. Dennoch können die Potenziale heutiger textanalytischer Möglichkeiten zur Identifikation steuerrechtlich relevanter Kommunikationen und Informationen noch wesentlich weitreichender genutzt werden. Nicht zuletzt durch die Regelungen der EU-Datenschutz-Grundverordnung gewinnt die Nutzung von Text Mining-, Automatisierungs- und Workflow-Technologien zur Bereinigung und Pflege von Datenbeständen an neuer Bedeutung. Waren Unternehmen doch auch früher schon effektiv in der Identifikation und Auswertung von Beweisdaten, so ist die gezielte Definition von Aufbewahrungsfristen und deren konsequente Umsetzung im Document Life Cycle nicht in jedem Fall wirksam umgesetzt worden.

In der Konsequenz finden wir oftmals Bestände an Beweisdaten vor, für die niemand die Entscheidung für die Freigabe zur Löschung treffen möchte, da die aktuelle Relevanz der Daten nur eingeschränkt beurteilt werden kann. Hier helfen dieselben Kompetenzen und Werkzeuge, die zur gezielten Identifikation und Analyse von Beweisdaten genutzt werden können, auch bei der rückwirkenden Bereinigung von nicht vollständig erschlossenen Bestandsdaten. In die Zukunft blickend, werden unzureichend erschlossene Bestände an Beweisdaten kaum noch vorzufinden sein, sofern auch für Beweisdaten Aufbewahrungsrichtlinien (Records Retention Policies) definiert und wirksam umgesetzt werden. Aber nun wieder ins Hier und Jetzt.

Der Wahrheit auf der Spur: Prozesse, Methoden und Technologien

Eine Unregelmäßigkeit tritt auf – was ist jetzt zu tun? Eine ganze Menge! Die Denkweise der eDiscovery ist sehr prozessorientiert und definiert aufeinanderfolgende Schritte, die im Wesentlichen Folgendes umfassen:

  • die Identifikation potenziell relevanter Daten (Identification) und deren gerichtsverwertbare Sicherung (Collection)
  • die Verhinderung des Löschens potenziell relevanter Unternehmensdaten (Preservation)
  • die Erstellung eines einheitlichen Auswertungsformats aller Daten und eines entsprechenden Index über alle Daten, um verschiedene Suchfilter zur Dateneingrenzung anwenden zu können (Processing)
  • IT-forensische Verfahrensweisen, um z.B. gelöschte Dateien wiederherzustellen oder manipulierte Daten zu erkennen (Digital Forensics)
  • Analyse und Review von Dokumenten und Daten, um tatsächliche Fakten anhand einer Beurteilung der Inhalte zu erarbeiten und Zusammenhänge zwischen Personen und Inhalten in Dokumenten (aber auch zwischen Daten und Dokumenten) erkennen zu können (Analysis & Review)
  • sowie letztlich den formalisierten Export von Ergebnisdokumenten zur Bereitstellung an Behörden, Streitparteien oder auch zur Verwendung in Untersuchungsberichten (Production).

Für die Abbildung der genannten Schritte (angelehnt an Prozessphasen des Electronic Discovery Reference Models) steht heute eine Vielzahl an hoch entwickelten Software-Plattformen zur Verfügung. Zum Teil handelt es sich dabei um End-to-end-Lösungen. Oftmals werden Lösungen sinnvoll kombiniert, um das jeweilige Potenzial für den konkreten Anwendungsfall auszuschöpfen. So oder so, das Vorgehen lässt sich nicht nur auf den Einsatz einer einzelnen, speziellen Anwendung reduzieren, sondern erfordert ein koordiniertes Ineinandergreifen unterschiedlicher Methoden und Technologien in den diversen Prozessschritten – zumindest wenn die heutzutage ausgeprägten Anforderungsprofile in Bezug auf Geschwindigkeit, Erkenntnismöglichkeit, Vollständigkeit, Transparenz, Verhältnismäßigkeit und Qualität erfüllt werden sollen.

Hier sind ausgewählte Trends entlang der Prozesskette der Datenverarbeitung skizziert:

- Daten identifizieren und sichern (Identification & Collection & Preservation)

E-Mails, Chats, SMS, elektronische Office-Dokumente oder auch Datenbanken etc. aus dem Unternehmensalltag sind die Grundlage der eDiscovery – aber sie müssen erst einmal zugänglich gemacht werden. Zunächst gilt es, relevante Daten quer durch die Unternehmensbereiche und ggf. -gesellschaften zu identifizieren – sei es bspw. in der Geschäftsführung oder im Vorstand selbst, der Buchhaltung, Forschung & Entwicklung, Human Resources oder auch im Einkauf oder Vertrieb. Der Zugriff auf Speichermedien, Hardware und diverse Endgeräte wie Mobiltelefone, Tablets und Laptops geschieht dann z.B. vor Ort durch spezielle Einsatzteams, die mit forensischen „Field Kits“ – im Wesentlichen Anschlüsse, Adapter und Controller für verschiedenste IT-Systeme – ausgestattet sind. Ein wichtiges Werkzeug sind aber auch sogenannte „Write-Blocker.“ Sie werden zwischen eine Beweisdatenquelle und eine Zielfestplatte geschaltet und verhindern, dass während des Kopierprozesses Daten auf der Beweisdatenquelle verändert oder neue Daten darauf geschrieben werden. Teilweise werden Daten durch die IT oder System- bzw. Applikations-Administratoren bereitgestellt. Hierbei ist entscheidend, das Wissen über IT-forensische Prinzipien im Vorhinein an die handelnden Akteure zu vermitteln, damit die bereitgestellten Daten auch Ansprüchen an die Gerichtsverwertbarkeit genügen. On-Demand-Trainings sind mittlerweile eine verbreitete Möglichkeit zur proaktiven Sensibilisierung und Schulung von Personal, um die Akteure auf die konkreten Anforderungen außerhalb des üblichen beruflichen Tätigkeitsspektrums vorzubereiten. In sensiblen Situationen ist aber auch ein netzwerkbasierter Remote-Zugriff auf Beweisdaten möglich, beispielsweise wenn ein abgestimmt verdecktes Vorgehen nötig ist, schnell agiert werden muss, weil Daten flüchtig sind oder die Gefahr einer kurzfristigen Manipulation besteht, ein lokaler physischer Zugang gar nicht in Frage kommt oder schlicht Personal vor Ort nicht zur Verfügung steht.

Nebenbei: Robotic Process Automation (RPA) hat auch hier schon Einzug gefunden. Ein einfaches Beispiel ist das Befüllen von Fallinformationen im Rahmen der Datensicherung. Vor der eigentlichen Datensicherung sind einige Informationen aufzunehmen wie bspw. Name des Falls, des Examiners, diverse Angaben über die Beweisdatenquelle etc. In einem industrialisierten Massengeschäft genügt die einfache Übung, die durchschnittlichen Minuten pro Datenpflege mit der Anzahl von hunderten und tausenden Datenquellen zu multiplizieren, um den Effizienzeffekt greifbar werden zu lassen. Genau deswegen wird hier RPA zur Vorbefüllung der Fallinformation angewandt. Der Aufwand zur Qualitätssicherung und individuellen Anpassung der vorbefüllten Informationen ist deutlich geringer und nebenbei wird die Qualität der Daten durch die Reduktion von Fehlern – im Vergleich zur manuellen Eingabe von Daten – erhöht.

Aber zurück zu verteilten Teams. Das Ausmaß der Abstimmung zwischen lokalen Response Teams und zentralen Koordinatoren – zumeist am Standort des Unternehmenssitzes – hat sich in den letzten Jahren deutlich intensiviert. Damit einher geht die Etablierung von prozeduralen Standards in den Unternehmen, die Regelung von Datentransfers zwischen Gesellschaften, die Anwendung einheitlicher Technologieansätze und eine standardisierte Einbindung von externen Teams zur Regulierung von Lastspitzen oder auch Lösung komplexerer Anwendungsszenarien. Der Weg hin zu diesem Reifegrad ist für Unternehmen allerdings oft herausfordernd, da ein ausgewogenes Maß an internen und externen Spezialisten und technischen Ressourcen entwickelt werden muss. Dabei sind Eintrittswahrscheinlichkeit und Impact von Anwendungsszenarien in ein unternehmensstrategisch sinnvolles Maß an eigener Reaktionsfähigkeit sowie fallbezogener externer Unterstützung zu setzen. Kollaboration und Standardisierung jedenfalls führen zur schnelleren Verbreitung von Technologien in Unternehmen.

Dabei sind natürlich jeweils auch datenschutzrechtliche Bestimmungen zu beachten. Doch dank IT-forensischer Software und neuen Möglichkeiten zur schnellen und punktuellen Bestimmung der Sachverhaltsrelevanz von Daten vor den intensiveren Datenverarbeitungen fällt es heute leichter, ein akzeptables Maß der Verhältnismäßigkeit einer Maßnahme zu gestalten. So kann z. B. das Kopieren von enorm großen Abteilungsablagen verhindert bzw. minimiert werden, indem die Responsiveness von Daten auf Abteilungsablagen mittels lokal anwendbarer Analysewerkzeuge bestimmt werden kann, bevor die Daten unnötigerweise aufwendig kopiert werden, neue Instanzen an weiteren Ablageorten entstehen und dabei ggf. auch noch Dritte auf diese Kopien zugreifen müssen. Die Analytics-Werkzeuge sind dabei in der Lage, einen Workflow hochtransparent abzubilden und über entsprechende Logs und Reports nachvollziehbar zu dokumentieren und darzustellen. Das ist ein einfaches Beispiel für einen deutlichen Fortschritt und ein wirksames Mittel, um dem Risiko einer sogenannten Over-Preservation zu begegnen. Bei dieser werden aufgrund des weiten Untersuchungs-Scopes und eingeschränkten, technologischen Mitteln, Daten transparent einzugrenzen, zu viele unnötige Daten gesichert. Dies verursacht zum einen hohe Initialaufwände bei der Sicherung selbst, belastet zudem aber auch nachhaltig technische Kapazitäten wie Speicherplatz. Zudem entstehen weitere Risiken im Zusammenhang mit dem nachhaltigen Beweisdatenmanagement.

Aber auch die Sicherung von Papierunterlagen und deren Digitalisierung für eine systemgestützte Analyse kann herausfordernd sein. Insbesondere Unterlagen mit handschriftlichen Notizen oder auch Akten mit maschinenlesbarer Schrift, die aber verwittert sind – ja, das kommt in der Tat bei ausgelagerten Beständen ab und zu vor – müssen gescannt und über Optical Character Recognition (OCR)-Verfahren durchsuchbar gemacht werden. Die Methoden zur Analyse von Handschriften verbessern sich, sind aber nach wie vor nicht mit derselben Verlässlichkeit analysierbar wie maschinenlesbare Druckschrift, die mittels OCR wieder in eine maschinenlesbare und somit technologisch analysierbare Form überführt wurde. Teilweise finden sich interessante Features im Zusammenhang mit digitalisierten Papierunterlagen, etwa die Erkennung von Stempeln auf den Dokumenten. Dieses Feature kann zum Beispiel zur Überprüfung der Einhaltung von Prozessvorschriften bzw. Freigaben genutzt werden. Individuelle Methoden der Bilderkennung können hier mittlerweile projektspezifisch agil entwickelt und nutzbar gemacht werden, um bspw. auf den Bedarf der Analyse großer Bilddatenbestände effizient reagieren zu können. Für handschriftliche Dokumente ist nach wie vor eine hohe Scanqualität wichtig, da der manuelle Review und die Erkennung von Feinheiten auf dem digitalisierten Dokument erforderlich sind. Die analoge Arbeitswelt lässt sich noch nicht vollständig verdrängen. Generell gilt – egal ob für digitale oder analoge Beweisdaten und -dokumente –, dass jeder Schritt und auch jede Person mit Zugriff auf die Daten nachvollzogen und transparent dokumentiert werden muss, um die Integrität der Daten in der Prozesskette der Verarbeitung feststellen und nachweisen zu können.

Die Dokumentation der Chain of Custody ist hier ein bekanntes Stichwort und Prinzip, um zur Beweissicherheit von Daten beizutragen. Ist die Nutzung von Datenbanken für das nachhaltige Beweisdatenmanagement schon verbreitet, so ist doch die Qualität der Analyse der in den Datenbanken enthaltenen Daten selbst und deren Visualisierung, bspw. zur Messung des Fortschritts von Datensicherungen oder auch zur Feststellung der Prozess-Compliance, noch sehr unterschiedlich ausgeprägt. Grundsätzlich lassen sich Datenpunkte in allen IT-Systemen auslesen und in einen sachlichen und zeitlichen Zusammenhang bringen.

Wenn beispielsweise die Datumsangaben und weitere ausgewählte Datenobjekte aus erteilten Freigaben zur Datensicherung- und analyse, von Log-Files einer IT-forensischen Software zur Beweisdatensicherung, von abgelegten Chain-of-Custody-Formularen, einer Processing-Software sowie eines Projektplans mit Bereitstellungsfristen ausgelesen und im Rahmen eines Zeitstrahls visualisiert werden, lassen sich kompakte Informationen zur Steuerung und über die Einhaltung von Vorschriften (Compliance) erlangen. Auf einen Blick ist erkennbar, ob mehr Freigaben als Datensicherungen vorliegen. Sind Daten verarbeitet worden, ohne dass eine entsprechende Freigabe vorliegt? Sind die Chain-of-Custody-Formulare für alle verarbeiteten Daten gepflegt und abgelegt? Gibt es ungeplanten Verzug zwischen Datensicherung und Processing? Werden nur die in der Datenfreigabe spezifizierten Datenquellen verarbeitet? Werden alle Daten fristgemäß zum Review bereitgestellt sein? Wie können Kapazitäten und Arbeitsweisen im Zweifel angepasst werden?

Solche und ähnliche steuerungsrelevante Informationen werden bereits im Rahmen System- und Applikations-übergreifender Process Mining-Verfahren erstellt. Dort, wo diese Verfahren standardisiert in die Auswertungsumgebung eines Unternehmens implementiert werden, genießen auch die kleinen bis mittelgroßen Projekte den Vorteil der Verfügbarkeit von steuerungsrelevanten Informationen. Unzählige abendliche Team-Calls lassen sich auf diese Weise auf einen kurzen Blick auf ein Management Dashboard reduzieren, sei es auf Laptop, Tablet oder auch Smartphone. Zugegebenermaßen ist die geräteunabhängige Aufbereitung von Dashboards oftmals noch eine Kür.

Einzelne Evidence Tracking-Systeme bieten auf Basis eines Berechtigungskonzepts weltweit Online-Zugriff. Das erleichtert die Arbeit von global agierenden Teams enorm und erhöht die Qualität der Daten durch eine unmittelbare Pflege des Systems zum Zeitpunkt der Datensicherung. Zudem erlauben einige Evidence Tracking-Systeme die Bereitstellung von Informationen, um über einen sogenannten „Reuse“ von Beweisdaten zu entscheiden. Von welchem Custodian liegen welche Daten für welchen Zeitraum vor und zu welchem Zweck wurden diese erhoben? Auch wenn es im ersten Moment dem Prinzip der Zweckbindung entgegen zu laufen scheint, so spielt die Mehrfachverwendung von Beweisdaten in ein und derselben komplexen Untersuchung doch eine zunehmende Rolle. Entscheidungsrelevante Auswertungsergebnisse können aber nur auf Basis gewissenhaft gepflegter Datensätze erstellt werden. Mit den gesteigerten Datenvolumina und dem Bedarf zur Pflege von dahingehenden Metainformationen geht die Notwendigkeit eines gesteigerten Maßes an Disziplin in der Pflege von Daten einher. Insofern gewinnen Fertigkeiten in der dauerhaften Motivation von Teams zur Datenpflege, aber auch zur automatisierten Erkennung von ungepflegten und ggf. fehlerhaften Datensätzen, enorm an Bedeutung.

Schließlich erlauben moderne Evidence Tracking-Systeme auch, die definierten Aufbewahrungsfristen für Beweisdaten zu monitoren und einzuhalten. Auch das kann als Maßnahme gesehen werden, dem Risiko einer nachhaltigen Over-Preservation zu begegnen und Compliance im Rahmen des Records Retention Managements zu gewährleisten. Nebenbei: Evidence Tracking-Systeme sind nicht mit Legal Hold-Systemen gleichzusetzen. Bei letztgenannten handelt es sich um Systeme, die den Versand von Informationen an Mitarbeiter und auch relevante Dritte, über die sie mit Aufbewahrungspflichten von Daten und Dokumenten bzw. Löschverboten im Rahmen einer Litigation vertraut gemacht werden, ermöglichen und nachvollziehbar machen. Die Gewährleistung von Vollständigkeit in einer definierten Zeit und von Handlungssicherheit für die betroffenen Dateneigentümer sind hierbei wesentliche Zielsetzungen.

Was sich aber zunehmend feststellen lässt, ist die Nutzung von Connectoren, um die Daten aus beiden Systemen in Bezug zu setzen und somit aus der Kombination von Datenobjekten bzw. Informationen aus Preservation und Collection entscheidungsrelevante Informationen über die erweiterte Prozesskette zu erhalten. Mehrwert stiften dabei nicht nur Kennzahlen und Dashboards zum Fortschritt und die Darstellung damit verbundener Risiken einer priorisierten Datenverarbeitung. Denn diese Informationen werden vorrangig von Entscheidungsträgern in den Unternehmen genutzt.

Der Arbeitsalltag zeigt immer wieder auf, wie notwendig die Nachverfolgbarkeit von einzelnen Arbeitsschritten und damit verbundenen Alerts für operativ verantwortliche Mitarbeiter bei Workflow-orientierten Tätigkeiten sind. Je mehr es gelingt, diese unterschiedlichen Sichtweisen über die Verknüpfung von Daten aus unterschiedlichen Systemen auswertbar zu machen und mithilfe von Workflow- und Reporting-Applikation darzustellen, desto flexibler können auch Experten für die jeweiligen Aktivitäten eingesetzt werden und dabei die Qualität des Outputs ihrer Tätigkeit steigern. Denn dieser wird vor allem an der vollständigen und fristgemäßen Lieferung von Ergebnissen und dem Aufzeigen von Ausnahmen in der Datenverarbeitung (Exceptions) gemessen. Dies wiederum erlaubt Entscheidern, Risiken zu bewerten, diese transparent darzustellen und Entscheidungen zu treffen.

- Daten verarbeiten (Processing)

Das Processing ist ein elementarer Schritt zur Vorbereitung der Analyse und des Reviews. Hierbei werden im Wesentlichen die unterschiedlichen Datentypen und -formate aus den Quelldatensystemen in ein einheitliches auswertbares Format überführt und ein Index über alle entsprechenden Daten und Dokumente erstellt. Daneben finden auch weitere Verarbeitungsschritte statt, wie zum Beispiel das Entpacken von Datei-Containern oder das Entschlüsseln von Dokumenten. Hierdurch wird die analysierbare Ausgangsdatenmenge erweitert und die Inhalte und Metainformationen werden ohne Medienbruch durchsuchbar gemacht – die eigentliche Voraussetzung, um mit der klassischen Formulierung von Suchen in den Daten und Dokumenten zu beginnen.

In diesem Schritt werden aber auch schon Duplikate identifiziert und erste Beziehungen zwischen Dokumenten auf Basis von Algorithmen analysiert. Die sprichwörtliche Nadel im Heuhaufen findet sich viel leichter, wenn man noch vor der Suche erst einmal einen Großteil der verfügbaren Daten als irrelevant beiseiteschaffen kann („Culling“). Das kann zum Beispiel die Eliminierung von massenhaft vorkommenden Produktblättern, Marketing-Materialien oder E-Mail-Newslettern sein, die ggf. auf sachverhaltsrelevante Stichworte ansprechen, aber inhaltlich keinen Beitrag zur Untersuchung leisten. Der Ausschluss der irrelevanten Daten kann die Verarbeitungsgeschwindigkeit von zukünftigen Suchen und folglich auch Reviews beschleunigen, da entweder weniger Terme im Index durchlaufen werden müssen und/ oder weniger sogenannte false positives in der Treffermenge von Suchen auftauchen.

Intensiv gelebt wird mittlerweile die Praxis des Early Case Assessments – gerade bei Untersuchungen außerhalb der klassischen eDiscovery. Ziel dieser Analyseleistung ist die frühzeitige Erkennung des Ausmaßes untersuchungsrelevanter Dokumente und Daten im Beweisdatenbestand vor deren Überführung in den eigentlichen Dokumentenreview. Die Herausforderung war hier bisher, dass die sogenannten Subject Matter Experts ihre Untersuchungshypothese in Form von Stichworten ausdrücken mussten. Sie mussten eine Liste von Stichworten bilden, die mit hoher Wahrscheinlichkeit in den untersuchungsrelevanten Dokumenten vorkommen.

Wenn bspw. ein Whistleblower belastbare Hinweise zur Bevorzugung von Geschäftspartnern durch den Geschäftsführer einer Tochtergesellschaft im Ausland gemeldet hat, ist es sicherlich indiziert, die vom Whistleblower benannten Firmierungen und Namen von Geschäftspartnern, Geschäftsadressen und Kontoverbindungen aus dem Buchhaltungssystem der Tochtergesellschaft (sofern Transaktionen mit den genannten Geschäftspartnern vorliegen) und ggf. Benennungen und Synonyme von betreffenden Leistungen oder Waren (z. B. die Installation von hochwertigem Office-Interieur oder der Bau von Häusern) als Stichworte zur Suche zu benutzen. Im Idealfall werden Trefferdokumente (z. B. E-Mails, Kalendereinträge, Office-Dokumente) generiert, die eine Sachverhaltsrelevanz aufweisen. Der Nachteil dieser Methode ist ihre starke Abhängigkeit von der Untersuchungshypothese sowie der Erfahrung und Kreativität des Subject Matter Experts. Unsere blinden Flecken erkennen wir damit nicht. Es werden vor allem bekannte Entsprechungen gefunden. Ein schneller Einblick in die Ausprägungen des Sachverhalts ist nur eingeschränkt zu erlangen.

Der Grund ist recht einfach, die genutzten Stichwortkombinationen sind bei sehr kleinen Treffermengen mit hoher Wahrscheinlichkeit zu präzise und scharf formuliert. Inhaltlich kann ein enger Bezug zum Sachverhalt vorliegen, allerdings wird der Anteil der in der Datenmenge verfügbaren, sachverhaltsrelevanten Dokumente klein sein. Das mag bei der Zielsetzung eines hinreichend aufzuklärenden Sachverhalts ausreichend sein. Das Untersuchungsziel einer vollständigen Sachverhaltsaufklärung kann so aber nicht erreicht werden.

Werden nun hingegen unschärfere Stichwortkombinationen genutzt, werden die Treffermengen zum Teil deutlich größer und der Anteil der sog. false positives steigt. Allerdings wird auch der Anteil der sachverhaltsrelevanten Dokumente aus der verfügbaren Datenmenge größer sein. Es ist das Verhältnis zwischen Precision und Recall, dass hier ausbalanciert werden muss. Sind die Treffermengen nun so groß, dass viele Tage oder mehrere Wochen Review notwendig sind, um alle Dokumente zu beurteilen, wird schnell deutlich, dass wirklich entscheidende Dokumente ggf. erst spät im Review zur Kenntnis genommen werden. Weitere relevante Personen und Sachverhalte tauchen mit Glück vereinzelt in Dokumenten auf und können so zur Erweiterung der Sachverhaltsaufklärung beitragen.

Early Case Assessment zielt aber auf die frühzeitige Verifikation und Schärfung des Scopes der Sachverhaltsaufklärung ab – idealerweise an einem Tag. Das kann mit Hilfe des sogenannten unsupervised learnings erreicht werden. Dahinter steckt die Idee, dass Analysesoftware die Inhalte in textbasierten Dokumenten eigenständig – also ohne Hilfe des Menschen – in Mengen gleichen oder gleichartigen Inhalts gruppiert und visualisiert. Es werden sogenannte inhaltliche Cluster gebildet. Inhaltlich nahe Dokumentencluster werden neben- bzw. beieinander dargestellt. Die bestimmenden Terme der Cluster werden mit visualisiert. Ausgehend von einem übergeordneten Cluster kann ein Subject Matter Expert per Interaktion mit der Visualisierung in immer spezifischere Subthematiken des Sachverhalts navigieren und die in einem Cluster liegenden Dokumente einsehen.

Um am obigen Beispiel zu bleiben, werden sich schnell Cluster zu Geschäftsbeziehungen in dem Land, in dem die Tochtergesellschaft ansässig ist, finden lassen. Sicher werden sich auch konkrete Cluster und Dokumente für die genannten Geschäftspartner finden lassen. Was bei dieser Methode aber auch gelingen kann, ist unmittelbar Hinweise auf weitere Leistungen der Geschäftspartner oder auch Leistungen anderer Geschäftspartner in derselben Sachverhaltssphäre zu erlangen. Überspitzt formuliert, hilft die Methode bei der Überwindung blinder Flecken aufgrund eines unbewusst zu eingeschränkten Blickes beim Analysevorgehen.

Zudem bieten Software-Lösungen in diesem Zusammenhang auch die Möglichkeit der Visualisierung von Kommunikationssträngen: welche Kommunikationsteilnehmer haben wie häufig zu den spezifischen Sachverhalten kommuniziert? So lassen sich schnell weitere untersuchungsrelevante Personen identifizieren, deren Daten ggf. unmittelbar vor Löschung bewahrt oder direkt gesichert werden sollten. Wir entwickeln uns weg vom reinen Suchen hin zum Entdecken von relevanten Sachverhalten und handelnden Akteuren. In Summe sind wir heutzutage schneller in der Lage, die Brisanz eines Sachverhalts zu erkennen, und können aufgrund einer schnellen Präzisierung der Datenmenge, die im Folgenden einem detaillierteren Review zu unterziehen ist, Ressourcenbedarf und Fristen genauer planen. Schließlich haben wir ein Werkzeug zur Hand, dass uns vollständigere und präzisere Untersuchungsaussagen bei einem kosteneffizienteren Einsatz der Mittel erlaubt.

Der Umstand, dass Methoden des unsupervised learnings im Rahmen des Early Case Assessments mittlerweile von einer breiten globalen Gemeinschaft in den untersuchenden Abteilungen von Unternehmen, Software-Herstellern und Technologieberatern angewandt wird, fördert den Austausch unter den Spezialisten und die fortschreitende Digitalisierung in allen Unternehmensbereichen, die Verantwortung für die professionelle Untersuchung von Daten tragen. Dazu zählt auch die zunehmende agile Eigenentwicklung von Lösungen im Rahmen von Projekten.

Nun gab es auch schon vorher konkrete Features in den relevanten Software-Lösungen oder in eigens entwickelten Algorithmen, um ein Early Case Assessment zu unterstützen. Um einige Beispiele zu nennen:

  • E-Mail-Domain-Analysen für die Untersuchung von Kommunikationsteilnehmern
  • Rekonstruktion von E-Mail-Threads
  • Concept Searches (bei denen nicht zwangsläufig Stichworte zur Bestimmung der Responsiveness in einem Trefferdokument vorkommen müssen, sondern auch Terme mit identischen und ähnlichen Bedeutungen berücksichtigt werden)
  • Anpassung von Stichworten auf Basis der Auswertung von Reports zu den jeweiligen Treffermengen und dem stichprobenartigen Review zur Relevanzbestimmung von Treffern

Die genannten Auswertungen und auch weitere haben jedoch die Eigenschaft eines hohen Anteils manueller Arbeit, vor allem durch die Notwendigkeit der Kombination der unterschiedlichen Teilergebnisse zu einem Gesamtbild. Die heutigen Text Mining basierten Machine Learning-Verfahren in Kombination mit entsprechenden Visualisierungs- und Interaktionstechniken entsprechen dem menschlichen Denken in schnellen Vernetzungen und Assoziationsketten in gesteigertem Maße. Sie reduzieren durch ihre intuitive Anwendung die Kluft zwischen Subject Matter Expert und den Beweisdaten, in der noch zu oft technische Spezialisten als Brückenbauer fungieren.

Das große und notwendige ABER aus Compliance-Perspektive – Datenschutz, Mitbestimmung und Telekommunikationsgesetz sind nur einige Beispiele – kann dabei heutzutage durch wesentlich präzisere Datenverarbeitungen und ein hohes Maß an Transparenz im gesamten Prozess oftmals transformiert werden. Die notwendige Verhältnismäßigkeit von Datenverarbeitungen kann noch feingranularer definiert und umgesetzt werden. Die menschliche Einbindung und Kenntnisnahme von Inhalten kann in automatisierten Workflows auf ein oftmals nur punktuelles Maß zurückgedrängt werden. Dies kann einen wesentlichen Unterschied in der Wahrnehmung der Betroffenen – dem gefühlten Eingriff in die persönliche Sphäre – ausmachen.

Die Compliance in der eDiscovery und methodisch angelehnten Verfahren der Beweisdatenerhebung und Datenanalyse ist zudem messbar geworden, da mittlerweile alle Datenpunkte im Gesamtprozess zusammengeführt und visuell aufbereitet werden können. In Kombination mit Verarbeitungskennzahlen zu wesentlichen technischen Verfahren wie Ver-/Entschlüsselung, Pseudo-/Anonymisierung aber auch Berechtigungsmanagement lassen sich so technologieübergreifende und aussagefähige Management-Cockpits generieren.

- Daten zentral für die Verarbeitung bereitstellen (Hosting)

Die Kluft zwischen Subject Matter Expert (SME) und den Beweisdaten entsteht aber nicht nur durch die noch eingeschränkte Fertigkeit von SMEs, Analyse- und Review-Umgebungen in ihrem vollen Funktionsumfang eigenständig anzuwenden, sondern auch aus dem Gesamtprozess heraus. Ein praktischer Aspekt, der nicht unterschätzt werden sollte, ist also die Frage danach, wo und wie die beschafften Beweisdaten sicher verwahrt und für die Weiterverarbeitung und Analyse bereitgestellt werden.

Bis zu dem Punkt, an dem Beweisdaten auf einem sicheren File-Share zum Processing bereitliegen, sind vorgelagerte Schritte erforderlich. Die vorhergehenden Abschnitte haben unterschiedliche Arten der Datensicherung angerissen. Beweisdaten werden auch heute noch auf Festplatten gesichert und sicher verschlüsselt in dedizierten Aufbewahrungs- und Archivierungsumgebungen verwahrt. Allein mit den Arbeitskopien der Beweisdaten wird weitergearbeitet. Ein Trend der sich dabei abzeichnet, ist die Reduzierung der Anzahl der Beweiskopien, indem die Zweitkopie nicht physisch in Form einer weiteren Festplatte vorliegt, sondern in Form einer verifizierbar integren Kopie auf einer Netzwerkablage. Von dieser Kopie können dann weitere Instanzen erstellt und in die diversen Vorverarbeitungs- und Processing-Stufen gegeben werden.

Die Effekte dieses Vorgehens sind nicht zu unterschätzen: Wege und Aufwände für den Transport von Festplatten entfallen – die Experten für Datensicherungen sind zumeist nicht dieselben Experten wie diejenigen für die weitere Datenverarbeitung. Datenverarbeitungen sind nicht länger abhängig von physischen Verfügbarkeiten und Zugriffsmöglichkeiten. Die nachhaltige Verwaltung der Daten bis hin zur gezielten punktuellen Löschung ist vereinfacht. Und auch Reportings über die Daten lassen sich automatisiert erstellen und mit Reportings zu vorhergehenden und nachfolgenden Arbeitsschritten verknüpfen.

eDiscovery-Experten arbeiten in der Regel mit Web-based Services. Dahinter liegen dedizierte Hosting Center, die hohen Anforderungen an Sicherheit, Verfügbarkeit und Skalierbarkeit genügen müssen. Zudem ist auch ad hoc die Einrichtung von mobilen Analyse- und Review-Umgebungen in Räumlichkeiten eines Unternehmens möglich. Einige Unternehmen hosten auch eigenständig Analyseumgebungen, die teilweise durch hauseigene Mitarbeiter, teilweise unter Einbeziehung externer Dienstleister, administriert werden. Wichtig ist die Unterscheidung zwischen der rein systemorientierten Administration (Skalierung, Verfügbarkeit, Upgrades, Berechtigungsmanagement, IT- und Informationssicherheit etc.) und der Applikations-/Anwender-orientierten Betreuung (wie wird der Subject Matter Expert an die Funktionalitäten einer Analyse- und Review-Application herangeführt?) – diverse weitere Layer seien hier zum Zwecke der Vereinfachung außen vor gelassen.

Ein wesentlicher Trend, der die Kluft zwischen Beweisdaten und Subject Matter Expert drastisch reduziert, ist die Bereitstellung von Managed Services in Kombination mit gezielten Anwendertrainings. Unternehmen können dabei neben den Lösungen, die sie selbst zu regelmäßigen Analysezwecken vorhalten, auf ein Spektrum von Managed Services und SaaS-Optionen zugreifen. Dies erlaubt den untersuchenden Mitarbeitern der Fachabteilungen von Unternehmen, Daten eigenständig in eine sichere Auswertungsumgebung hochzuladen, automatisierte Routinen zum Processing zu nutzen und im Anschluss ein eigenständiges Early Case Assessment durchzuführen.

Begrenzungen einer Dienstleistereinbindung, Wartezeiten auf Reportings, Verzug über Wochenenden und Ähnliches sind dabei nicht mehr gegeben. Der Vormarsch des digitalisierten Case Managers, der sich entsprechend des konkreten Bedarfs individueller Analytics-Werkzeuge bedient, zeichnet sich deutlich ab. Als eine Strömung innerhalb dieser Entwicklung kann die Einbettung von Auswertungsfunktionalitäten in herkömmliche Office-Anwendungen betrachtet werden. Auch hier gilt es, die Entwicklungen im Einzelfall sinnvoll in ein standardisiertes Vorgehen zu integrieren oder auch im Sinne einer bewussten unternehmerischen Entscheidung für den Moment davon Abstand zu nehmen.

Besonders interessant wird die Entwicklung in Bezug auf Bring Your Own Device (BYOD) bzw. unterschiedliche Endgeräte für Analyse und Review, sowie der Arbeit in flexiblen Arbeitsumgebungen in den nächsten Jahren zu verfolgen sein. Die genutzten Technologien sind flexibel in Bezug auf den Web-basierten Review mittels unterschiedlicher Endgeräte. Es spricht beispielsweise nichts gegen ein Early Case Assessment oder einen Dokumentenreview auf einem Tablet an einem Ort der Wahl. Doch der limitierende Faktor sind vor allem die Anforderungen an die Vertraulichkeit der Daten. Wie können Vorteile flexibler Arbeitsweisen mit den Anforderungen an Vertraulichkeit in Einklang gebracht werden? Der Review mittels Tablet im Lieblingscafé ist also nach wie vor tabu. Doch denken wir ein paar Schritte weiter: eine Augmented Reality Brille mit Blicksteuerung könnte neue Möglichkeiten der Arbeitsflexibilisierung schaffen. Selbstverständlich findet ein unmittelbarer Log-off aus den hochsensiblen Analyse- und Review-Systemen statt, sobald eine AR Brille willentlich oder unwillentlich abgesetzt wird. Warum sind dahingehende Gedanken wichtig? Einzelstudien und Metastudien zeigen deutlich, dass die aktuellen und zukünftigen Analytics-Experten – als solche müssen auch alle Untersuchungsspezialisten verstanden werden – hohe Anforderungen an Arbeitsflexibilisierung stellen. Das Bild von hochspezialisierten Analysten in fensterlosen Räumen wird sich also absehbar verändern. Die Bereitstellung individueller und sicherer Zugriffsmöglichkeiten auf Analysedaten durch Subject Matter Experts sollte zunehmend als Wettbewerbsvorteil eines Unternehmens betrachtet werden.

- Dokumente und Daten beurteilen (Review)

Der gerade angesprochene Wettbewerbsvorteil ist so maßgeblich, da immer noch ein Großteil des Aufwandes – trotz aller Maßnahmen zur Eingrenzung und Fokussierung der Daten – einer Untersuchung auf den Dokumentenreview entfällt. Umso interessanter ist die Betrachtung der analytischen Trends in diesem Prozessschritt. Im Gegensatz zum Early Case Assessment liegt der Fokus des Reviews nicht auf der Eingrenzung und Schärfung der zu untersuchenden Dokumente und Daten, sondern auf dem disziplinierten Review der verbleibenden Ergebnismenge. Der Fokus liegt auf dem Aufspüren von Auffälligkeiten, Unregelmäßigkeiten und Verstößen in einer Dokumentenmenge, die mit hoher Wahrscheinlichkeit relevante Dokumente enthält. Ein Teil der Dokumente wird ggf. konkretes Fehlverhalten dokumentieren, eine anderer Teil wird eher zur Aufarbeitung der Zusammenhänge eines Sachverhalts dienen und ein weiterer Teil wird sich als irrelevant herausstellen. Unterm Strich liegt die Herausforderung aber darin, schnell und vorrangig den relevanten Teil zu untersuchen und innerhalb dieses Teils die wirklich aussagekräftigen Dokumente zuerst einem Review zu unterziehen – getreu dem Motto: Das Wichtige zuerst!

Das Computer Assisted Review ist dabei ein mächtiges digitales Werkzeug, das den menschlichen Experten bei der Analyse unterstützt. Die Daten werden hier mit fortgeschrittenen Methoden des Machine Learnings bzw. des Text Minings analysiert. Eine Variante, das supervised learning, ist dabei eine besondere Hilfe. Dabei reviewen ein oder mehrere Subject Matter Experts ein Trainings-Set an Dokumenten und beurteilen die Relevanz der Dokumente. Die jeweilige Analytics-Lösung wertet die Inhalte der Dokumente sowie die entsprechenden menschlichen Relevanzbeurteilungen aus, verlässt sich auf diese und setzt die gewonnenen Informationen in Bezug zueinander. Der Algorithmus „lernt“ so, relevante von nicht relevanten Dokumenten zu unterscheiden.

Auf Basis des dahinterliegenden Datenmodells werden von der Analytics-Lösung im Anschluss Vorschläge für weitere wahrscheinlich relevante Dokumente in der Menge der noch nicht reviewten Dokumente errechnet. Ein Score gibt den vom Algorithmus erwarteten Grad der Responsiveness eines Dokuments in Bezug auf das Modell relevanter Dokumente an. Ergebnisse werden dann von den SMEs geprüft und die Algorithmus-basierten Relevanzentscheidungen werden durch die SMEs bestätigt oder korrigiert. Es erfolgt eine weitere Analyse der Inhalte und Relevanzentscheidungen durch die Analytics-Lösung und eine Anpassung des dahinterliegenden Datenmodells. Dieses iterative Vorgehen wird solange wiederholt, bis ein gewünschter Grad an Präzision erreicht ist.

Mit dem errechneten Score pro Einzeldokument kommen wir zum Kern der Zielsetzung: Das Wichtige zuerst. Durch die Bestimmung eines Schwellwertes, unter dem Dokumente nicht reviewt werden, da sie hinreichend verlässlich nicht untersuchungsrelevant sind, kann exakt bestimmt werden, wie hoch der prognostizierte Review-Aufwand ist. Die sehr vereinfachte Darstellung des Vorgehens soll nicht darüber hinwegtäuschen, dass die Ergebnisse des analytischen Vorgehens umso verlässlicher sind, desto größer das Trainingsset (einschließlich relevanter und nicht relevanter Daten) und je homogener der Gesamtdatenbestand ist, auf den das berechnete Modell angewandt wird. Zudem werden diverse statistische Kennzahlen und Verfahren (margin of error, confidence interval, confidence level, recall, precision, F-measure, Abgleich mit einem control set etc.) genutzt, um die Verlässlichkeit der Ergebnisse beurteilen zu können.

Die Vorteile des supervised learning liegen aber gerade bei exorbitant großen Datenbeständen auf der Hand: Zeit-, Aufwands- und Kostenreduktion, Early Case Assessment aus juristischer Perspektive (wenn sich aus wesentlichen Dokumenten eine schwache Verhandlungsposition ergibt, ist über die Strategie der Rechtsstreitigkeit nachzudenken) sowie erhöhte Genauigkeit, Vollständigkeit und Wiederholbarkeit der Review-Ergebnisse im Vergleich zu rein menschlichem Review. Die beschriebene Methode ist allerdings nicht für alle Fallgrößen geeignet. Insofern sind Kenntnisse und Fertigkeiten der zielgerichteten Auswahl und Anwendung eines Spektrums an Technologien des Technology Assisted Reviews heutzutage unabdingbar. Da auch unterschiedliche marktgängige Lösungen nicht in jedem Fall zum individuellen analytischen Bedarf einer Untersuchung passen, ist umso mehr Offenheit für eine agile Entwicklung fallspezifischer Lösungen gefragt.

Insofern stellt die Bereitstellung von agilen Entwicklerteams einen Trend im eDiscovery-Umfeld dar. Über den gesamten eDiscovery-Prozess hinweg gibt es Bedarf an individuellen Lösungen, die kurzfristig zu entwickeln sind. Trotz der spontanen Entwicklung – auch während eines laufenden Projekts – können Anforderungen an Qualität, Verlässlichkeit, Wiederholbarkeit und somit Akzeptanz einer eigenentwickelten Lösung gewährleistet werden.

Spätestens während des Reviews kann es konkrete Hinweise darauf geben, dass relevante Einzeldokumente nicht vorliegen, obwohl die in einem zu untersuchenden Zeitraum vom Betroffenen genutzten Datenquellen gesichert und über die vorgenannten Verarbeitungsschritte einem Review zugänglich gemacht wurden – etwa, weil ein ausgedrucktes und vom Whistleblower bereit gestelltes Dokument in den digitalen Beweisdaten nicht aufzufinden ist. In solchen Situationen kann es notwendig werden, ausgewählte Datenquellen IT-forensisch tiefer zu analysieren. Die Experten der Digital Forensic analysieren dann beispielsweise Daten auf einer Laptop-Festplatte. Die Beweisdaten werden ähnlich einer archäologischen Ausgrabung schichtenweise betrachtet. Es wird versucht, Datenfragmente, Artefakte und auch Muster zu entdecken, die den gesuchten Dokumenten entsprechen. Auch Hinweise auf gezielte Löschungen können identifiziert werden. Unterschiedliche identifizierte Versionen eines Dokumentes können aber auch Hinweise auf gezielte Manipulationen geben.

Heutzutage ist es auch möglich, Manipulationen von digitalen Bilddokumenten (bspw. Scans von Urkunden und Verträgen) zu erkennen. Auch im Rahmen der Voice-Daten-Analyse können ergänzende Fakten gewonnen werden, wie beispielsweise die Erkennung von Geschlechtern oder Sprachen der Personen in einem Dialog (Erweiterung und/ oder Eingrenzung relevanter Personen) oder auch die Erkennung von Gefühlszuständen (Sentiment-Analyse als möglicher Hinweisgeber zur Identifikation kritischer Diskussionsthemen). Mittlerweile gibt es mannigfaltige Möglichkeiten der IT-forensischen Analyse, die hier nicht ansatzweise angerissen werden können. Jedoch zeigt sich schon heute, dass auch im Rahmen der Digital Forensic die jeweiligen Experten ihre Spezialisierungen aufteilen müssen. So lässt sich eine zunehmende Spezialisierung in den Bereichen Mobile Forensics sowie Voice und Video Analytics feststellen. Die Ergebnisse einer IT-forensischen Analyse fließen jedenfalls in Form individueller Analyseberichte, die insbesondere den IT-forensischen Analyseweg darstellen und konkrete Aussagen zur Verifikation einer Analysehypothese auf Basis der Fakten darstellen, in die Würdigung einer Untersuchung ein. Oft ist es so, dass die jeweiligen Experten, die die IT-forensische Analyse durchgeführt haben, als Sachverständige vor Gericht Auskunft über die vorgenommene Analyse geben müssen.

- Ergebnisse verwenden und präsentieren (Production / Presentation)

Volltreffer: Die benötigten Fakten sind gefunden. Doch damit ist der eDiscovery-Prozess noch nicht am Ende angelangt. Bei der Verwertung juristischer Fakten kommt es nämlich auch darauf an, dass sie entsprechend sehr spezifischer Vorgaben aufbereitet, übermittelt und präsentiert werden, um Formfehler und regulatorische Verstöße zu vermeiden. Wichtig ist spätestens bei diesem Prozessschritt, dass (besondere) personenbezogene oder auch vertrauliche Informationen, sofern sie keine Sachverhaltsrelevanz aufweisen, geschwärzt werden. Bei solchen Anforderungen sind Verfahren der automatisierten Erkennung und Schwärzung (Redaction) der genannten Daten mittlerweile sehr fortgeschritten. Dabei gehen die technologischen Lösungen über die automatisierte Erkennung und Schwärzung von alphanumerischen Mustern (bspw. Listen von Namen, Adressen, Funktionsbezeichnungen und E-Mail-Adressen) hinaus.

Bei der sogenannten Entity Based Recognition werden definierte Datenobjekte automatisiert erkannt, ohne dass die jeweilige Ausprägung des Datenobjekts zuvor bekannt sein muss. D. h. Namen in einem E-Mail-Text werden erkannt, ohne dass im Vorhinein eine Liste an Namen als Referenz bereitgestellt werden muss. Die Schwärzungsvorschläge können dann direkt in einzelnen Dokumenten geprüft und zur finalen Schwärzung freigegeben werden. Ein passender Data Privacy Workflow sorgt dafür, dass die Vorschriften je nach Prozessschritt genauestens eingehalten werden. Diese Vorgehensweise findet auch bereits bei früheren Verarbeitungsschritten Anwendung, so zum Beispiel im Rahmen des Processings oder nach dem Early Case Assessment. Das Ziel ist dabei, den Dateneingriff so verhältnismäßig wie möglich zu gestalten. So ist es zum Beispiel nicht zwangsläufig erforderlich, Namen zu Analysezwecken zur Verfügung zu haben, um in Kommunikationen nachzuweisen, dass sich zu vertraulichen Informationen ausgetauscht wurde – ein wichtiger Indikator, um bspw. den konkreten Verdacht eines vermuteten Datenlecks weiter zu verifizieren, ohne zu starken Eingriff in Persönlichkeitsrechte von Betroffenen zu nehmen. Der Charme hierbei ist, dass konkrete KPIs bereitgestellt werden können, um Aussagen über die Vollständigkeit der Schwärzung bestimmter Datenobjekte zu treffen. Ein weiteres Beispiel ist die Angabe eines Confidence Levels für die Verschlüsselung bei Datenarchivierungen.

Compliance-Metriken nehmen über den Gesamtprozess von Datenanalysen stetig zu und geben Verantwortungsträgern somit die Möglichkeit, nicht nur ein vages Gefühl der Compliance im Rahmen von Datenanalysen, basierend auf dem Review von Richtlinien und stichprobenartigen Reviews von Maßnahmen, zu erlangen. Sondern die Compliance ist in einer konkreten Form messbar geworden. Auf Basis von Metriken können Entscheidungen getroffen werden: Daten sind in ausreichendem Maß verlässlich geschwärzt und sicher verschlüsselt. Die entsprechende Production darf übergeben werden. Die verlässliche Aussage über den Zustand von Daten durch Experten für die jeweilige Datenverarbeitung wird demnach zunehmend durch handlungsleitende KPIs abgelöst. Ein weiterer Schritt in Richtung Unabhängigkeit der Entscheidungsträger in den Unternehmen – auch bei komplexen technologiegestützten Fragestellungen im hohen Risikobereich.

Technologische Trends sicher nutzbar machen mit Deloitte eDiscovery

Keine Frage: eDiscovery ist ein überaus komplexes und spannendes Feld. Kaum ein Unternehmen kann die vollständige dafür notwendige Expertise und Kapazität inhouse pflegen. Immer mehr Unternehmen entscheiden sich aber dafür, Qualitätsstandards zu setzen und aktiv zu steuern: Sie wollen bewusst Einfluss auf das Maß der Geschwindigkeit, Erkenntnismöglichkeit, Vollständigkeit, Transparenz, Verhältnismäßigkeit und Qualität nehmen. Ein starker Partner bietet sich daher an – sowohl für die konkrete Durchführung eines Projekts als auch schon für eDiscovery-Consulting im Vorfeld. Deloitte bietet mit seinen über 1.200 dedizierten Discovery-Spezialisten in weltweit über 35 Ländern ein breites Netzwerk mit weitreichender technischer Expertise, Mut zur Veränderung und tiefem Brancheneinblick. Die Ergänzung des Teams mit spezialisierten Juristen und lokalspezifischem Wissen ermöglicht eine individuelle Operationalisierung von Anforderungen. Die Experten arbeiten mit einem weiten Spektrum an Analytics- und Softwarelösungen und entwickeln komplementäre eigene Anwendungen. Die Ergebnisse des Deloitte eDiscovery-Teams sind weltweit von Aufsichts- und Strafverfolgungsbehörden sowie führenden Wirtschaftskanzleien und Experten anerkannt.

Die Erfahrung zeigt dabei: Ein planmäßiges Vorgehen zahlt sich aus, und zwar von Anfang an. Die Ergebnisse eines koordinierten Investigation Data Managements können sich sehen lassen – auch in Zahlenform. Im Rahmen eines eDiscovery Readiness Assessments bezifferten die Experten von Deloitte die Einsparungen durch konkrete Maßnahmen für ausgewählte Projekte: Central Vendor Management brachte Einsparungen bei Hosting Fees (41 %), Lizenzgebühren (17 %) und Stundensätzen (8 %). Die Projektdauer konnte durch Early Case Assessment um 83 % verkürzt werden. Prozess-Automatisierung setzte bis zu 28 % mehr interne Kapazitäten für die Datenaufbereitung frei. Zügige Datenlöschung verringerte die nötigen Hosting-Ressourcen um 62 %. Beeindruckende Zahlen, die das Effizienz-Potenzial von eDiscovery unterstreichen.

Zu einem umfassenden eDiscovery-Ansatz gehört aber auch die Dimension der Prävention. Um im Ernstfall wertvolle Zeit zu sparen, Risiken – insbesondere auch Cyber-Risiken – wirksam zu begegnen und ineffiziente Wegstellungen zu vermeiden, sollten passende Strukturen und Expertise schon im Vorfeld aufgebaut werden – von organisatorisch-technischen Rahmenbedingungen, unternehmensstrategischem Aufbau von Expertise, über vorbereitete Workflows, Automatisierung und Prozess-Controlling bis hin zu Kommunikations- und Reporting-Templates sowie Management Dashboards.