メインコンテンツに移動する

データモダナイゼーション最前線「集めるデータ基盤からつなぐデータ基盤へ」(全3回)第1回/データ利活用におけるデータ基盤のトレンド

データ分析基盤の整備は、企業が競争優位性を保つために不可欠な要素です。データを効果的に活用することで、経営戦略の精度を高め、新たな一手を打つための洞察を得ることができます。本記事では、理想的なデータ分析基盤を効率的に理解頂けるよう、データ基盤の変遷や直面する課題、課題を踏まえた次のトレンドを体系的に解説します。

こんな方におすすめ

次のようなビジョンをお持ちの経営層やIT管理者

  • 柔軟かつ拡張性のあるデータ基盤への刷新を通じて全社的なデータ活用を促進し、企業競争力を高めたい
  • 分散型のデータ管理や基盤のモダナイゼーションを通じて、部門を超えたデータ利活用を実現したい・AIを最大限に活用できるデータ基盤への移行による、新たなビジネス価値の創出に興味がある

企業競争力を高めるデータモダナイゼーション -データの民主化-

データの効率的な活用には、組織の壁を越えたデータ活用が重要です。ここで鍵となるのが「データの民主化」です。データの民主化とは、専門家だけでなく、各部門の担当者が自らデータを発見し分析できることです。これにより、データ活用において多様な視点が加わり、これまでにない付加価値を生み出すことができます。各部署が自主的にデータを発見し分析することで、新たな価値創出が可能となるのです。

この実現には、組織を超えてデータを共有し、活用するための基盤を構築することが必要です。

データ基盤の変遷

近年の企業システムはコスト効率向上のため、一つの大きなプログラムから、業務のニーズに応じてシステムやサービスを組み合わせる形に変わり、企業内のデータは分散するようになりました。さらに最近では、SaaS活用等により、更なるデータソースの分散化が進んでいます。

これまで、データ分析のために分散したデータを目的に応じて集約し、集約したデータを一元管理するという流れの中で、データ基盤は以下のように変遷してきました。

  1. データウェアハウス(以下DWH) 1990年代~
    構造化データを蓄積し、分析するために設計されました(図中1)。構造化データ(例:リレーショナルデータベース)を効率的に分析できる一方、多様なデータに対応できませんでした。
  2. +データレイク 2010年代~
    そこで構造化データだけでなく、半構造化データ(例:JSON、XML)や非構造化データ(例:テキスト、画像、動画)をすべて保存できるデータレイクが開発されました。データレイクはデータをそのまま保存可能ですが、分析のための変換が必要で、その過程で生じるデータの不整合や、DWHとの二重管理などの課題がありました。
  3. レイクハウス 2020年代
    近年ではDWHの強み(データの一貫性、品質管理)とデータレイクの強み(柔軟性)を組み合わせたレイクハウスと呼ばれるアーキテクチャーが提唱され、DWHとデータレイクで二重管理していたデータを単一プラットフォームで集中管理・分析できるデータ基盤が広がり始めています。

次世代のデータ基盤
―スケーラブルかつ柔軟に活用可能なデータ基盤の構築―

前述の通り、これまでデータ基盤は分散したデータを分析する為に集約し、集約したデータを一元管理するという流れで発展してきました。しかしデータが急速に増え続けるデジタル社会において、データをスケーラブルかつ柔軟に活用できるデータ基盤が必要であると考えられ始めています。

現在のデータ基盤が抱える課題

  1. データスケーラビリティの限界分析を目的としてデータを一か所に集める場合、際限ないデータのスケーラビリティが必要だが実現は困難である。
  2. データ構築・収集・保管コストのバースト
    データ基盤の構築コストに加え、データ管理に必要な人件費やデータを加工するためのETLなどの処理実装コスト、データ保管コストが継続的に発生する。データ量、処理量共に増え続けるため、データ基盤の維持費用が高くなる。
  3. ハイメンテナンスなデータ整合性の維持
    収集後、元データに変更が生じた場合、動的なデータ更新が求められる。データの一貫性を維持するためには、マニュアルでの更新または自動検知機能の追加開発・維持が必要となる。

以上の課題から、データを目的に合わせて集約するのではなく、“データメッシュ”と”データファブリック”を組み合わせたデータを「つなぐ」分散型データ管理アプローチが有望な解決策として注目され始めています。

また世界的にも、データスペースという国や組織を超えたデータ共有・分析を行う取り組みが始まり、これまで以上にスケーラブルで柔軟なデータ基盤への注目が高まっています。

データカタログで「つなぐ」

データメッシュは、各組織のデータソースからデータレイクやデータウェアハウスなどに集約するというこれまでの中央集権的なデータ管理とは異なり、各組織で自律的にデータを管理し、組織間で相互にアクセスを行うことができるという考え方です。

このような自律的な管理体制だと一見データ管理が無秩序になりがちに思えますが、データメッシュでは組織横断的なルールを設けて、ルールに基づいた手法・ツールによって各組織でのデータに秩序を持たせます。こうすることで、大規模なデータの統合・集約を行うことなく、共通したポリシーのデータを管理し、誰でも共通の理解に基づいたデータ利用を行うことができます。

同じように先進的なデータアプローチとしてデータファブリックというものが存在します。データメッシュが分散的かつ組織ルール的なアプローチであったのに対して、データファブリックは技術的なアプローチにより、データの統合・一元管理を行います。データファブリックでは、データフローを統合し、データクレンジングなどの技術を用いて、組織間のデータの標準化を行います。また、データカタログなどのメタデータ管理のソリューションを用いることで、どこにどんなデータが存在するかを把握することで、誰でもデータ利活用できる状態を実現します。

これらのデータ管理のアプローチは個別で行うだけではなく、必要に応じて相互に組み合わせることにより、より優れたデータ基盤を実現することが可能です。

そして「つなぐ」という観点から、デロイト トーマツではデータカタログの準備が今後のデータ利活用における重要な取り組みであると考えています。

次回予告

本記事ではデータ基盤の変遷と、課題、解決策を解説しました。次回は次世代のデータ基盤を踏まえ、「データカタログ管理とAI活用」について掲載予定です。

このページはお役に立ちましたか?

ご協力ありがとうございました。