前回記事ではデータ基盤の歴史からデータモダナイゼーションの観点で必要となる「集めるデータ基盤」から「つなぐデータ基盤」への転換についてと、現在の課題を解説いたしました。データ分析基盤はレイクハウス等による実データの集約から、データカタログの開示によってデータをつなぐ、分散型のアーキテクチャへと進化しつつあります。本記事では、データ基盤から踏み込んで実際のデータに付加価値をつけてつないでいくためには何が必要になるのか、またAI技術の発展を視野に入れたデータカタログの重要性を解説し、次世代のデータモダナイゼーション戦略を考察します。
次のようなビジョンをお持ちの経営層やIT管理者
データモダナイゼーションにおいて重要なことは、組織の壁を超えてデータを利活用できる「つなぐ」データ基盤という考え方であると述べました。データメッシュやデータファブリックなどの分散型データ基盤は、各組織がデータを所有・管理し、データカタログでメタデータを共有することで、組織・会社の壁を越えたデータの共有=“データの民主化”を実現する考え方です。データを集約する場合には、増え続けるデータの保管や整合性維持が課題となりますが、分散型アーキテクチャではこの課題を回避することができます。一方で、現状のデータに対する付加価値を高めてよりデータ利活用を促進する「データモダナイゼーション」においてキーとなるのがデータカタログ管理です。しかしながら、現状、データカタログはデータマネージメントの要素として導入されるものの、それを有効に活用できているとは言い難い状況にあると思います。データカタログが十分に活用しきれていない背景には、どのような課題があるのでしょうか。
データカタログの利活用の実情や課題を見るためには、データカタログがどのように運用・管理されているのかを見る必要があります。データは収集・蓄積される際にデータカタログとしてメタデータとともに登録されますが、このとき登録・更新が必要なデータは大きく分けてビジネスメタデータ、システムメタデータ、タグの3つに分類されます。
このうちシステムメタデータの登録・更新は各種ベンダーより自動化機能が出ています。API連携やSQLにてシステムメタデータを自動収集する他、データソース上の変更を検知して取り込む変更データキャプチャ(Change Data Capture : CDC)と呼ばれる機能もあり、データソース側からリアルタイムでシステムメタデータを収集・更新することが可能となりつつあります。
しかしビジネスメタデータ及びタグの登録・更新について、自動化ツールはまだ発展途上です。これはビジネスメタデータやタグが文脈依存の収集となり、更に企業や業界ごとに異なるため機械的な処理が困難であることが理由です。このため、ビジネスメタデータの登録・更新は登録するユーザに大きく依存する形になり、事実上、有効なビジネスメタデータがほとんど登録されない状況となり、データをビジネスで有効利用することを難しくしているのです。こうした人に依存した登録・更新作業の自動化を実現するためには、自然言語処理や機械学習の進化が必要であり、将来的にはAIによる自動化が可能となることが期待されます。
ビジネスメタデータ及びタグについて、一つ一つのビジネス上の意味や関係性について確認し登録することは、非常に労力を要する作業です。またデータの陳腐化を避けるためにも、変更があれば迅速に更新する必要があり、「データカタログ初期登録・更新コストが膨大となる」という問題の根本原因となっています。
AIによる自動化・省力化を実現するためには、現在の手作業によるビジネスメタデータおよびタグ付けのプロセスを見直し、準備を進める必要があります。具体的には、以下のようなルールやガイドラインを組織全体で整備しておくことが重要です。これらのルールやガイドラインをAIが学習することで、将来的に登録作業をAIで代替することが可能となります。
統一された基準を設けることで、メタデータおよびタグの管理が効率化され、AIによる自動化の準備が整います。最終的には、これらの基準をAIが学習し、将来的に手作業の登録作業を代替することが期待されます。
「つなぐ」データ基盤としてスケーラブルな基盤を実現できると、更なるデータ利活用の発展として企業・国を超えたデータ共有が見えてきます。欧州では実際に以下のような取り組みが始まっています。
今後、こうした「つなぐ」データ基盤による新しいデータ利活用のあり方、データモダナイゼーションに対する取り組みはますます増えていくと考えられます。こうしたデータ基盤に対して、データカタログを有効に整備して利活用することで更なるデータによるモダナイゼーションが可能となります。
本記事では分散型データ基盤とデータカタログ管理のポイントを解説しました。
次回は、AI時代において備えておくべきデータモダナイゼーションの課題と展望について掲載予定です。