データモダナイゼーション最前線「集めるデータ基盤からつなぐデータ基盤へ」（全3回）第2回／次世代のデータ基盤：データカタログで「つなぐ」分散型のデータ管理

前回記事ではデータ基盤の歴史からデータモダナイゼーションの観点で必要となる「集めるデータ基盤」から「つなぐデータ基盤」への転換についてと、現在の課題を解説いたしました。データ分析基盤はレイクハウス等による実データの集約から、データカタログの開示によってデータをつなぐ、分散型のアーキテクチャへと進化しつつあります。本記事では、データ基盤から踏み込んで実際のデータに付加価値をつけてつないでいくためには何が必要になるのか、またAI技術の発展を視野に入れたデータカタログの重要性を解説し、次世代のデータモダナイゼーション戦略を考察します。

こんな方におすすめ

次のようなビジョンをお持ちの経営層やIT管理者

柔軟かつ拡張性のあるデータ基盤への刷新を通じて全社的なデータ活用を促進し、企業競争力を高めたい
分散型のデータ管理や基盤のモダナイゼーションを通じて、部門を超えたデータ利活用を実現したい
AIを最大限に活用できるデータ基盤への移行による、新たなビジネス価値の創出に興味がある

分散型のデータ管理アーキテクチャ　―データカタログで「つなぐ」―

データモダナイゼーションにおいて重要なことは、組織の壁を超えてデータを利活用できる「つなぐ」データ基盤という考え方であると述べました。データメッシュやデータファブリックなどの分散型データ基盤は、各組織がデータを所有・管理し、データカタログでメタデータを共有することで、組織・会社の壁を越えたデータの共有＝“データの民主化”を実現する考え方です。データを集約する場合には、増え続けるデータの保管や整合性維持が課題となりますが、分散型アーキテクチャではこの課題を回避することができます。一方で、現状のデータに対する付加価値を高めてよりデータ利活用を促進する「データモダナイゼーション」においてキーとなるのがデータカタログ管理です。しかしながら、現状、データカタログはデータマネージメントの要素として導入されるものの、それを有効に活用できているとは言い難い状況にあると思います。データカタログが十分に活用しきれていない背景には、どのような課題があるのでしょうか。

データカタログの登録・更新

データカタログの利活用の実情や課題を見るためには、データカタログがどのように運用・管理されているのかを見る必要があります。データは収集・蓄積される際にデータカタログとしてメタデータとともに登録されますが、このとき登録・更新が必要なデータは大きく分けてビジネスメタデータ、システムメタデータ、タグの３つに分類されます。

このうちシステムメタデータの登録・更新は各種ベンダーより自動化機能が出ています。API連携やSQLにてシステムメタデータを自動収集する他、データソース上の変更を検知して取り込む変更データキャプチャ（Change Data Capture : CDC）と呼ばれる機能もあり、データソース側からリアルタイムでシステムメタデータを収集・更新することが可能となりつつあります。

しかしビジネスメタデータ及びタグの登録・更新について、自動化ツールはまだ発展途上です。これはビジネスメタデータやタグが文脈依存の収集となり、更に企業や業界ごとに異なるため機械的な処理が困難であることが理由です。このため、ビジネスメタデータの登録・更新は登録するユーザに大きく依存する形になり、事実上、有効なビジネスメタデータがほとんど登録されない状況となり、データをビジネスで有効利用することを難しくしているのです。こうした人に依存した登録・更新作業の自動化を実現するためには、自然言語処理や機械学習の進化が必要であり、将来的にはAIによる自動化が可能となることが期待されます。

AI活用を見据えたデータカタログ管理　―ルールやガイドラインの整備―

ビジネスメタデータ及びタグについて、一つ一つのビジネス上の意味や関係性について確認し登録することは、非常に労力を要する作業です。またデータの陳腐化を避けるためにも、変更があれば迅速に更新する必要があり、「データカタログ初期登録・更新コストが膨大となる」という問題の根本原因となっています。

AIによる自動化・省力化を実現するためには、現在の手作業によるビジネスメタデータおよびタグ付けのプロセスを見直し、準備を進める必要があります。具体的には、以下のようなルールやガイドラインを組織全体で整備しておくことが重要です。これらのルールやガイドラインをAIが学習することで、将来的に登録作業をAIで代替することが可能となります。

命名規則の整備：
例）オリジナルデータであることを示す接頭語/接尾語/タグを定める
タグ付けの規則を定める：
例）改変を禁止するタグを定めておく

統一された基準を設けることで、メタデータおよびタグの管理が効率化され、AIによる自動化の準備が整います。最終的には、これらの基準をAIが学習し、将来的に手作業の登録作業を代替することが期待されます。

データオーナーによる手動登録（As Is）から、AIによる自動タグ付けによる省力化（To Be）へ

データ利活用の更なる発展　―企業・国を横断したデータ共有―

「つなぐ」データ基盤としてスケーラブルな基盤を実現できると、更なるデータ利活用の発展として企業・国を超えたデータ共有が見えてきます。欧州では実際に以下のような取り組みが始まっています。

製造業データスペース（ドイツ）
製造プロセスの効率化、柔軟性向上、競争力強化を目指し、企業・組織を超えて製造データを共有・分析し、製造プロセスやデジタルモデルを作成する。
データソース：Manufacturing-X（https://www.plattform-i40.de/IP/Navigation/EN/Manufacturing-X/Manufacturing-X.html）
医療データスペース（EU）構想フェーズ
患者本人が診療記録、処方箋、検査結果などを加盟国間の医療機関と共有したり、データの追加・修正が可能となる。また研究開発や政策立案などの分野に医療データの活用を想定する。
データソース：日本貿易復興機構JETRO「欧州委、欧州医療データ空間を創出し、研究開発等での活用を認める法案を発表(EU)」（https://www.jetro.go.jp/biznews/2022/05/239b2a5546398854.html）

今後、こうした「つなぐ」データ基盤による新しいデータ利活用のあり方、データモダナイゼーションに対する取り組みはますます増えていくと考えられます。こうしたデータ基盤に対して、データカタログを有効に整備して利活用することで更なるデータによるモダナイゼーションが可能となります。

次回予告

本記事では分散型データ基盤とデータカタログ管理のポイントを解説しました。

次回は、AI時代において備えておくべきデータモダナイゼーションの課題と展望について掲載予定です。

はい

いいえ