メタデータを同期する(Dataplex Universal Catalog)

Dataplex Universal Catalog からMashuへメタデータを同期するための設定手順と、必要なGCPの権限について説明します

1. データソースの作成

Mashuに新しいデータソースを作成します。データソースのタイプ選択画面で、「Dataplex Universal Catalog」を選択してください。

2. Dataplex Universal Catalog への接続情報設定

データソース画面の「接続設定」タブで、 Dataplex Universal Catalog への接続情報を設定します。

  • Service Account Key (JSON): GCPのサービスアカウントキー(JSON形式)をアップロードします。このキーは安全に管理してください。

  • Locations(複数指定可): メタデータを同期したいGCPのロケーション(例: asia-northeast1)を指定します。指定したロケーションのみが同期対象となります。


3. 接続設定の保存とシステム選択

Dataplex Universal Catalog への接続情報を入力後、「保存」ボタンをクリックします。GCPへの接続に成功すると、GCPプロジェクトで利用可能なソースシステム(BigQuery, CloudSQLなど)の一覧が表示されます。一覧からメタデータを同期したいシステムを選択してください。

同期したいメタデータが含まれるシステムを選択してください。


4. 同期対象設定

データソース画面の「データソース設定」タブで、同期するメタデータの種類を絞り込むための「タイプエイリアス」を指定します。

5. 必要な GCP 権限

手順2で使用するサービスアカウントには、MashuがDataplexからメタデータを読み取るためのIAM権限が必要です。GCPコンソールで、以下の権限をサービスアカウントに付与してください。

5.1 Dataplex Universal Catalog に対する権限

  • dataplex.aspectTypes.get
  • dataplex.entries.get
  • dataplex.entryGroups.get
  • dataplex.entryTypes.get
  • dataplex.projects.search

5.2 Data Lineage に対する権限

  • datalineage.events.get
  • datalineage.locations.searchLinks
  • datalineage.processes.get

5.3 ソースシステムに対する権限

Dataplexがメタデータを収集している元のサービス(ソースシステム)に対しても、メタデータを読み取る権限が必要です。以下に代表的なシステムに対して必要な権限を示します。

BigQuery

  • bigquery.tables.get: テーブル・ビュー・マテリアライズドビューなどの同期に必要な権限
  • bigquery.models.getMetadata: モデルの同期に必要な権限
  • bigquery.routines.get: ルーチンの同期に必要な権限
  • bigquery.datasets.get: データセットの同期に必要な権限

CloudSQL

  • cloudsql.schemas.view
 Cloud Pub/Sub
  • pubsub.topics.get
 VertexAI
  • aiplatform.models.get

6. メタデータ同期の実行

最後に、「メタデータ」タブに移動し、「メタデータ同期」ボタンをクリックします。これにより、Dataplex Universal CatalogからMashuへのメタデータ同期が開始されます。