Azure での健康データ コンソーシアム

Azure Data Factory
Azure Data Lake Storage
Azure Data Share
Azure Databricks
Azure SQL データベース

データ コンソーシアム向けのこのソリューションでは、Azure コンポーネントが使用されます。 次の目標を満たしています。

  • 複数の組織でデータを共有する方法を提供する。
  • データのオーケストレーション作業を一元化する。
  • データのセキュリティを確保する。
  • 患者のプライバシーを保証する。
  • データの相互運用性をサポートする。
  • 特定の組織の要件を満たすためのカスタマイズ オプションを提供する。

アーキテクチャ

コンソーシアムのメンバーがデータを共有する方法を閉めずアーキテクチャの図。

点線のボックスはデータ ソース、メンバー データ ストア、コンソーシアム データ ストア、共有サービスを表します。 ソース ボックスには、データ ソースを表すいくつかのカラーのアイコンが含まれています。 メンバーとコンソーシアムのデータ ストア ボックスには、より小さな点線のボックスが含まれています。 メンバー ボックス内の 1 つの小さいボックスには、データが格納および分析される Azure コンポーネントのアイコンが含まれています。 もう一方のボックスには、データ共有メンバーのアイコンが含まれています。 コンソーシアム データ ストア ボックスには、データ ストレージ アイコンが表示された小さいボックスが含まれています。 コンソーシアム ボックスには、Azure データ読み込みコンポーネントのアイコンが表示されたボックスも含まれています。 これら 2 つのボックスに加えて、コンソーシアム ボックスには、メンバー ボックスに含まれるのと同じ 2 つのボックスも含まれています。 すべてのボックスの間を、矢印が左から右にポイントしています。 最後の 1 つの矢印は、コンソーシアムのデータ共有ボックスからメンバー ボックスにループバックします。 これらのボックスの下には、共有サービスのアイコンが点線で囲まれて表示されます。

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  1. 生データは、オンプレミスとサード パーティのソースで生成されます。 コンソーシアムのメンバーは、Azure Data Share の次のいずれからのストレージ サービスにこのデータを読み込みます。

  2. コンソーシアムは、メンバーにデータを共有するように要求します。 データ プロデューサーとして、メンバーはスナップショットを共有するか、またはインプレース共有を使用できます。

  3. データ コンシューマーとして、コンソーシアムは共有メンバー データを受け取ります。 このデータにより、コンソーシアムの Data Share に Data Lake Storage が取り込まれ、さらなる変換が行われます。

  4. Azure Data FactoryAzure Databricks によってメンバー データのクリーンが行われ、共通の形式に変換されます。

  5. コンソーシアムは、メンバー データを結合し、サービスに格納します。 データの構造とボリュームに基づいて、最適なストレージ サービスの種類が決まります。 可能性としては次のとおりです。

    • Azure Synapse Analytics
    • Azure SQL データベース
    • Azure Data Lake Storage
    • Azure Data Explorer
  6. データ共有プロデューサーとして、コンソーシアムはメンバーにデータを受信するよう招待します。 メンバーは、スナップショット データまたはインプレース共有データを受け入れることができます。

  7. データ コンシューマーとして、メンバーは共有データを受け取ります。 このデータにより、調査および分析のためにメンバー データ ストアが取り込まれます。

システム全体:

Components

このソリューションでは、次のコンポーネントを使用します。

医療プラットフォーム

  • 電子健康記録 (EHR) は、患者に関するリアルタイム情報のデジタル バージョンです。

  • 高速ヘルスケア相互運用性リソース (FHIR) は、Health Level Seven International (HL7) が発行する医療データ交換のための標準です。

  • 医療におけるモノのインターネット (IoMT) は、オンライン コンピューター ネットワーク経由で IT システムに接続される医療用デバイスとアプリのコレクションです。

  • ゲノミクス データによって、遺伝子が相互に、および環境と相互作用する方法に関する情報が提供されます。

  • イメージング データには、放射線、心臓イメージング、放射線療法、その他のデバイスで生成される画像が含まれます。

  • カスタマー リレーションシップ マネージメント (CRM)、請求、サード パーティのシステムでは、患者に関するデータが提供されます。

Azure コンポーネント

  • Azure Data Share を使用すると、複数の組織がデータを安全に共有することができます。 このサービスにより、データ プロバイダーは、共有するデータを制御することができます。 誰がどのデータをいつ共有したかを管理および監視するのが簡単です。 Data Share を使用すると、さまざまなメンバーのデータを組み合わせることで、分析や AI のシナリオの強化も簡単になります。

  • Azure Synapse Analytics は、データ ウェアハウスおよびビッグ データ システム用の分析サービスです。 この製品を使用すると、サーバーレスのオンデマンド リソースまたはプロビジョニングされたものでデータのクエリを行えます。 Azure Synapse Analytics は、大量の構造化データを使用する場合に適しています。

  • Azure SQL Database は、フル マネージドのサービスとしてのプラットフォーム (PaaS) データベース エンジンです SQL Database では、AI を利用した自動化機能により、アップグレード、パッチの適用、バックアップ、監視などのデータベース管理機能が処理されます。 このサービスは、構造化データに適しています。

  • Data Lake Storage は、高パフォーマンスの分析ワークロード用の非常にスケーラブルで安全なデータ レイクです。 このサービスを使用すると、数百ギガビットのスループットを維持しながら、数ペタバイトの情報を管理できます。 Data Lake Storage によって、複数のメンバーからの構造化および非構造化データを 1 つの場所に格納する手段が提供されます。

  • Azure Data Explorer は、フル マネージドの高速データ分析サービスです。 このサービスを使用して、大量のデータに対するリアルタイム分析を行うことができます。 Azure Data Explorer では、アプリケーション、Web サイト、IoT デバイス、その他のソースからのさまざまなデータ ストリームを処理できます。 Azure Data Explorer は、ストリーミング テレメトリとログ データのインプレース共有に適しています。

  • Azure Data Factory は、ハイブリッド データ統合サービスです。 このフル マネージドのサーバーレス ソリューションを、データ統合と変換ワークフローに使用できます。 Data Factory では、コードなしの UI と使いやすい監視パネルが提供されます。 このソリューションでは、異なるメンバー データ共有から Data Factory パイプラインにデータが取り込まれます。

  • Azure Databricks はデータ分析プラットフォームです。 最新の Apache Spark 分散処理システムに基づいて、Azure Databricks ではオープンソース ライブラリとのシームレスな統合がサポートされています。 このソリューションでは、Azure Databricks ノートブックが使用され、すべてのメンバー データが共通の形式に変換されます。

  • Microsoft Entra ID は、マルチテナントでクラウドベースの ID およびアクセス管理サービスです。

  • Azure Key Vault では、API キー、パスワード、証明書、暗号化キーなどのシークレットが安全に格納され、アクセスが制御されます。 このクラウド サービスでは、セキュリティ証明書も管理されます。

  • Azure Pipelines では、自動的にコード プロジェクトがビルドおよびテストされます。 この Azure DevOps サービスでは、継続的インテグレーション と継続的デリバリー (CI/CD) が組み合わされます。 これらのプラクティスを使用することにより、Azure Pipelines でコードが継続的かつ一貫してテストおよびビルドされ、任意のターゲットに送られます。

  • Defender for Cloud を使用すると、統合されたセキュリティ管理と高度な脅威に対する保護をハイブリッド クラウド ワークロード全体で利用できます。

代替

Data Share では、データ ストレージ用に多くの代替手段が用意されています。 どのサービスを選択するかは、共有方法と、データのボリュームおよび種類によって異なります。

  • バッチ データのスナップショット共有には、次のいずれかのサービスを使用します。

    • Azure Synapse Analytics
    • SQL Database
    • Data Lake Storage
    • Azure Blob Storage
  • ストリーミング テレメトリとログ データのインプレース共有には、Azure Data Explorer を使用します。 さまざまなソースからデータを分析する方法の詳細については、[Azure Data Explorer の対話型分析][Azure Data Explorer の対話型分析] を参照してください。

  • 一部のデータセットは大きかったり、非リレーショナルであったりします。 標準化された形式のデータが含まれていないものもあります。 これらの種類のデータセットの場合、Azure Synapse Analytics や SQL Database よりも Blob Storage または Azure Data Lake Storage の方が、Data Share とのデータ交換に適しています。 医療データを効率的に格納する方法の詳細については、「医療データ ストレージ ソリューション」を参照してください。

Data Share が選択肢でない場合は、代わりに仮想プライベート ネットワーク (VPN) をご検討ください。 サイト間 VPN を使用して、メンバーとコンソーシアムのデータ ストアの間でデータを転送できます。

シナリオの詳細

従来の臨床試験は、複雑で時間がかかり、コストがかかる場合があります。 このような問題に対処するため、ますます多くの医療機関が互いに提携し、臨床試験を実施するためのデータ コンソーシアムを構築しています。

データ コンソーシアムは、以下のような様々な面で医療にメリットがあります。

  • 調査データを利用できるようにする。
  • 新しい収益の流れを提供する。
  • データへのクイック アクセスが提供され、コスト効率に優れた規制上の決定につながる。
  • イノベーションを加速させることで、患者の安全と健康を守ることができる。

考えられるユース ケース

多くの種類の医療専門家が、このソリューションの恩恵を受けることができます。

  • 患者アウトカムなど、現実世界の観察データを使用して治療を決定する組織。
  • 個別化または精密医療を専門とする医師。
  • 患者データへの簡単なアクセスを必要とする遠隔医療提供者。
  • ゲノムデータを扱う研究者。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

このソリューションのテクノロジは、セキュリティ、スケーラビリティ、可用性に関するほとんどの企業の要件を満たしています。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの重要な要素の概要」を参照してください。

医療情報は秘密度が高いため、いくつかのコンポーネントは、データのセキュリティ保護の役割を果たします。

  • Data Share のセキュリティ機能を使用すると、データが次の方法で保護されます。

    • 保存データの暗号化 (基になるデータ ストアで保存時の暗号化がサポートされます)。
    • トランスポート層セキュリティ (TLS) 1.2 を使用した転送中のデータの暗号化。
    • 保存時と転送中のデータ共有に関するメタデータの暗号化。
    • 共有された顧客データの内容は保存されません。
  • Azure Synapse Analytics では、包括的なセキュリティ モデルが提供されます。 詳細なコントロールを使用して、1 つのセルからデータベース全体まで、あらゆるレベルでデータをセキュリティで保護することができます。

  • SQL Database では階層化されたアプローチが使用され、顧客データが保護されます。 この戦略により、次の領域がカバーされます。

    • ネットワークのセキュリティ
    • アクセス管理
    • 脅威の防止
    • 情報の保護
  • Data Lake Storage ではアクセス制御が提供されます。 このモデルでは、次の種類の制御がサポートされています。

    • Azure のロールベースのアクセス制御 (RBAC)
    • ポータブル オペレーティング システム インターフェイス (POSIX) のアクセス制御リスト (ACL)
  • 次の方法で、Azure Data Explorer でデータが保護されます

    • Azure リソース用 Microsoft Entra ID マネージド ID を使います。
    • RBAC を使用して職務を分離し、アクセスを制限する。
    • Azure Data Explorer の外部のネットワーク セグメントからのトラフィックをブロックする。
    • データが保護され、Azure Disk Encryption を使用してコミットメントを満たすのに役立ちます。 このサービスでは、仮想マシンのデータ ディスクと OS に対するボリューム暗号化が提供されます。 また、Azure Disk Encryption は Key Vault と統合され、Microsoft のマネージド キーまたはカスタマー マネージド キーを使用してシークレットが暗号化されます。

可用性

このソリューションでは、単一リージョンのデプロイが使用されます。 一部のシナリオでは、高可用性、ディザスター リカバリー、または近接を実現するために複数リージョンのデプロイが必要です。 そのような場合、次のサービスでは、高可用性のためにペアになっている Azure リージョンが提供されます。

コスト最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

このソリューションの価格は、次のいくつかの要因によって異なります。

  • 選択したサービス
  • システムの容量とスループット
  • データに使用する変換
  • ビジネス継続性レベル
  • ディザスター リカバリー レベル

詳細については、価格の詳細に関するページをご覧ください。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

  • Matt Hansen | シニア クラウド ソリューション アーキテクト
  • Aruna Ranganathan | プリンシパル カスタマー エンジニアリング マネージャー

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ

次の点を明確にして、ソリューションをカスタマイズする方法を決定します。

  • 利用できるデータ ソース
  • 各データ ソースの場所
  • メンバーがソース データを受信するために使用できる Azure サービス
  • メンバーがコンソーシアムと共有できるデータ
  • メンバーがデータを共有する方法: インプレース共有を使用したスナップショットまたはデータ ストリームとしてのバッチ
  • コンソーシアムで共有データが受信されるために使用できる Azure サービス
  • メンバー データの形式と、それにクリーニングまたは変換が必要かどうか
  • コンソーシアムでメンバーと共有できるデータ

製品ドキュメント: