企業にとって、ビッグデータ活用の重要性が上がっている昨今。賢く効率よくビッグデータを活用するためには、そのための環境を整えておかなければなりません。
そこで注目を集めているのが、これからご紹介するデータマートです。今回は、データマートとはなにか?という基本的なところから、その種類やメリットについてまで、データマートに関する情報をお届けします。
■データ活用について知りたい方はこちら
データマートとは?
ビッグデータを活用する際、まず確保しておかなければいけないのがその保管場所。データウエアハウス(DWH)やデータレイクなど、ビッグデータを扱う上で用意すべき保管場所にはさまざまなものがあります。今回のメインテーマである「データマート」は、DWHやデータレイクと同じくデータを保管する場所であり、ビッグデータの活用に欠かせない存在です。
データマートとは、企業が保有している全てのデータの中から、目的ごとに必要なデータだけを取り出したデータベースのこと。データの保管場所全体を指すDWHやデータレイクとは違い、データマートはデータベースの一部を指す言葉です。
データマートのマート(mart)という単語は、「小売店」という意味を持つ言葉。DWHがデータの倉庫という位置づけだとすると、データマートはマートという単語の通りデータの小売店という位置づけになります。
より深く分析して新しい規則性を見つけるためには、データマートの活用が欠かせないのです。
データウエアハウス(DWH)との違いは?
ビッグデータを扱う上で、よく出てくるのが「データウエアハウス(DWH)」という言葉です。DWHとは、企業が収集したデータを蓄積するための場所のこと。企業では基幹システムをはじめ、さまざまなシステムから日々膨大な量のデータが蓄積されていきます。DWHは、さまざまなシステムから収集された会社全体のデータを時系列・目的別など決められた形式で管理できるという強みがあり、全社で活用できるインフラとして重宝されています。
特定の形式で膨大な量のデータが保存できるDWHに対して、データマートが扱えるのはそのごく一部。扱えるデータのサイズや範囲も小さく、あくまでもDWHから取り出したデータの一部であるという認識が正しいと言えます。
DWHは企業のさまざまなデータを保管する場所、データマートはDWHにあるデータから利用目的に合わせてカスタマイズした小さい単位のデータベース。これこそが、DWHとデータマートの一番大きな違いであると言えるのではないでしょうか。
データレイクとの違いは?
データレイクはDWHとは違い、さまざまな形式のデータを保存できる保管場所のこと。音楽や画像、動画などの非構造化データも保存できることから柔軟性に優れており、とにかくさまざまなデータを保存したいというときに活用できます。
データの形式にとらわれずにデータが保管できるデータレイクに対し、データマートは構造化データのみ保管が可能。その柔軟性の高さから、データレイクに保管されているデータは、ユーザーが独自のツールを使いながら自由な視点で分析を行うことができます。
しかしデータマートに保管されているデータは、データ分析を行う前にまず利用できる形に整理をし、環境を整えて可視化をしてからでないと分析が行えません。そのため、データマートのデータを扱えるだけのスキルを持つ担当者の存在は必須。この点も、データレイクとデータマートの大きな違いです。
データマートの種類
データマートは、大きく分けて3つの種類に分類されています。それぞれの特徴を確認していきましょう。
従属型
まずDWHを構築してから、そこに従属させる形で存在しているデータマートを「従属型データマート」と呼びます。先ほどもお伝えしたように、データマートはデータの小売店的な存在。すなわち、従属型データマートはたくさんのデータの倉庫であるDWHに接続して、そこから必要なデータの部分だけを読み込んで小売するようなイメージです。
DWHに保管されているデータは、すでにデータクレンジングの処理まで済まされたETL処理済みのものだけ。そのため、従属型のデータマートには、データクレンジングが施されたきれいなデータへ素早くアクセスできるというメリットがあります。
独立型
従属型データマートとは違い、データとデータマートの間にDWHを存在させずにスタンドアロンで機能するものを独立型データマートと呼びます。独立型データマートは、必要なシステムへのアクセス、データ収集、ETL処理まで全て独立して行います。
ETL処理まで済ませたデータへアクセスする従属型データマートとは違い、データマート自身でETL処理を行うため、スピード感はやや遅め。しかし、大規模なDWHの構築を必要としないことから、スモールスタートを切れるという大きなメリットがあります。
入力や分析も自立的に行なえるため、組織内にある小さなグループなどでの活用に向いています。
ハイブリッド型
DWHだけでなく、別のデータベースからもデータへのアクセスが行えるデータマートを、ハイブリッド型データマートと呼びます。DWHにアクセスして取得するデータについてはETL処理まで済まされたデータにアクセスできるため、従属型データマートの特徴と何ら変わりはありません。
大きく違うのは、DWHに保管されているデータだけでなく、別のデータベースにあるデータにもアクセスできるということ。DWHにあるデータだけではなく他のデータベースにあるデータにも目を向けることができるため、新たな視点からデータに目を向けることができるようになるのです。
こういった特徴から、ハイブリッド型データマートは新たな組織の立ち上げ時や新しい商品の発売時などに役立ちます。一方で、DWH内にないソースからデータを取得することになるため、運用する際には注意が必要なことも頭に入れておかなければなりません。
データマートを活用するメリット
データマートを利用する最大のメリットは、データへのアクセススピードの速さとその扱いやすさ。データマートは小さい単位のデータへアクセスする目的で使用されるツールであることから、膨大な量のデータの保管場所となるDWHやデータレイクとは違い、データ量が削減されているためレスポンスが速いという特徴があります。
その上、DWHやデータレイクよりも構造自体がシンプルであり、スピーディーな構築が可能。場合によっては数分で構築まで完了するケースもあり、ビジネスの中に簡単に組み込めることが大きなメリットだと言えます。
また、データマート内のデータは部門別に取り出してそれぞれの目的に合うように整理されてから格納されているため、データを引き出す際にも迅速に対応できるのが特徴。必要ないデータを処理するというステップが丸ごと省けるため、効率的にデータへアクセスすることが可能です。
データマート構築へのステップ
では、実際にデータマートを構築する際には、どのようなポイントに注意すればいいのでしょうか。データマート構築の流れを5つのステップにわけて解説していきましょう。
全体を設計し要件を定義
データマートの構築作業へと取り掛かる前に、まずはビジネス要件と技術要件の洗い出しを行います。ビジネス要件とは、「このデータマートがどういった目的でどのように使われる」ということ。一方技術要件とは、「業務においてデータどのように収集されるか」ということを意味します。
このそれぞれの要件の洗い出しがうまくいかなければ、データ活用自体のリスクが高まると言っても過言ではないほど、この第一ステップは重要な意味を持っているため、まずは自社の状況の把握・設計を行い要件をきちんと定義しましょう。
データソースの選定・構築
要件定義が完了したら、次は実際にデータへとアクセスするためのデータソースを選定し、構築のステップを進めていきます。データマートは、データソースからデータを抽出して運用するシステムです。データマートの運用を効率良く行うためには、自社に合うデータソースを選定が重要。いかに素早く、簡単にデータへアクセスできるかを意識しながら、データソースを選定しなければいけません。
データソースの選定が終われば、次は物理環境を構築していきます。データマートを実際に運用する環境に最適化した状態で構築し、他のシステムとの連動やセキュリティ面についてもチェックしておきましょう。
データの移行
基盤の構築が完了したら、いよいよデータを以降してマッピングを実施していきます。マッピングとは、必要なデータを的確に取り出すためのルールを決める作業のこと。この作業を行うことで、データマートのメリットを最大限に引き出すことができるのです。
マッピングを行ったら、そのルールに沿って実際のデータをデータマートへと移行します。ただ、この時点ではまだ生のデータであるため、その形もさまざま。そのままの状態ではデータマートへと移行できないため、このタイミングでETLなどを活用しながらデータのクレンジングを行います。
この際、メタデータを作成してデータマートに移行することで、実際に運用し始めたときの使いやすさをアップさせることができるので、このひと手間を忘れずに行っておきましょう。
フロントエンドを整備
データの移行が終われば、データマートの構築は一通り完了します。しかし未使用の状態では、ユーザーがスムーズにデータマートを活用することはできません。
専門的な言語などを使用せずともデータマートを活用できるようにするためには、ユーザーの目に触れる部分である“フロントエンド”を整備する必要があります。フロントエンドが整備されれば、ユーザーにとっても使いやすいデータマートとなり、結果的に企業としても生産性も向上していきます。
運用・管理
ステップ4までのところでデータマートの構築自体は完了しましたが、需要なのはそのデータマートが“継続的に”使用できるかどうか。日常のビジネスに溶け込み、構築後もずっと円滑に活用できるようにするためには、日々の管理が大切です。
データマートの管理とは、セキュリティやスケーラビリティの確保、課題に対するデータマートの構築自体の見直し、システムの最適化などさまざまな業務のことを指します。日々安心してデータマートを活用するために、継続的な保守・点検を欠かさないようにしましょう。
まとめ
ビッグデータを効率良く活用するためには、DWHやデータレイクだけでなく、データマートの存在も欠かせません。それぞれの長所に目を向けながら、賢くデータ分析を行っていきましょう。