企業にとってデータ活用が当たり前になった今、「データレイク」という言葉に注目が集まっているのをご存知でしょうか?情報爆発時代とも言われるほど企業の扱うデータ量は増加し、その格納場所に困ってしまうケースも目立ってきました。
そこで今回は、企業が大量のデータを扱う上で知っておきたい「データレイク」の存在について解説していきます。「データレイクとは何なのか?」という基本的なところから、実際の導入事例まで、データレイクがなぜ必要とされているのかというところに迫っていきましょう。
■データ活用について知りたい方はこちら
データレイクとは?
データレイクとは、簡単に言うとデータの格納庫のことです。その一番の特徴は、あらゆるソースから収集したさまざまな形式のデータを一元的に保存できること。データそれぞれがそのままの形式で保存でき、情報の規模にも左右されません。
データレイクの語源は、情報の湖という意味である「Data Lake」。膨大な量のローデータを泳がせておくという意味合いから、データレイクと呼ばれるようになりました。データレイクが用いられるのは、主に市場分析やビッグデータ分析などの解析業務。経営判断に伴う意志決定の迅速化のために、活用されています。
データレイクと同じような意味合いで使われる「データウェアハウス」という言葉がありますが、それぞれ似て非なるもの。さまざまな規模・形式の生のデータを蓄積する場所であるデータレイクに対して、データウェアハウスは規則性を持つデータのみを収集するデータストアとして位置づけられています。
企業にとってデータ分析が欠かせないプロセスとなった今、データレイクを実装した企業の売り上げは、同業他社に比べて約9%高いという調査結果も報告されています。経営に関わる膨大な量のデータを扱わなければいけない企業にとって、データレイクは心強い存在となっているのです。
データの種類
データレイクの基本的な部分に触れたところで、次はデータの種類の違いに目を向けてみましょう。
データと呼ばれるものは、「構造化データ」・「非構造化データ」・「半構造化データ」に分類されます。それぞれには、どういった違いがあるのでしょうか。
「構造化データ」とは
構造化データとは、「列」や「行」などある定められたルールに沿う構造になるような概念を持つデータのことです。その名の通り“構造化”されたデータであり“、どこに何があるのか”が決まっているため、「分析しやすい」・「加工しやすい」といった長所があります。
ただ、扱いやすいという長所はありながらも、パッと一目見て理解できるようなデータであるという意味ではなく、コンピュータにとって処理しやすいデータであるというだけ。そのため、構造化データを扱うには一定の専門知識が必要です。
「非構造化データ」とは
非構造化データは、構造化データの逆で構造化されていないデータのことです。構造化されていないデータとは、ネイティブな形のままのデータのこと。メールやワード・エクセルで作成した企画書、音楽データ、動画データなど、身近にある「単体で意味を持つデータ」は全て非構造データに分類されます。
構造化データ・半構造化データ以外のデータは全て非構造データとなるため、その割合はデータ全体の8割にも及ぶと言われています。そのため非構造化データは膨大な量となっており、企業が扱うデータも大部分が非構造化データ。データの容量がどうしても大きくなってしまうため、大容量データの保存に適したクラウドストレージやデータレイクなどの活用が必要となります。
「半構造化データ」とは
半構造化データとは、構造化データと非構造化データの間に位置するデータのことです。決まった形式を持たないのが非構造化データの特徴ですが、その中にもある一定の規則を持つデータのことを半構造化データと呼びます。
.csvや.tsvなどのデータを例として挙げるケースが多く、大まかには非構造化データに分類されます。非構造化データの中でも階層化されて扱いやすいデータであることから、半構造化データとして認識されるケースがあることも頭に入れておきましょう。
データレイクのメリット
膨大な量のデータを格納するための場所として用いられる、データレイク。その一番のメリットは、ありのままの形でデータを格納できるということです。
データを決まった形式に統一する必要がないということは、部門ごとに異なる形式のデータを扱っている場合でもスムーズに全社での共有が可能。ビッグデータも、加工などの手間なくストリーミングやバッチを使用して情報の移行ができるため、業務における連携が円滑になり生産性の向上も期待できます。
また、「こんな分析がしてみたい」という新たなニーズが生まれたときにも、データレイクがあれば対応できる可能性が高まります。多種多様なデータをネイティブな形式で格納できるということは、さまざまなメリットを生み出すのです。
データレイクの活用方法
データレイクの特徴は、データをネイティブな形で保存できること。構造化データであるか非構造化データであるかに関わらず同じように格納できるため、企業のデータを保管する場所として活用されています。
一方で、ただデータを入れていけばいいというわけではないことも知っておかなければならないのが、データレイクの特徴。さまざまなデータを格納できることから、考えなしにあれこれとデータを保存してしまうケースも少なくありません。
しかし無作為にあらゆるデータを保存してしまうと、「データスワンプ(データの沼)」と呼ばれる状態になってしまいます。データスワンプとは、データレイク内にデータが無作為に放り込まれたことから、どこにどのデータあるのかわからなくなってデータの活用方法が見いだせない状況のこと。データレイクがデータスワンプ化してしまうと、濁った沼のような状態になってしまい、データレイク自体がブラックボックスと化してしまうのです。
データスワンプ化を引き起こさないためには、データの管理台帳的役割である「データカタログ」を構築しておくことが大切。メタデータと呼ばれるデータの所有者や番号などを収集・管理・検索するために、データレイクの活用のためにはデータカタログの運用も合わせて検討することをおすすめします。
データレイクの導入事例
柔軟性の高さから、企業からの注目も高まっているデータレイク。すでに導入を進めている企業の事例に目を向けてみましょう。
データレイクでデータを効率的に運用/株式会社リコー
プリンターなど事務機器やカメラなどの光学機器の製造メーカーであるリコーでは、部門をまたいだ情報共有に困難を抱いていました。それぞれの事業部に企業の経営データが散財していたことから、どこにどのデータがあるのかわからないという状況を招き、効率的なデータの運用ができない状態だったのです。
そこでリコーでは、Amazonが提供しているデータレイク型のストレージサービス「Amazon S3」を導入。Amazon S3を導入したことで、部門間に散らばっていたデータの一元管理が可能となり、膨大な量のデータを集約して分析するという基盤の構築に成功したのです。
結果、部門間の連携作業が強化され、業務効率化に成功。意思決定のスピードもアップし、大きな成果を得ることができました。
精度の高い需要予測を可能に/AGC株式会社
世界的大手ガラスメーカーであるAGCでは、データドリブン経営を追求していることから、「Amazon Web Services(AWS)」のクラウド上にデータレイクを構築。「VEIN」と名づけられたデータレイクの環境は、全社におけるデータ活用の基盤となりさまざまな情報の連携を実現しました。
VEINに全てのデータが集約されることから、新たな知見の抽出やより精度の高い需要予測を可能に。結果、生産ラインの効率化やアジャイル開発など、経営に貢献するための意識改革へと直結していきました。
まとめ
デジタル技術の進歩によって、さまざまなデータが収集できるようになった今の世の中。企業が取り扱うデータの量もすさまじい勢いで増えており、データレイクのような存在が欠かせない状況になっています。
データレイクの導入によって、企業が得られるメリットはさまざま。データを有効に活用するためには、データレイクの存在が必要不可欠になるのかもしれません。