データレイクとは?概念やメリット、構成手順、データウェアハウスとの違いを解説

データレイクとは?概念やメリット、構成手順、データウェアハウスとの違いを解説

データレイクとは、構造化・非構造化を問わず多様なデータを未加工のまま蓄積できるデータ基盤のことです。

AI(人工知能)の進化により高度なデータ分析が可能になった現在、ビッグデータ活用の重要性は一層高まっています。その基盤となるのがデータレイクです。あらゆるデータを大量に保存し、必要に応じて検索や加工、クエリ(分析)を実行できる仕組みを理解しておくことが今後重要になっていくでしょう。

今回は、AI時代に欠かせないレポジトリ(データ保存先)となっているデータレイクのメリットや、データウェアハウス(DWH)との違いなどについて解説します。

データレイクとは?

データレイクとは?

データレイクは、従来のデータベースとは異なる発想で設計されたデータ基盤です。従来のデータベースが主に構造化データを扱うのに対し、データレイクでは構造化データだけでなく、非構造化データも含めて保存できます。

通常のデータベースに保存される構造化データ(表形式で体系的に保存できるデータ)だけでなく、JSON※1 やXML※2 のような半構造化データ(メタデータ)、さらには音声や画像、動画などのバイナリデータやテキストデータなどの非構造化データも保存しておくことで、その後の必要性に応じてデータ分析や加工に活用できます。

従来のデータベース(RDB※3)では、データを保存・活用するための明確な目的があり、それを実現するために必要なデータの形式や項目、容量などを決めておくことが基本となります。さまざまなデータが雑多に保存された状態では、瞬時に検索や分析を行うことや、データ保存に必要なコストを抑えることが難しくなるためです。

しかし、AIによる分析が発展した現代では、あらかじめ決められたデータを分析することよりも、あらゆるデータを集め、雑多な情報の中からこれまでに無い新しい視点や傾向を導き出すことが求められています。人間があらかじめ情報をそぎ落とし、体系的に整理したデータでは、これまでの延長線上にある視点や傾向しか導き出せない可能性があるためです。

そこで注目されているのが、データレイクによるビッグデータの保存・活用です。非構造化データは、保存形式やデータラベル、容量などに決まりがないため、従来の技術では検索や加工、分析などの活用が難しいという問題がありました。しかし、ストレージ技術やクラウドシステムの発展、柔軟なデータ分析ができるAIの進化により、膨大な非構造化データも効率的に加工や分析が可能になっています。

そのため、のちの必要性に応じて加工・分析を行うために、あらゆるデータを捨てずにそのまま保存しておけるデータレイクに注目が集まっています。

※1 JSON(JavaScript Object Notation):キーと値で構造化する、軽量で扱いやすいデータ交換形式。

※2 XML(eXtensible Markup Language):タグで階層構造を表現する、拡張性の高いデータ記述形式。

※3 RDB(Relational Database):データ同士の関係性の管理やSQL操作ができる表(テーブル)形式のデータベース。

データレイクの活用シーン

データレイクの活用シーン

データレイクは、さまざまなシーンで活用が期待できます。

AIの学習データ

AIや機械学習のモデル精度を高めるには、多様で大量のデータが必要になります。データレイクは、画像や音声、テキストなどの非構造化データも含めた大量のデータ保存が行えるため、AIや機械学習のトレーニングデータへの活用に最適です。

マーケティングデータの分析

宣伝やマーケティング活動において、リアル店舗や紙媒体、TVCM、ECサイト、SNSなど、顧客との接点が多様化している現在、各媒体から得られる情報やデータは膨大で、形式もバラバラな場合が多いです。しかし、これらのデータにはマーケティング上の重要な傾向が含まれる可能性があり、分析によって新しいビジネス機会を見出せるかもしれません。

データレイクでは、大量の生データをそのまま保存しておけるため、必要に応じてデータを抽出し、切り口を変えながら分析することができます。従来は捨ててしまっていたデータや活用しきれていなかったデータから、新たな顧客との接点が創出できる可能性があります。

IoT機器やセンサー、Webサーバーから収集される大量のデータ保存

IoT機器やセンサー、Webサーバーから収集される大量のデータは、社内のストレージ領域を圧迫したり、データベースのレスポンスを低下させる原因になります。しかし、データを捨ててしまうと、ログ分析や異常時の原因追跡ができなくなります。

データレイクは、安価で大量のデータ保存が可能なため、さまざまな機器から収集されるデータも長期保存できます。これにより、データ分析をすることで業務改善策を考えやすくなったり、機器の故障や不具合の原因を特定しやすくなります。

未知の分析ニーズに備えたデータの長期保存


現時点では使い道が分からないデータでも、将来の技術革新やビジネス環境の変化によって新たな価値や切り口が見いだせる可能性があります。しかし、データ保存先の容量に制限がある場合、すべてのデータを残しておくことができません。

データレイクなら、大量のデータを未加工のまま保存しておくことができるので、新しい分析手法やAI技術を用いた再分析に備えてデータ資産を保持することができます。

データウェアハウス(DWH)やBIツールへのデータ連携

データレイクに保存したデータは、DWH※1 やBIツール※2 へデータを移すことで、より詳細な分析が可能となります。『データレイクに大量保存→必要に応じてDWHやBIツールにデータ移行して分析』という方法が取れるので、DWHやBIツールのストレージ容量を節約でき、コスト削減効果も期待できます。

※1 DWH:データウェアハウス。複数のシステムから収集した構造化データを分析・活用するためのレポジトリ。

※2 BIツール:ビジネスインテリジェンスツール。社内データを収集し、より高度な経営判断を下すための分析システム。

データレイクのメリットや特徴

データレイクのメリットや特徴

データレイクの主なメリットや特徴は以下の5つです。

  • あらゆる形式のデータをそのまま保存できる
  • 分析目的に応じてデータを柔軟に活用できる
  • 未知の分析・活用のニーズに備えられる
  • コスト効率よく大量のデータを保存できる
  • AIや機械学習との親和性が高い

それぞれを解説します。

①あらゆる形式のデータをそのまま保存できる

データレイクでは、表形式のデータのような構造化データだけでなく、音声や画像、動画、Webのアクセスログ、センサーの計測値、問い合わせメールの本文、SNSの投稿文といった形式が決まっていないデータも、ラベル付けや正規化といった処理を行わずにそのまま保存しておくことが可能です。あらゆる形式のデータをそのまま保存できるので、データ整備に必要な手間やコストをかけずに済みます。

通販サイトであれば、顧客データや売上データだけでなく、閲覧履歴や検索キーワード、商品画像、レビュー文章、問い合わせ内容、返品率などの『今は何に使えるか分からない情報』も、『とりあえずデータレイクに保存しておく』ということができます。

このように事前に細かなデータ定義を行わず、そのまま保存しておくという考え方を、スキーマオンリード(Schema on Read)と言います。

②分析目的に応じてデータを柔軟に活用できる

②分析目的に応じてデータを柔軟に活用できる

データレイクにそのままの状態で保存しておいたデータは、分析目的に応じて検索・加工・クエリ実行などを行います。あらかじめ決められた目的のためにデータを処理していないため、自由に活用できることがデータレイクの大きなメリットです。

例えば、店舗運営に関するデータであれば、時には時間帯別の来店客数分析に利用したり、月ごとの人気商品ランキングの作成に利用することができます。必要に応じて天候や気温、クーポンの利用状況などを分析に利用することや、ユーザーレビュー件数・評価と人気商品の相関関係を調査するなど、データレイクに保存されているデータを活用することで、その時々のニーズに合わせて分析の切り口を自由に変えることが可能です。

③未知の分析・活用のニーズに備えられる

高度なビッグデータ分析では、これまでの常識では考えられなかった傾向が導き出せたり、意外な相関関係から新たなニーズが発見できる可能性があります。こうした未知の分析結果やデータ活用法にたどり着くためには、「今は使い道が分からないが、将来役立つかもしれないデータ」をそのまま保存しておく必要があります。切り取りや加工によって捨てられていたデータの中から、高い付加価値を生むための重要なヒントが隠されている可能性があるためです。

データレイクでは、これまで捨てられていたデータもとりあえず残しておけるため、未知の分析や活用のニーズに備えられます。例えば、今は使い道が思いつかない問い合わせの音声データの中から、リピート率を大幅に向上させるトークスクリプトの分析が行えるかもしれません。

④コスト効率よく大量のデータを保存できる

④コスト効率よく大量のデータを保存できる

データレイクでは、データの保存先に低コストのオンプレミスサーバーやクラウドストレージなどが利用されるのが一般的です。データを大量に溜めておくことが目的であるため、高速のクエリ実行やリアルタイムの読み書きに必要な性能に関わるコストを節約できます。データ転送の遅延が起きにくい高性能かつ高コストなストレージを使わず、安価で大容量なストレージを利用することで、データレイクは比較的低コストでの運用を可能にしています。

運用コストが下げられることで、より多くのデータをより長く保存しておくことができます。また、低コストで保存したデータから高い付加価値を発見できれば、データレイクへの投資コストを一気に回収できる可能性があります。

⑤AIや機械学習との親和性が高い

AIや機械学習では、できるだけ多様なデータを大量に読み込ませることが重要です。多様かつ大量のデータを読み込ませることで、より深い学習や傾向分析が進み、判断精度の向上や新たな知見の獲得につながる可能性が高まるためです。

データレイクでは、構造化データだけでなく、音声や画像、動画、テキストなどの多様な非構造化データを大量に保存できます。例えば、病気の診断に使う画像データやカルテ情報、薬歴、生活習慣などに関する情報などを大量にAIに学習させることで、病気の早期発見をサポートできる可能性があります。

また、工場で利用されるセンサーデータや画像データを組み合わせることで、製品の異常検知に関する精度を高め、不良品や不具合の発生率の低減につなげるケースも考えられます。

データウェアハウス(DWH)とは?

データウェアハウス(DWH)とは?

データレイクとよく対比されるキーワードに、データウェアハウス(DWH)があります。データウェアハウスとは、さまざまなシステムや機器に分散して存在するデータを、整理・統合して一元管理し、分析や意思決定などに活用するためのレポジトリです。

データウェアハウスでは、高度な分析とその結果の活用を目的としているため、保存される主なデータは構造化データとなります。構造化されていない生のデータは、詳細な分析やスピーディな検索、複雑なクエリ実行には向かない場合が多いです。そのため、データウェアハウスでは、他のデータベースからデータを集約したり、半構造化データや非構造化データを構造化データに加工する作業「スキーマオンライト(Schema on Write)」が必要となります。

データレイクとデータウェアハウス(DWH)との違い

データ活用のレポジトリとして、データウェアハウス(DWH)を利用するケースも増えています。ただし、データレイクとデータウェアハウスは、それぞれの利用目的や特性が異なります。

 データレイクデータウェアハウス(DWH)
利用目的事前に目的は決まっていないあらかじめ集計や分析の目的が決まっている
利用者データサイエンティストやエンジニア等経営者やマーケティング担当、営業スタッフ、現場責任者など幅広い
保存するデータ構造化データ、半構造化データ、非構造化データ構造化データ
保存方法選別や加工を行わずにそのまま保存する事前に加工や分類、整形を行ってから保存する
スキーマ概念スキーマオンリード(読み込み時に定義する)スキーマオンライト(保存時にデータの定義を行う)
分析の柔軟性自由な切り口で分析できる事前に想定した分析を行う
処理速度用途や設計によって異なる
(大容量保存を重視する構成が多く、DWHより集計効率が劣る場合もある)
速い(高速な集計やクエリの実行速度を重視するため)
コスト大容量保存におけるコスト効率を重視高速処理を重視するためコスト高め
主な用途未知の傾向分析、新しい視点や切り口の発見、イノベーション創出のヒント探し売上や来客数の分析、KPIの管理や設定、定型レポートの作成、部門横断的な集計

データレイクに保存されたデータをデータウェアハウスに取り込むことで、多様かつ高度な分析や集計が可能となります。

データレイクを構成する手順

データレイクを構成する手順

1. 目的・活用方針を整理する

まずは、データレイクを何のために構築するのか、目的や活用方針を整理しましょう。AIの学習データの蓄積や高度なアクセスログの解析、売上や成約率の向上のための傾向分析、未知の相関関係の発掘、将来のデータ活用への備えなど、データを蓄積することで何を達成したいのかを決めておくことが大切です。

目的や活用方針を決めておかないと、保存する必要のないデータまでを大量に収集することになり、運用の手間やコストを増大させるリスクがあります。また、不要なデータが溜まりすぎてしまうと、データレイク上での検索やクエリ実行が困難になる可能性もあります。

2. 収集対象となるデータを洗い出す

2. 収集対象となるデータを洗い出す

1.で整理した目的や活用方針をもとに、収集対象となるデータを洗い出しましょう。データレイクでは、構造化データだけでなく、音声や画像、動画、テキスト文章などの非構造化データも大量に保存することが可能です。目的や活用方針に関係のあるデータであれば、できるだけ多様なデータを収集対象にしておきましょう。この段階で厳しく取捨選択してしまうと、未知の傾向や新たな切り口の発見の機会を失ってしまう可能性があるためです。

一方で、データレイクの利用目的が売上向上であれば、社内でやりとりされる顧客とは無関係のメールやチャットのデータは不要かもしれません。

また、集計や傾向分析には、個人名や電話番号、番地、生年月日、血液型などの細かい個人情報は不要であるケースがほとんどです。個人情報の漏えい事故を未然に防ぐためにも、不要な個人情報はデータレイクの収集対象から外すことや、マスキングなどの匿名化を行うことをおすすめします。

3. 保存基盤(ストレージ)を選定する

データレイクの中核となるストレージを選びます。自社ネットワーク上のサーバーにデータレイクを構築するオンプレミス環境か、クラウドベースのオンラインストレージ環境かで運用方法やその後のメンテナンスコストなどが変わります。

オンプレミス環境では、導入や運用に関わる手間やコストが大きくなりがちです。データレイクを保守するための専門技術者も社内に必要となるでしょう。外部からのサイバー攻撃や内部からのデータ流出に備える高度なセキュリティ対策も欠かせません。

一方で、データレイクに保存するデータを社内で完全にコントロールでき、技術力次第で自由に運用することもできます。

クラウド環境では、導入や運用に関わるコストが抑えられる傾向があります。社内に専門的な技術者がいなくても比較的早く運用を始めることができ、最新のセキュリティ対策も随時実装されます。また、多彩な分析ツールやデータ連携ツールを利用できる場合もあります。

一方で、データの保存先がクラウド上になるため、個人情報や機密情報の取り扱いには細心の注意が必要です。また、従量制で課金されるケースが多いため、不要なデータを大量に保存すると利用料金が高額になる可能性もあります。

主なクラウド型データレイクサービス

  • Amazon S3 (AWS)
  • Azure Data Lake Storage (Microsoft Azure)
  • Google Cloud Storage (GCP)
  • IBM Cloud Object Storage (IBM Cloud)
  • Oracle Cloud Infrastructure Object Storage (OCI)

これらのサービスでは、データ保存基盤の提供だけでなく、データ管理ツールや分析ツールなどの付随機能や、データウェアハウスとのデータ連携機能を備えている場合があります。また、定期的なバックアップやセキュリティの更新なども行われますので、オンプレミス環境の構築が難しい場合はクラウド型のデータレイクサービスの利用を検討してみましょう。

4. 運用ルールを定め、データの蓄積を行う

4. 運用ルールを定め、データの蓄積を行う

3.でデータレイクの基盤を決めたら、管理者やアクセス権、保存期間、コスト管理、データの取り扱い方法などの運用ルールを決定していきましょう。特にセキュリティ面や機密保持などには細心の注意が必要です。

運用ルールが定まったら、徐々にデータの蓄積を行っていきましょう。一度に大量のデータを投入すると、データの管理や運用が難しくなってしまう可能性があります。1.で設定した目的を達成するために、優先度の高いデータから蓄積を始めていきます。

なお、一度決めたルールは、運用を行う中で随時見直しをかけていきましょう。また、場合によってはデータレイク上ではなく、はじめからデータウェアハウスに保存したり、すでにあるデータベースで分析する方が効率的に結果にたどり着ける可能性もあります。PDCAを回しながら、自社に最適な運用ルールを見つけていきましょう。

データレイクのデメリットや注意点

データレイクのデメリットや注意点

データレイクの主なデメリットや注意点は以下の3つです。

  • データ管理が不十分だと活用できなくなる
  • データ品質・セキュリティの統制が難しい
  • 明確な運用方針がないとコストだけが増える

それぞれを解説します。

①データ管理が不十分だと活用できなくなる

データレイクでは、データをそのまま大量に保存できる反面、明確な目的や運用ルールを定めずに運用を始めると、データが無秩序に保存されて「データスワンプ(データの沼)」に陥る可能性があります。

データスワンプの状態になってしまうと、必要なデータが埋もれて見つけられなくなったり、分析やクエリ実行でタイムアウトが発生したりしてデータを活かしきれなくなります。データスワンプを回避するためには、事前に目的や運用ルールを明確に定め、PDCAを回しながら自社に最適な運用方法を見出していくことが大切です。

②データ品質・セキュリティの統制が難しい

②データ品質・セキュリティの統制が難しい

データレイクでは、未加工データが混在するため、品質のばらつきが生じやすく、高度な分析を行うためには前処理の手間が増えます。また、個人情報や機密情報も含まれやすいため、アクセス制御やガバナンス設計を怠ると情報漏えいリスクが高まります。

定型レポートの出力や高度なクエリ実行をスムーズに行いたい場合は、整形したデータをデータウェアハウスに移行して運用することを検討しましょう。

③明確な運用方針がないとコストだけが増える

データレイクで使われるストレージは、大容量で保存コストを低く抑えることができます。しかし、無秩序に長時間の動画や大量のログデータを蓄積し続ければ、運用コストが高額になる可能性があります。

最適なコストパフォーマンスを発揮できるよう、データの利用目的や保存対象、保存期間、削除ルールなどを定め、不要なデータの保存にコストをかけないようにしていきましょう。

まとめ データレイクについて

まとめ データレイクについて

今回は、構造化データと非構造化データの両方を大量に保存し、ビッグデータ活用を促進するデータレイクについて解説しました。

AIや機械学習の発達により、音声や画像、動画、テキスト文章などの非構造化データの重要性が増しています。非構造化データを分析に活用することで、従来の構造化データから導き出すことが難しかった未知の傾向や意外な相関関係などを発見できる可能性を秘めているためです。

こうした可能性を将来に活かしていくためには、多様かつ大量のデータをまるで湖のように豊かに蓄積することができるデータレイクを活用することが大切です。

ただし、無秩序に大量のデータを保存することは、余計なコストがかかり続けたり、情報漏えいなどのセキュリティリスクが高まる可能性があります。データレイク活用の目的や運用ルールを明確にした上で、PDCAを回しながら自社に最適な運用方法を見つけ出していきましょう。

GREEN CROSS PARKのDX

GREEN CROSS PARKのGX

東急不動産が展開する産業まちづくりプロジェクト「GREEN CROSS PARK(グリーンクロスパーク)」は、まち全体に先進的なDX基盤整備を行う構想のある新しい産業団地です。

データレイクをはじめとする大規模データ基盤を活用した企業活動では、高速かつ安定した通信環境や十分なデジタルインフラが不可欠とされています。GREEN CROSS PARKでは、ビッグデータ活用を支える高速・大容量・安定通信インフラを先行整備することで、このまちに集う企業のDX推進やAI活用を後押しする環境づくりを目指しています。

GREEN CROSS PARKのDX>>

ログアウト

ログイン