支援対象地域:札幌、仙台、関東、愛知、関西、広島、福岡

  • TOP
  •   
  • コラム
  •   
  • DWH(データウェアハウス)とは?詳

DWH(データウェアハウス)とは

企業が営業活動を行う中において、実に様々な種類のデータが社内に蓄積されていくことは周知の通りです。 近年よく聞くキーワードである「ビッグデータ」のような膨大かつ多種多様な データを上手く活用することで、企業は大幅に経営効率を上げることが可能となります。 また、データの中にはボリュームが少ないデータ、社内で忘れられているデータ、 本当は価値があるけれども活用しきれていないデータなど実は見落とされてしまっている情報が存在することも忘れてはいけません。 データは企業の資産である点について理解し、このような細かいデータをしっかりと活用していくことが企業のDX(デジタルトランスフォーメーション)化の推進に繋がると言えるでしょう。 ここでは企業におけるデータ収集・データ分析と関連が深いDWH(データウェアハウス)について解説させていただきます。 DWH(データウェアハウス)とは直訳すると「データの倉庫」となり、時系列に整理された統合データや その管理システムのことを指します。 DWH(データウェアハウス)の概念はアメリカの計算機科学者ビル・インモン氏によるもので 「意志決定(Decision)のため、目的別(Purpose-oriented)に編成され、統合(Integrate)された時系列で、削除(Delete)や更新(Update)しないデータの集合体」となり、1990年代のIT技術の発展によりデータを長期的に蓄積するという事が可能となったことからその概念が生まれ技術が発展してきました。 2010年代になりますとクラウド技術の発展により大手のクラウドベンダーから高機能なDWH(データウェアハウス)が提供され、多くの企業に導入されました。 DWH(データウェアハウス)の特徴については後述させていただきますが、時系列で取得したデータを更新や削除を行わず統合し格納することが役割となります。 これにより大量のデータを高速に処理できること、長期的に顧客のデータを分析すること、過去のデータ履歴などを把握することができるなどのメリットがあります。 ビッグデータとDWH(データウェアハウス)の違いについても触れさせていただきます。 ビッグデータが大量のデータそのものを表すことに対して、 DWH(データウェアハウス)はその名の通り「データの箱」「データの入れ物」もしくはそのサービス名を指して使われるケースがほとんどです。 DWH(データウェアハウス)はデータ分析を行うための保管庫や環境という役割があるため、ビッグデータと密接な関係があることは言うまでもありません。 DWH(データウェアハウス)とビッグデータの違いの説明は以上となりますが、DWH(データウェアハウス)とETLツール、DWH(データウェアハウス)とBIツールも密接な関係を持っている言葉となります。 違いについては後述させていただきますが、このあたりの知識もDWH(データウェアハウス)を理解する上では抑えておきたいところです。 それではDWH(データウェアハウス)についてより詳しく解説をさせていただきますので、是非参考にしていただけましたら幸いです。

DWH(データウェアハウス)の特徴

DWH(データウェアハウス)の特徴について説明させていただきます。 ポイントを5つに絞り紹介させていただきますので、参考にしてみてください。

統合

DWH(データウェアハウス)の特徴の一点目が統合となります。 すでに説明させていただいたように、データ統合はDWH(データウェアハウス)を理解するうえで大きな特徴と言えます。 基幹システムにおいてはデータ名が異なる形で定義されていることが一般的であるため、 DWH(データウェアハウス)にデータを集める過程においてデータ名の定義をすべて統一する 必要性があります。 これにより同一データや類似データの重複などのミスを防ぎ、データの整合性を高めることが可能となります。

時系列

DWH(データウェアハウス)の特徴の二点目が時系列となります。 DWH(データウェアハウス)では時系列にデータが蓄積されていくため 過去のデータを参照することや分析することが可能となります。 一般的なデータベースの場合、保持しているのは最新のデータとなる点がDWH(データウェアハウス)と異なる点と言えるでしょう。 DWH(データウェアハウス)では過去のデータも参照にすることが可能となり、履歴などの情報を 正しく把握することができます。

不変性

DWH(データウェアハウス)の特徴の三点目が不変性となります。 DWH(データウェアハウス)においては蓄積されたデータについては永続的に保管を行います。 時系列のデータ履歴として蓄積する形であり、データベースは処理を行うことで更新される形になるのに対して DWH(データウェアハウス)は蓄積されたデータにおいてはデータ自体に間違いがないなどの修正作業がない限り更新が行われることはありません。

効率化

DWH(データウェアハウス)の特徴の四点目が効率化となります。 企業において大量データを扱う場合、データが様々な形で様々な場所に点在しているため、 効率よくデータ分析を行うことができないというのはよくあるパターンです。 DWH(データウェアハウス)を利用してデータを統合し、分析を行いやすい環境を作ることで 担当者の分析作業の効率化が進むことは間違いありません。

高速処理

DWH(データウェアハウス)の特徴の五点目が高速処理となります。 分析に特化したアーキテクチャの導入や様々な新しい技術の導入により高速処理を実現しております。 DWH(データウェアハウス)の処理速度やパフォーマンスについては 各社の製品によって異なりますが、高速処理として有名なサービスは「Google Cloud Platform」 で提供されている「Google BigQuery」で驚異的なデータの分析速度と処理能力を誇っております。

ETLツールについて

DWH(データウェアハウス)に関連性の高い用語としてETLツールを説明させていただきます。 ETLツールは、Extract(抽出)・Transform(変換)・Load(収納)の略語からきており、各工程の頭文字をとり命名されました。 ETLの概念自体は1970代から存在しましたが、IT技術の発展によりETLをより簡単に行えるための サービスとしてETLツールが生まれ多くのユーザーに利用されることとなりました。 ETLツールはその名前が表す通り社内の基幹システムからデータを抽出し、変換し収納するためのツールとなります。 基幹システムにおいてデータは様々な形で存在しているため、それらを収集・整形・統合しDWH(データウェアハウス)に分析しやすい状態に渡すことがETLツールの役割となります。 ETLツールの大きな特徴として専門的なプログラミング知識が不要という点となります。 本来ETLツールと同様の機能をもつツールをスクラッチで開発しようとすると高度なプログラミング技術が必要となります。 ところがツールの使い方を理解するだけで、ユーザーは効率的にデータ抽出を行うことが可能となります。 また、インターフェース(GUI)も工夫されており直感的に作業ができるようになっている点もETLツールの特徴となります。 以上が簡単ではありますが、以上がETLツールの説明となります。

BIツールについて

DWH(データウェアハウス)に関連性の高い用語としてBIツールを説明させていただきます。 BIツールとはビジネスインテリジェンス・ツールの略語となり、 DWH(データウェアハウス)に蓄積されたデータを可視化するためのツールとなります。 BIツールを使うことでレポート作成やデータ分析を効率的に行うことが可能となります。 BIツールはあくまでも担当者の分析業務などの支援をするツールとなり、製品ごとにサービスの特徴は異なりますが多くは「レポート作成機能」「多次元分析機能」「データマイニング機能」などの機能を搭載しております。 「レポート作成機能」は集約集計したデータをレポート形式に可視化することができる機能となります。 経営層が外部に対して発表するレポートなどをイメージしていただくとわかりやすいでしょう。 「多次元分析機能」はOLAP分析(Online Analytical Processing)と呼ばれ、データベースに集積されたデータから多次元的に分析を行う手法で リアルタイムにデータ分析を可能にする機能となります。 直近では自動データディスカバリーという機能を搭載し、データ収集だけでなく機械学習などのアルゴリズムを利用しより重要な情報を取得し通知することやデータ反映を行うという機能が担当者のデータ分析を強力にバックアップしてくれます。 「データマイニング機能」は統計学・パターン認識・人工知能などの技術を利用しデータ予測・データパターンなどの支援を行います。 BIツールの中でも大きく注目を集める機能となります。 分析を行う情報量が少ないケースにおいてはExcelなどを利用しても問題ありません。 ただし扱うデータ量が膨大になるケースは多くの機能が必要な際にはBIツールを導入することで作業を効率的に行うことができるでしょう。 BIツールを導入する際は目的や必要な機能を明確にすることが重要となります。

クラウドのDWHサービスについて

クラウドのDWH(データウェアハウス)サービスについて紹介させていただきます。

Amazon Redshift

Amazon RedshiftはAmazon Web Services(AWS)が手掛けるDWH(データウェアハウス)です。 Amazon RedshiftはクラウドのDWH(データウェアハウス)サービスの代表と言ってもよい存在であり、 業界でトップクラスのパフォーマンスを誇ります。 パフォーマンスを実現するために「RA3 インスタンス」「AQUA (Advanced Query Accelerator) for Amazon Redshift」「効率的なストレージと高パフォーマンスのクエリ処理」「マテリアライズドビュー」 「機械学習でスループットとパフォーマンスを最大化」という機能が搭載されております。 拡張性に優れ管理が簡単であることもAmazon Redshiftの特徴と言えます。

Microsoft Azure Synapse Analytics

Microsoft Azure Synapse AnalyticsはAzure SQL Data Warehouseの後継サービスであり、 Microsoft社が手掛けるDWH(データウェアハウス)です。 大規模なデータ処理が可能であり、ビッグデータ解析機能とサーバーレスSQLプール機能を付加した分析プラットフォームです。 クラウドサービスであるため低コストで導入しサービスの規模に応じて柔軟にスケールすることが可能です。

BigQuery

BigQueryはGoogle社が手掛けるGoogle Cloud Platformにおけるビッグデータ領域の中でも代表的なサービスとして有名です。 BigQueryはGoogle社の運営するサービスとの連携がスムーズに行えるため、普段業務で取得している様々な データを無駄にすることなく活用することが可能となります。 BigQueryの特徴としては、高速データ処理を実行することができることやコストパフォーマンスに 優れている点などをあげることができます。 また、最低限のSQLの知識さえあればデータベースの操作が実行できるため非エンジニアであっても スムーズに利用できる点も大きな強みとなります。 直近ではBigQuery Omniをリリースしました。 BigQuery OmniはAmazon Web Services(AWS)やMicrosoft Azureなどの他社クラウドにあるデータをクエリでき、一つのプラットフォームから別のクラウドサービスのデータを分析することが可能です。

まとめ

いかがでしたでしょうか? DWH(データウェアハウス)について詳しく解説させていただきましたので、参考にしていただけましたら幸いです。