従来の分析処理ツールには、OLAPキューブやMicrosoft Excelなどに用意されているピボットテーブルがあります。これらのツールは、大規模なデータセットを取得し、条件セットに基づいてレコードをグループ化して、データを集計します。たとえば、OLAPキューブは、製品、地域、期間に基づいて売上データをグループ化することで売上データをまとめます。この場合、各グリッドセルには、特定の製品、特定の地域、および特定の期間の売上の合計が表示されます。通常、このセルは、元のデータソースのいくつかのレコードからのデータを表します。
データ分析処理ツールを使用すると、グループ化の基準を動的に(オンラインで)再定義できます。これにより、アドホックなデータ分析の実行や、隠れたパターンの発見が容易になります。
たとえば、次の表を見てください。
日付 |
製品 |
地域 |
売上 |
2015年10月 |
製品A |
北部 |
12 |
2015年10月 |
製品B |
北部 |
15 |
2015年10月 |
製品C |
南部 |
4 |
2015年10月 |
製品A |
南部 |
3 |
2015年11月 |
製品A |
南部 |
6 |
2015年11月 |
製品C |
北部 |
8 |
2015年11月 |
製品A |
北部 |
10 |
2015年11月 |
製品B |
北部 |
3 |
ここで、このデータを分析して次のような質問の回答を得るように求められたと仮定します。
これらの単純な質問に答えるには、これらのデータを集計し、次のような表を取得する必要があります。
日付別および製品別の売上
日付 |
製品A |
製品B |
製品C |
合計 |
2007年10月 |
15 |
15 |
4 |
34 |
2007年11月 |
16 |
3 |
8 |
27 |
合計 |
31 |
18 |
12 |
61 |
製品別および地域別の売上
製品 |
北部 |
南部 |
合計 |
製品A |
22 |
9 |
31 |
製品B |
18 |
|
18 |
製品C |
8 |
4 |
12 |
合計 |
48 |
13 |
61 |
サマリーテーブルの各セルは、元のデータソースのいくつかのレコードを表しています。1つまたは複数の値フィールドが集計され(ここでは、売上の合計)、他のフィールド(ここでは、日付、製品、または地域)に基づいて分類されています。
これは、スプレッドシートでは簡単に行うことができますが、作業は単調で、繰り返しが多く、ミスが多くなります。データを集計するためのカスタムアプリケーションを記述しても、新しいビューを追加するためのアプリケーションの管理に多くの時間がかかり、ユーザーの分析は実装されているビューに限定されます。
OLAPでは、ユーザーがアドホックに対話操作で必要なビューを定義できます。定義済みのビューを使用することも、新しいビューを作成して保存することもできます。基底のデータの変更はビューに自動的に反映されます。ユーザーはこれらのビューを表示するレポートを作成して共有できます。つまり、OLAPコントロールは、柔軟で効率的なデータ分析処理を提供します。