Read Article

多変量解析入門|データサイエンティストなら知っておきたい基礎知識

多変量解析入門

多変量解析は、データサイエンティストとしてデータ分析を行う際に知っておくべき統計分析の手法のひとつです。多変量解析に含まれる様々な分析手法はビジネスシーンでも多用されているので、知識やスキルを身につけておくと就職・転職も有利となることでしょう。

本記事では、多変量解析の入門編として、多変量解析の目的や活用方法、実践の手順などを解説します。

入門者も理解しやすい多変量解析概要

多変量解析とは、どのような解析のことなのでしょうか。概要を確認しておきましょう。

■多変量解析とは

「多変量解析」とは、複数のデータ(変数、変量)をもとに、データ間相互の関連性や全体の総合的な解釈を分析する統計的技法の総称です。特定の分析手法を指すのではなく、重回帰分析やクラスター分析など多数の分析方法が含まれます。

■多変量解析の目的

多変量解析の目的は、未来の出来事を測定値から導き出す「予測」と、複数の測定値をまとめてある要素について解析する「要約」です。

●予測

現状の売上や顧客数、客単価などの過去のデータから、将来の売上、顧客数、商品別売上などを「予測」するために多変量解析を利用します。それぞれの要因が結果にどの程度影響するかなどを数式で確認できるので、さまざまなマーケティング活動に応用できます。

なお、多変量解析では、予測する目的である将来の売上などを「目的変数」、予測のために使う顧客数などの要素を「説明変数」と呼びます。

●要約

市場の特性や消費者の商品購入のメカニズムなど、複雑で多種多様な要因がからむ事象を、多変量解析でわかりやすく単純化するのが「要約」です。「予測」は因果関係を明確にする手法ですが、「要約」は類似関係を明らかにします。要約では、データの解釈自体が目的となるので、「目的変数」はありません。

■多変量解析の活用法

多変量解析は、多種多様な情報を元にその関係性を解き明かす手法です。ビジネスシーンでは、データを駆使して複雑な問題を解決することに活用されます。例えば、チェーン店の次期出店地の売上予測やポテンシャルの推計、アンケート結果から自社商品の強み・弱みを知りたいとき、食品の含有成分分析によるヒット商品の解明などに有効活用できます。

多変量解析で扱うデータの種類

続いて、多変量解析で使うデータの種類を説明しましょう。主に扱うデータには、「量的データ」と「質的データ」があります。

1.量的データ

量的データ」とは数値で表せるデータのことで、数量データや定量データとも呼ばれます。例えば、店舗数、売上高、販売数などがこれにあたります。以下の2つに分けられます。

●間隔尺度

温度や年号、偏差値など、順序だけではなく「差」に意味があるデータのことです。例えば、気温が10℃から20℃に上がったらその差は10℃となり、間隔尺度のデータです。ただし、10℃から20℃への頒価は、2倍に暑くなったわけではありません。

●比例尺度

金額、距離、重量など、間隔尺度の中でも基準点(絶対原点、絶対零点)があり、「比」に意味があるデータのことです。数値の差だけでなく、数値の間隔や比率にも意味がある尺度です。例えば、1,000円の商品がセールで900円になると10%OFFですが、10,000円の商品が9,900円になった場合は1%OFFです。同じ100円の値引きでも、両者では比率が異なります。

2.質的データ

質的データ」とは、数値で表すことができないデータのことで、定性データやカテゴリデータとも呼ばれます。例えば、好き・嫌い、欲しい・欲しくないなどのデータのことです。質的データも二分できます。

●名義尺度

性別、血液型、居住地、職業など、物事を分類して識別するための尺度です。1.男性、2.女性など、等しいものには同じ番号を、異なるものには異なる番号を与えるというルールが適用されます。この数字の大小には意味がないので、名義尺度となります。

●順序尺度

兄弟、1位・2位・3位、好き・嫌いなど、順序や数値の大小には意味がある尺度です。ただし、間隔が等しいとは限りません。より上位のものに大きな数字(または小さな数字)を与えるというルールが適用されます。順序を変えることはできないものの、兄弟の年齢差や各順位間の間隔は影響しません。

多変量解析の主な分析手法

ここからは、多変量解析に含まれる主な分析手法を詳しく解説していきます。多変量解析を実施するには、場面に応じた適切な分析手法を選択することが重要です。

1.変数を総合化する分析手法

変数を総合化することで結果を得られる手法には、以下が挙げられます。

●重回帰分析

重回帰分析」とは、1つの目的変数を複数の説明変数を用いて予測する分析手法です。例えば、スーパーの来店者数や購入品数、気温、広告費など多数の説明変数から、ビールの売上と関連性が強い変数を抽出して、売上予測をするのが重回帰分析です。どの要因がどの程度影響しているのかを算出して結果を予測できるほか、予測の精度を知ることもできます。

●判別分析

複数の量的変数から質的変数を予測するのが「判別分析」です。例えば、契約中の顧客の支払金額や契約年数、使用量などから、継続するか・解約するか(1か0か)などの予測を行います。

●ロジスティック回帰分析

ロジスティック回帰分析」は、判別分析と同様に量的変数から質的変数を予測します。判別分析が1か0かを予測したのに対し、ロジスティック回帰分析では、目的変数が1となる確率を予測します。例えば、DMに対して反応する=1・反応しない=0としてロジスティック回帰分析を行うと、どの顧客がどの程度の確率で反応するかがわかります。

●主成分分析

主成分分析」とは、たくさんの量的説明変数を、より少数の主成分という指標(合成変数)に要約しようとする手法です。例えば、自社店舗の満足度調査で品揃えや価格、商品の質、接客態度、施設の清潔さなど多数の変数を5段階評価してもらい、それらをまとめて店舗の総合満足度を分析するなどの場合に利用します。

●因子分析

因子分析」は、複数の量的説明変数に共通して影響を与えている因子を抽出する分析手法です。例えば、主成分分析と同様の満足度調査の結果から、どのような因子が満足度に対して影響を与えているかを分析します。潜在ニーズを探ったり、商品イメージを分析したりする際にも役立ちます。

2.変数間の距離を測る分析手法

続いて、変数間の距離(近さ・遠さ)を用いて分析する手法を紹介しましょう。

●クラスター分析

クラスター分析」とは、さまざまな特性をもつ対象を、何らかの類似性を元にグループ(クラスター)分けする分析手法です。例えばいくつかの設問により、顧客をアプローチの高い・低いでグループ分けを行ったり、就活中の学生を機械学習エンジニア型、データサイエンティスト型などに分類したりなどの分析を行います。

●多次元尺度法

多次元尺度法」とは、分析する対象群の類似性によって、似ているものを近くに、似ていないものを遠くに配置して2次元で可視化する方法です。多次元尺度構成法・MDSとも呼ばれ、ブランドのポジショニングマップづくりなどに多用されます。

3.質的データを扱う分析手法

質的データを扱う手法としては、以下が挙げられます。

●数量化I類

数量化I類」は、目的や考え方は重回帰分析と同じですが、数値ではない質的変数から量的変数を予測する分析手法です。例えば、性別や飲酒の有無、運動の有無、喫煙の有無を1/0データに変換して、「がんになる確率」を予測するなどの分析に用います。

●数量化II類

目的や考え方は判別分析と同じですが、質的変数から量的変数を予測するのが「数量化II類」です。例えば、性別や飲酒の有無、運動の有無、喫煙の有無を1/0データに変換して、「がんになる/ならない」を予測するなどの分析に用います。

●数量化III類/コレスポンデンス分析

数量化III類」は主成分分析と似た手法で、多くの質的変数から少数の変数へと要約する分析手法です。クロス集計表などの量的データの場合は、コレスポンデンス分析や対応分析とも言います。調査の質問間や対象者間の類似点を得点化して、ポジショニングマップなどに可視化できます。

●コンジョイント分析

コンジョイント分析」とは、主に商品開発の際に用いられる分析手法で、最適な商品コンセプトを決めるなどの際に使われます。商品の個別要素ではなく全体の評価(全体効用値)を行うことで、個々の要素の購買に影響する度合である部分効用値を算出する手法です。例えば、PC購入時の重視点は価格が一番で、二番目はメモリだったなどがわかります。

多変量解析の手順

最後に、多変量解析を行う具体的な手順をプロセスを追って説明します。

STEP1.データの収集

最初に、解析する対象となるデータを選択して収集します。不明瞭なデータがあれば、この段階で取り除くなどのクリーニングも行っておきましょう。

STEP2.単変量解析(1変量解析)

続いて、1つの変数のみを取り上げて解析する「単変量解析(1変量解析)」を行います。売上だけ、顧客数だけなど、1つの説明変数のみの分析を進めます。平均や中央値といった数字で分析を行うことも可能ですが、「外れ値・異常値の処理」「図による可視化」を行うと分析しやすくなります。

外れ値とは、多くの値が分布している正常と想定できる範囲から大きく外れた観測値のことで、箱ひげ図やクラスター分析の活用で抽出します。次に外れ値の中で、測定ミスなどが明らかな場合は、異常値として処理します。最後にヒストグラムや箱ひげ図で分布状況を可視化するとよいでしょう。

STEP3.2変量解析

次に、2つの変数を使って「2変量解析」を行います。例えば、売上高と顧客数、売上高と顧客単価の2項目を同時に解析することです。通常は相関係数を求めて分析を行い、散布図などで可視化して分布状況が確認しやすいようにします。

STEP4.多変量解析

最後に、多数の変数を活用した「多変量解析」を実施します。目的や場面に応じて、前述した手法の中から適切な分析手法を活用するようにしましょう。

まとめ

データサイエンティストが活躍できる分野やシーンは今後ますます拡大し、人材の需要も大きくなると予測されます。多変量解析の知識はデータサイエンティストには不可欠な知識なので、この記事を参考に、ぜひ身につけておくようにしましょう。

 

 

URL :
TRACKBACK URL :

コメント

*
*
* (公開されません)

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

Return Top