カテゴリカル・データ分析(カテゴリカル・データぶんせき)とは？意味や使い方

最新心理学事典の解説

カテゴリカル・データぶんせき
カテゴリカル・データ分析
categorical data analysis

カテゴリカル・データとは，離散変数からなるデータのことである。離散変数discrete variableとは名義尺度または順序尺度レベルの変数のことで，典型的にはクロス表（分割表ともいう）として集計できるようなデータをカテゴリカル・データといい，その分析をカテゴリカル・データ分析という。たとえば，対数線形モデルや対応分析がそうである。ただし，連続変数（間隔尺度・比尺度）を共変量（共変数）とするような分析でも，被説明変数が離散変数であればカテゴリカル・データ分析ということもある。たとえばロジスティック回帰分析やプロビット分析も，カテゴリカル・データ分析とみなされることが多い。さらに拡大解釈すれば，イベント・ヒストリー分析（生存時間分析）も，事象の生起という離散変数を被説明変数とするので，カテゴリカル・データ分析の一種とみなせる。また，離散変数を観測変数とし，その背後にある潜在変数を推定するような分析法（潜在クラス分析，潜在特性モデル，項目反応モデル）も，カテゴリカル・データ分析の一種とみなせる。林知己夫の数量化Ｉ類，II類，III類もカテゴリカル・データ分析として言及されることがあるが，Ｉ類は分散分析，II類は判別分析，III類は対応分析と同じものである。

　クロス表cross tabulationとは，複数の離散変数を組み合わせて度数を集計した表で，分割表contingency tableともいう。たとえば76ページ表1は，余裕資金があるときにハイリスク・ハイリターンな投資をするかどうか尋ねた結果を，男女別に集計したクロス表である。

　合計2155人のサンプルをまず男女で分類し，さらにリスクの高い投資をするかどうかで3分類している。各行，列の合計を周辺度数marginal frequencyといい，周辺度数の分布を周辺分布marginal distributionという。このように二つの変数からなるクロス表を二元表といい，一般にｎ個の変数からなるクロス表をｎ元表ｎ-way tableという。

　このようなクロス表の分析においては，変数間の独立性がしばしば検定される。独立性independenceとは，複数の変数の分布が互いに独立な状態を指す。表1の周辺度数のもとで性別と高リスク投資という二つの変数が独立である場合の期待値を計算すると，表2のようになる。

　複数の変数が互いに独立である場合，表2のように行ごと，列ごとの分布がすべて同じになる。帰無仮説として二変数の独立を仮定し，これを検定することを独立性の検定といい，ピアソンの適合度統計量Pearson's goodness of fit statistics,χ²（カイ2乗，単にカイ2乗値とよぶことも多い）が統計量としてよく用いられる。このχ²は自由度が（ｒ－1）（ｃ－1）のカイ2乗分布に近似する（ｒは二元表の行数，ｃは列数）。ピアソンの適合度統計量は，期待度数が小さい場合にはカイ2乗分布からの乖離が大きくなるために，正確な検定ができない。この期待度数の問題は，独立性の検定に限らず，推定や検定を伴うカテゴリカル・データ分析に共通の問題である。帰無仮説が棄却されれば，二変数になんらかの関連があるとみなされる。

　対数線形モデルlog-linear modelとは一般化線形モデルの一種で，クロス表のセル度数を予測するモデルである。一般化線形モデルgeneralized linear model（GLM）とは，以下のような共通の特徴をもつモデルの総称である。なんらかの確率分布に従う被説明変数をＹ，Ｙの期待値をＥ（Ｙ）とすると，

　link（Ｅ（Ｙ））＝ｂ⁰＋ｂ¹Ｘ¹＋…＋ｂ^mＸ^m

で表わされるモデルを一般化線形モデルという。ただし，linkはなんらかの関数，Ｘ¹，…，Ｘ^mはｍ個の説明変数，ｂ⁰，ｂ¹，…，ｂ^mはパラメータである。たとえば回帰分析や分散分析もGLMの一種であり，Ｙが正規分布すると仮定し，linkを単なる等値とした場合にあたる。対数線形モデルも，Ｙをセル度数としてポアソン分布を仮定し，linkを自然対数とした場合のGLMである。

　対数線形モデルは，セルの数の多いクロス表の分析に用いられることが多い。三変数以上の多元表に関して，変数間の関連の有無だけを検討する場合，階層的対数線形モデルstratified log-linear modelがよく使われる。対数線形モデルではカテゴリカル変数を因子factorとよぶこともある。たとえば，三つの変数Ａ，Ｂ，Ｃからなる三元表において，変数間の関連には，⑴三つの変数がすべて相互に独立（［Ａ］［Ｂ］［Ｃ］），⑵ＡとＢは関連しているが，ＣはＡともＢとも独立（［AB］［Ｃ］），⑶ＡとＢ，ＢとＣは関連しているが，ＡとＣはＢの効果を統制すると独立（［AB］［BC］，ＡとＣは条件付き独立conditional independence），⑷三変数は相互に関連（［AB］［AC］［BC］，対連関モデルともいわれる），⑸三変数の間に2次の交互作用効果がある場合（［ABC］，三元表の場合はこれが飽和モデルsaturated model）の五つのタイプの関連がありうる。階層的対数線形モデルでは，これらのタイプの関連のうち，どれが最もデータへの当てはまりが良いかを検討できる。各モデルに対して尤度比統計量likelihood ratio statistics（モデル・カイ2乗値とよばれることもある。カテゴリカル・データの分析では，Ｌ²またはＧ²と表記されることが多い）とその自由度を計算できるので，これらを使ってモデルを選ぶ。しかし，サンプルが著しく多い場合，飽和モデル以外のすべてのモデルは，ほとんど確実に棄却されてしまうため，サンプル・サイズの効果を考慮したモデル選択基準が推奨される。たとえば，ベイズ情報量規準Bayesian information criterion（BIC）がモデル選択の基準として用いられることもある。BICが小さいほどモデルの当てはまりは良いので，検討しているモデルのうちで最もBICの小さなモデルが，最も当てはまりが良いと考えられる。たとえば，表3に関して階層的対数線形モデルを当てはめると，表4のような結果が得られる。　表4を見ると，［AB］［AC］［BC］のｐ値が0.61で棄却できないのがわかる。またBICも最小なので，当てはまりの良さからいえば，［AB］［AC］［BC］が採択される。ただし，研究テーマとの関係でどのような帰無仮説・対立仮説を設定するかによっても，採択すべきモデルは変わってくるので，機械的に最も当てはまりの良いモデルを採択してはいけない。とくに変数の数が四つ以上になったり，非階層的モデルを仮定すると，検討すべきモデルが多くなりすぎて，すべてのモデルの当てはまりの良さを比較することはほぼ不可能になる。そのため，研究上の問いや帰無仮説・対立仮説から，検討すべきモデルを絞り込むことは非常に重要である。

　非階層的モデルでとくによく使われるのは，準独立モデルである。準独立モデルquasi-independence modelとは，行数と列数が同じクロス表において対角線上以外のセルに関しては二変数は独立であるが，対角線上のみは独立ではないような状態を指す。また，対数線形モデルの拡張として，パラメータ同士の積をモデルに含む対数乗法モデルlog multiplicative modelもある。これは一般化線形モデルではないが，変数同士の交互作用を簡潔に表現するために用いられる。ユニディフ・モデルunidiff modelやグッドマンのRC（Ⅱ）モデルも対数乗法モデルである。

　対応分析correspondence analysisはセル数の多いクロス表の分布を記述するための分析法で，仮説検定のためではなく，探索的，記述的な分析に用いられる。林の数量化Ⅲ類と双対尺度法は対応分析とは独立に発展した分析法だが，対応分析と数学的には同じものであり，英語圏では対応分析という語が一般的になっている。多重対応分析はカテゴリー間の関係だけでなく，ケース間の関係も同時に分析する点で対応分析とは異なるが，カテゴリー間の関係については対応分析と似た結果が得られる。対応分析はクロス表の各カテゴリー間のカイ2乗距離を計算し，これを非類似性行列として固有値分解することで，多次元空間に非類似性行列をマッピングする。それゆえ計量多次元尺度法metric multidimensional scalingの一種とみなせる。カイ2乗距離chi-square distanceとは，クロス表におけるｉ行ｊ列目のセル度数をｎ^ij，ｉ行目の周辺度数をｎⁱ^・＝Σ^jｎ^ij，ｊ列の周辺度数をｎ^・^j＝Σⁱｎ^ijとすると，ａ行目とｂ行目のカテゴリーの間のカイ2乗距離は

で定義される。列のカテゴリー同士のカイ2乗距離も同様に計算できる。

表5を対応分析で分析した結果が図である。

　対応分析の結果は図のように示されることが多い。この図の見方は以下のとおりである。⑴周辺分布と類似した分布の行や列は，原点付近にプロットされる（Ｃ，乙）。逆に行や列の分布が周辺分布と異なるほど，原点から遠くにプロットされる（Ｂ，Ｄ，甲，丙）。⑵行のカテゴリーと列のカテゴリーが近くにプロットされる場合，両者は結びつきが強い（それらの行と列に対応するセル度数は，独立の場合の期待度数と異なる）。ただし，その結びつきの強さは，原点から離れているほど強い（Ｂと丙）。逆に原点付近で近くにプロットされていると，近くてもそれらの間に関連はほとんどない（Ｃと乙）。⑶行のカテゴリー同士，列のカテゴリー同士が近くにプロットされる場合，それらの行，列の分布は類似している（ＡとＣ，乙と丁）。⑷モデル全体の当てはまりの良さの指標として，軸ごとに固有値，正準相関係数（固有値の平方根），寄与率が計算される。二つの軸の寄与率の総和が1に近いほど，モデルと実際のクロス表の分布が近似している。行と列の関連の強さを知りたい場合は，正準相関係数を見る。これが大きいほど関連は強い。表5と図の例では，二つの軸の正準相関係数はそれぞれ0.32と0.11である。また分析に際しては，軸に名前をつけるなどして，軸／空間の性質を解釈する場合もある。対応分析は推定や検定をしないため，サンプルがどんなに少なくても分析できるし，カイ2乗距離を計算することに意味があれば，クロス表以外の行列型のデータを使うこともできる。多重クロス表であっても対応分析は可能である。

　ロジスティック回帰分析logistic regression analysis（LRA），およびプロビット分析probit analysis（PA）は2値変数を被説明変数とした回帰分析で，被説明変数に二項分布を仮定し，それが1を取る確率（ｐ）を予測する一般化線形モデルの一種である。LRAのリンク関数はロジット，ln

である。PAのリンク関数は正規分布の累積分布の逆関数である。両者の関数形は非常に似ていて，どちらを使っても実質的には同じ結果が得られることが多い。サンプル数が十分に大きいことを仮定したモデルであること，標準化係数や決定係数が計算できないことを除けば，どちらも通常の回帰分析と同じように分析・解釈できる。ただし，LRAの場合，ｋ番目の共変量の係数ｂ^kは，共変量が1単位増加したときの

ln

の変化量なので，そのままでは解釈しにくい。

そのため，exp（ｂ^k）や限界効果が計算されることも多い。exp（ｂ^k）は共変量Ｘ^kが1単位増加したときｐ/（1－ｐ）が何倍になるかを示す。限界効果marginal effectとは，

ｐをＸ^kで偏微分し，

にＸ¹，…，Ｘ^mの平均値を代

入した値で，共変量がすべて平均値を取るときの，Ｘ^kのｐに対する限界的な効果である。PAでも回帰係数はそのまま解釈することが難しいため，限界効果が計算されることもある。モデル全体の当てはまりの指標として，切片のみのモデルと比較したときの尤度比統計量や，逸脱度deviance（対数尤度×－2，－2LLとも表記される）が計算されることが多い。前者は大きいほど，後者は小さいほどモデルの当てはまりが良い。また，逸脱度を使った誤差減少率proportional reduction in error（PRE）を擬似決定係数quasi R²とよび，モデルの当てはまりの指標とする場合もある。さらに赤池情報量規準Akaike's information criterion（AIC）やベイズ情報量規準（BIC）がモデル選択の基準に用いられることもある。これらはいずれも小さいほど当てはまりが良い。　→回帰分析　→記述統計　→項目反応理論　→尺度　→多次元尺度法　→統計的推論
〔太郎丸博〕