食わず嫌いを直そう、統計分析での「4つのデータ分類」(その2)山浦恒央の“くみこみ”な話(74)(2/3 ページ)

» 2015年05月29日 07時00分 公開

4.データ種類の概要

 質的データと量的データはさらに2つに分かれます。質的データは「名義尺度」と「順序尺度」になり、量的データは「間隔尺度」と「比例尺度」に分かれます。以下にそれぞれの説明を示します。

4.1 名義尺度

 名義尺度は、データを分類するためだけのデータの測り方です。例えば、人を分類する場合、性別や血液型のデータを採集することがあります。コンピュータで処理しやすいように、性別に「男性=0」「女性=1」と数値を当てはめたり、血液型では、「O型=0」「A型=1」「B型=2」「AB型=3」と数値表現する場合があります。このような「数値」は、四則演算をしたり、平均値を計算しても何の意味もありません。

 名義尺度は、ソフトウェア開発ではバグの分類で使用する場合が少なくありません。品質制御に熱心な会社では、独自の分類法を適用しているでしょうし、ソフトウェアテスト技法の大家、ボーリス・バイザー氏は、バグを数十種類に分類し、例えば、「メッセージのエラー」を「111x」のように4桁で表現する手法を提唱しています。この数値は便宜上つけたものですので、加減乗算しても意味のある数値にはなりません。

4.2 順序尺度

 順序尺度とは、順番に意味がありますが、データの数値自体は意味を持たない尺度のことです。「1位」「2位」などの順番は比較できますが、「1」「2」という数値自体は意味を持ちません。

 順序尺度は、アンケートの満足度で登場します。例えば、「商品を使用した印象を5段階で答えてください」などのようなかたちでよく見かけます。アンケートを記載する際は、「5:非常に良い」「4:良い」「3:普通」「2:悪い」「1:非常に悪い」のどれかに丸印をつけて回答します。順序尺度は質的データを含むため、加減乗算ができません。

 順序尺度は、ソフトウェア開発の場合、バグの重要度付けなどに使用します。例えば、バグレポートを記入する際、バグの内容と重要度を必ず書き込みますが、その時の「1:重大」「2:中程度」「3:軽微」が順序尺度です。

 順序尺度は、加減乗除ができないのに、できそうに見えるのが厄介です。例えば、「A選手の最近3年間の陸上競技大会での100m走の平均時間は10秒97で、平均順位は2.1位です」と聞くと、「A選手は、毎回ほぼ2位でゴールするのか。強いんだね」と違和感を覚えません。

 でも、順序数は加減乗除できません。例えば、いろいろなハンバーガーの新商品を開発し、200人に食べてもらって、「5:非常に美味い」「4:美味い」「3:普通」「2:不味い」「1:非常に不味い」の5段階評価をしたとします。

photo

 商品Aは、「5:非常に美味い」が100人、「1:非常に不味い」が100人という両極端に分かれ、商品Bは、200人全員が「3:普通」と評価した場合、「どちらも平均は3なので、同じだ」とは言えません(新商品の企画としては、全員が「普通」と回答した商品Bより、「非常に不味い」が多くても同数の「非常に美味い」の回答があった商品Aの方が圧倒的に売れ筋になると考えるはずです)。

 順序数が加減乗除不可なのは、「5:非常に美味い」と「4:美味い」の「数値的な間隔」、あるいは「2:不味い」と「1:非常に不味い」の「数値的な間隔」のように、数値の差が同じではないためですが、心理学では、満足度データを等間隔とみなしてデータ測定をする場合もあります。こんな事情もあり、加減乗除が可能と誤解する場合が少なくありません。注意が必要です。

4.3 間隔尺度

 間隔のみに意味のあるデータの尺度のことです。あくまで間隔のみであり、比には意味を持ちません。例えば、時間を表す時に「午前11時は午前10時より10%大きい」とは言いません。よって、間隔尺度では、加算と減算はできますが(例えば、午前11時 ― 午前10時 = 1時間)、乗算と除算はできません。

 間隔尺度は、ソフトウェア開発では使用していないようです。

4.4 比例尺度

 原点が定まっており、間隔や比率にも意味があるデータの尺度のことです。例えば、身長、体重などが相当します。四則演算が可能なので、通常の計算手法が適用できます。

 ソフトウェア開発では、バグ数やコード行数など、いろいろな場面で登場し、おなじみの数値です。

Copyright © ITmedia, Inc. All Rights Reserved.