連載
» 2015年06月30日 07時00分 UPDATE

山浦恒央の“くみこみ”な話(75):食わず嫌いを直そう、小学生の知識で統計データを可視化する(その3) (1/2)

「統計」と聞くと頭が痛くなる人も多いかと思いますが、「今持っている知識でも何とかなる」ものです。その第一歩として、簡単なデータの可視化手法について紹介します。

[山浦恒央 東海大学 大学院 組込み技術研究科 准教授(工学博士),MONOist]

1.はじめに

 「2つの物があれば良い方を選ぶこと」は、人類のDNAに深く刻まれています。赤ん坊に同じ食べ物を2つ見せると、本能的に大きい方を取ろうとします。2つ以上の物を比較することは非常に重要なことです。目に見える場合は簡単ですが、データが大量にあり、いろいろな形式を取っている場合は、統計的な手法が必要となります。統計的な分析は、簡単ではないように思えますが、そんな「統計の食わず嫌い」を直すのがこのシリーズです。

 前回は、データには4種類あることを解説しました。すなわち、名義尺度(他の値と区別するための数字で、数値を「a」「b」「c」に置き換え可。加減乗除はできない)、順序尺度(「a」「b」「c」に置換できないが、数値の大きさ(順番)の大小に意味があり、数値は等間隔で並ばない。加減乗除は不可)、間隔尺度(0や1のような原点は決まっていないが、数値は等間隔で並ぶ。加減算はできるが、乗除算はできない)、比例尺度(0や1といった原点が決まっていて、数値は等間隔で並び、加減乗除が可能)の4つで、そのようなデータの性質を理解して、加減乗除することが重要と解説しました。

 データの解析は、「統計処理を理解している特別な人にだけ可能な分析手法」ではありません。そんなふうに思っていると、一生データの解析はできません。英会話と同じで、「今持っている知識と経験でなんとかする」ことが重要ですし、十分、何とかなります。

 まずは、認識を変えましょう。難解な数式を知らなくても、現状の知識や経験だけで、高度なデータ解析は十分可能なのです。

 その第一歩として、今回、データを可視化することの重要性を解説し、いろいろなデータを目に見えるようにするための簡単な技法として、ヒストグラムを紹介します。

2.データ処理の基本

 データを統計的に処理する基本的な手順は、(1)「データを収集する」、(2)「解析する」、(3)「まとめる」ことです。まず、入手できそうなあらゆるデータを集め、統計処理を施します。その後、データを整理し、全体像を鳥瞰できる表や図にまとめます。表や図などにまとめることによって、データの特徴を把握できます。

 統計処理というと、(2)の「解析」での小難しい数式処理に目が行きがちで、敬遠するソフトウェア技術者も多いようですが、表や図を使用してデータを整理し、見やすくするだけでも立派なデータ分析です。表や図であれば、(私のような)統計アレルギーの人でも、今の知識(小学生レベルの知識)で十分処理ができることが少なくありません。今回は、データを整理する手法の1つである度数分布表と、その図式表現を紹介します。

3.度数分布表での図的表現

 表.1に、ある学校の生徒11人分の身長データを示します。136cm〜151cmの間に分布しています。

photo
表.1 クラスの身長データ
あるクラスの生徒の身長 136 cm、138 cm、139 cm、144 cm、141 cm、142 cm、143 cm、142 cm、146 cm、146 cm、151 cm

表.2 度数分布表の例
階級(より大 以下) 階級値 度数
130 〜 135 132.5 0
135 〜 140 137.5 3
140 〜 145 142.5 5
145 〜 150 147.5 2
150 〜 155 152.5 1

 表.1は文字の羅列であり、データの傾向を読み取るのは容易ではありません。この11人分の身長データを分かりやすく見る方法として、度数分布表があります(聞いたことがある人も多いでしょうが、基本的なことは小中学校や高校で学習しているはずです)。

 これは、データを適当な間隔に分割して表したもので、表.1を度数分布表で表すと表.2のようになります。表.2には、左から、階級、階級値、度数という項目があります。10年以上前に学習済みだと思いますが、それぞれについて、以下に簡単に解説します。

  • 3.1 階級

 階級とは、データを適当な間隔に分割した際の区間です。身長が131cmの生徒の場合、「130〜135」の区間に入りますし、144.1cmの場合、「140〜145」の区間内になります。

  • 3.2 階級値

 階級値とは、階級の中間の値のことです。「130〜135」の階級値は132.5cmになります。

  • 3.3 度数

 度数とは、データが階級内に入っている頻度のことです。表.1には、身長140cm〜145cmの生徒が5人いますので、「140〜145」の区間のデータが5ということになります。

 表.1のように、ただの身長データの羅列だけですと、データの特徴を把握しにくいのですが、表にまとめると、データの特徴が簡単にわかります。

       1|2 次のページへ

Copyright© 2017 ITmedia, Inc. All Rights Reserved.