食わず嫌いを直そう、統計計算の王様「平均値」の落とし穴(その4)山浦恒央の“くみこみ”な話(76)(4/4 ページ)

» 2015年08月03日 13時00分 公開
前のページへ 1|2|3|4       

4.終わりに

 今回は、データ分析で平均値を使用する場合の注意点を解説しました。平均は、簡単で非常に強力なデータ分析手法ですが、いくつか注意点があります。データを分析する際に知っておくと、データの中のより深い情報を読み取れるようになります。

photo

付録1.分散の求め方

 あえて、統計計算の「茨の道」へ踏み込みたい勇気あるエンジニアのために、分散を求める手順を以下に記します。

  • (1)各データと平均値の差を算出する。
  • (2)それぞれの差を2乗し、加算する。

 ここで2乗することがポイントです。あるプロジェクトの平均生産性が1,100で、エンジニアAが1300、エンジニアBが900だとすると、平均との単なる差は「200」と「-200」なので、加算するとゼロになります。これを避けるため2乗しています。

  • (3)データを個数で割る。

 この手順を、表.5のプロジェクトAのデータを使用して分散、標準偏差を求めた結果を表.7に示します。

表.7 あるプロジェクトのエンジニアの生産性(LOC)
名前 チームAの生産性(LOC) 平均値との差 平均値の2乗
エンジニアA 850 -106 11236
エンジニアB 1090 134 17956
エンジニアC 900 -56 3136
エンジニアD 1050 94 8836
エンジニアE 890 -66 4356
平均値 956 - -
平均値の2乗の合計 - - 45520
分散 - - 9104

 分散を計算する詳細手順は以下の通りです。上記の表を参考にして考えてください。

  • (1) 各データと平均値の差を算出する

 平均値 = (850 + 1090 + 900 + 1050 + 890) / 5となりますので、956です。次に、それぞれの値と平均値の差を求めます。(956 - 850) = -106、(1090 - 956) = 134, (900 - 956) = -56となります。

  • (2) それぞれを2乗し、加算する

 それぞれのデータを2乗し、加算します。つまり、( (-106)2 + (134) 2 + (-56) 2 + (94) 2 + (-66)2 ) = 45520となります。2乗する理由は、上述の通り、平均値との差がプラスマイナスを防ぐためです。例えば、( -106 + 134 - 56 + 94 - 66) / 5をすると0となってしまい、データのバラツキを表す指標が0になってしまいます。

  • (3) データを個数で割る

 平均値の2乗の合計をデータ数で割ります。(45520 / 5)となり、分散は9104となります。

付録2. 標準偏差の求め方

 標準偏差は、分散値の平方根を取れば算出できます。付録1の(2)で、各データを2乗しました。標準偏差はその値を元に戻す作業と考えればよいでしょう。今回の場合は、√45520となり、約95となります。ルートの計算はエクセルのSQRT関数を使用すると簡単に計算が可能です。

参考文献

『まずはこの一冊から 意味がわかる統計解析』 (涌井貞美 著、2013年、ベレ出版社)

統計と確率ケーススタディ30―基礎知識と実戦的な分析手法 (ニュートンムック Newton別冊)



【 筆者紹介 】
山浦 恒央(やまうら つねお)

東海大学 大学院 組込み技術研究科 准教授(工学博士)


1977年、日立ソフトウェアエンジニアリングに入社、2006年より、東海大学情報理工学部ソフトウェア開発工学科助教授、2007年より、同大学大学院組込み技術研究科助教授、現在に至る。

主な著書・訳書は、「Advances in Computers」 (Academic Press社、共著)、「ピープルウエア 第2版」「ソフトウェアテスト技法」「実践的プログラムテスト入門」「デスマーチ 第2版」「ソフトウエア開発プロフェッショナル」(以上、日経BP社、共訳)、「ソフトウエア開発 55の真実と10のウソ」「初めて学ぶソフトウエアメトリクス」(以上、日経BP社、翻訳)。


前のページへ 1|2|3|4       

Copyright © ITmedia, Inc. All Rights Reserved.