【かおかぼ】のブログ

気になること調べたり、日記だったり・・・そんなかんじ

統計学の基礎の基礎~平均とばらつき~

スポンサーリンク

 

多くの人が仕事で数字を扱っていると思われる。このとき、数字の羅列を眺めていても何もわからない。実際に研究開発の現場でも実験データをまとめて、何か特徴を見出す必要がある。なぜなら、その特徴をつかまなければ、何が起きているのか、どうすれば改善するのかということが考察できないからだ。このように、多くの数字の羅列から特徴を見出すために統計という手法が用いられている。さまざまな統計手法が開発されているが、私は【平均とばらつき】を理解することが統計の基礎であり、肝であると考えている。以下で詳しくみてみよう。

いろいろな平均たち

 平均と言われて、私たちが通常思い浮かべるのは、【(a+b)/2】というモデルのような、足して個数で割るというものだろう。テストの平均点などでも使われているが、このような平均を算術平均と呼ぶ。この算術平均は、統計量全体をヒストグラムで表したときにそれが正規分布であれば適用可能である。現実には、きっちりときれいな正規分布などお目にかかることはほとんどないので、正規分布っぽい形を確認すれば算術平均を行ってよいだろう。多くの自然現象や経済の現象などは正規分布になるといわれているのでたいていの物には使用できるが、この平均が使えないものもいくつかある。

f:id:kaokabo:20170514140835p:plain

         正規分布グラフ

 

例えば、企業の収益の成長率や個人のカブの収益率などを明らかにするときに使用する平均は幾何平均(相乗平均)を使用しなければならない。式は【√ab】のようにかけてルート(√)をとることで計算することができる。簡単な具体例を述べると、10000円で購入した株が暴落して0.5倍になり(5000円)、その1年後にヒット商品を開発してカブが2倍(10000円)になったとする。このとき、数値をみれば、購入したときと変わらないので1倍になるはずだ。しかし、実際に算術平均で計算すると1.25倍[(0.5×2)/2]になってしまう。一方、幾何平均であれば、1倍[√(0.5×2)]になる。個人で実際に株取引していると、金額がどうなっているかを見るので間違うことはないと思うが、収益率を出すときには注意が必要である。

 

そして電圧のように数値にマイナスがつくようなものに対しても算術平均で計算ができないので、そのように数値にマイナスがつくような場合は2乗平均を使う。これは、各データを2乗して個数で割り、そのあとルートにして求められる。

式で書くと【√{(a2+b2)/2}】のようになる。私はデータロガ―のデータを平均するときとばらつきを求めるとき(工程指数能力等)に使用したことがある。これは下記のばらつきで詳細を記述する。

 

さらに調和平均という平均もあり、式では【2/(1/a+1/b)】で表せる。これは時間の問題等のときに使用する平均である。

 

また、正規分布でないときはどのような統計値を使用したほうがよいのだろうか。正規分布でないグラフの代表例として、世帯貯蓄額を示したグラフで述べていく。算術平均を行うと平均貯蓄額が1309万円となり、私の実感とかなりずれていると感じる(明確な答えはないので、私の感覚で述べている)。このようなときは、もっとも多い頻度で出てくる最頻値(モード)と、ちょうど真ん中にある値である中央値(メディアン)という統計量があり、それで見る必要がある。実際に、最頻値では100万円未満世帯が一番多く、中央値では761万円となっており、私の実感と近くなっていると感じる。このように、正規分布でないものは最頻値、中央値にも着目する必要がある。(※正規分布は、算術平均値・最頻値・中央値が同じ値となる)

 

f:id:kaokabo:20170514141130p:plain

      財務省ホームページ参照:貯蓄額グラフ

 

ばらつきと標準偏差σ

 今回は、基本である正規分布時のばらつきについて述べることにする。

 

まず、平均値は正規分布であるので、算術平均で求めることができる。

 

次にばらつきとは何かを明らかにする必要がある。ばらつきとは、実測値から平均値(基準値)を引いた差分[ばらつき=実測値―平均値(基準値)]である。つまり、平均値より低い値も出てしまうので、マイナスの数値が発生する。また、すべてのばらつきを足し合わせて算術平均を行うとゼロになる。このことから、ばらつきを示すのに2乗平均を使用する必要性が生じる。そしてばらつきを2乗平均したものが標準偏差と定義されている(定義されているので意味と言葉をリンクさせるしかない)。

 

では標準偏差σがわかれば何がわかるのか。それは平均値±○σの範囲に全体の○割のデータが存在するということがわかるのである。○の中に数値を入れると、平均値±1σ以内に約7割のデータが存在し、±2σで約95%、3σで約99%存在することになる。具体例で説明すると、平均値がゼロ、標準偏差σが1のとき、±1以内に7割、±2以内に95%、±3以内に99%存在する。言い換えると、±2以上のデータは全体の約5%しか存在しなく、±3以上のデータは全体の約1%しか存在しないということがわかるのである。

つまり、今回で言えば、2.5という数字は、約95%の確率で発生しなく、3.3という数字は99%以上発生することがないと考えることができる。

 

f:id:kaokabo:20170514141535p:plain

      正規分布グラフ:ばらつき割合

 

まとめ

平均にはいろいろな種類があり、それぞれ、算術平均、幾何平均、2乗平均、調和平均がある。自然科学や経済などの現象の多くは正規分布を持ち、正規分布を持つものは算術平均で平均が取れるが、それ以外のものでは適時平均方法を変更させる必要がある。

標準偏差σはばらつき具合を示す指標であり、ばらつきのデータを2乗平均したものである。標準偏差σがわかると、あるデータが発生する確率がわかり、ある程度の推定(予測)も可能となる。

 

以下、何冊か買った統計学の本で一番わかりやすかったおすすめ本の紹介