法律コンビニ!街の法律家として皆様のお役に立ちたい。

行政書士とデータサイエンティスト14

ヒストグラムが正規分布のように曲線で表せる場合「密度関数」あるいは「確率密度関数」と呼ばれる。

 密度関数とX軸で囲まれる面積は1となる。確実な事象の確率が1であることを対応している。

 ヒストグラムであるが、ピークが2山あるヒストグラムは異質の集団混在している可能性がある。ピークが2山になる場合は、
それぞれの集団の平均が母集団の標準偏差の2倍離れている場合である。

 次に2つの変数に関する散布図と相関係数についてあるが、相関の強さを数値として表したのが「相関係数」である。最小二乗法によって2つの変数の間の相関を表す回帰直線を求めることを「回帰分析」という。回帰直線が求められば、統計的モデルを作成することができる。いわゆる「予測的モデリング」である。

 さらには、変数の生成メカニズム(例えば、父親と息子の身長の関係)を考えて統計的モデルをたてることを「生成的モデリング」という。

 最近の機械学習は、「予測的モデリング」を重視する傾向にあるが、伝統的な統計学では、「生成的モデリング」を重視している。

 ビックデータの時代になり、より多くの変数を与えたときの条件つきデータの分布というものを利用することが多い。例えば、自動車保険においては、運転者ごとの特性(ブレーキのかけ方等)を計測してこれらの特性に基づいて保険料を決定する。いわゆる「テレマックス保険」である。

 話は変わるが、顧客のさまざまな属性を用いて顧客を層別あるいは分類することは、マーケッテイングの「セグメーテンション」と呼ばれている。セグメーテンションには通常は年齢や性別などの動態的属性や、都市の人口や気候などの地理的属性などの静的属性がある。

 ビックデータ時代には、動的なセグメンテーションが注目されている。セグメンテーションをさらに進めると「パーソナリゼィション」になる。ビックデータが利用可能であっても多くの属性を条件つけると条件付き分布に対する評価が不安定になる可能性がある。

2022/5/6