行政書士とデータサイエンティスト１４ [江尻　一夫行政書士事務所]


江尻　一夫行政書士事務所
行政書士とデータサイエンティスト１４

法律コンビニ！街の法律家として皆様のお役に立ちたい。

行政書士とデータサイエンティスト１４

ヒストグラムが正規分布のように曲線で表せる場合「密度関数」あるいは「確率密度関数」と呼ばれる。

　密度関数とX軸で囲まれる面積は１となる。確実な事象の確率が１であることを対応している。

　ヒストグラムであるが、ピークが２山あるヒストグラムは異質の集団混在している可能性がある。ピークが２山になる場合は、
それぞれの集団の平均が母集団の標準偏差の２倍離れている場合である。

　次に２つの変数に関する散布図と相関係数についてあるが、相関の強さを数値として表したのが「相関係数」である。最小二乗法によって２つの変数の間の相関を表す回帰直線を求めることを「回帰分析」という。回帰直線が求められば、統計的モデルを作成することができる。いわゆる「予測的モデリング」である。

　さらには、変数の生成メカニズム（例えば、父親と息子の身長の関係）を考えて統計的モデルをたてることを「生成的モデリング」という。

　最近の機械学習は、「予測的モデリング」を重視する傾向にあるが、伝統的な統計学では、「生成的モデリング」を重視している。

　ビックデータの時代になり、より多くの変数を与えたときの条件つきデータの分布というものを利用することが多い。例えば、自動車保険においては、運転者ごとの特性（ブレーキのかけ方等）を計測してこれらの特性に基づいて保険料を決定する。いわゆる「テレマックス保険」である。

　話は変わるが、顧客のさまざまな属性を用いて顧客を層別あるいは分類することは、マーケッテイングの「セグメーテンション」と呼ばれている。セグメーテンションには通常は年齢や性別などの動態的属性や、都市の人口や気候などの地理的属性などの静的属性がある。

　ビックデータ時代には、動的なセグメンテーションが注目されている。セグメンテーションをさらに進めると「パーソナリゼィション」になる。ビックデータが利用可能であっても多くの属性を条件つけると条件付き分布に対する評価が不安定になる可能性がある。

2022/5/6

江尻　一夫行政書士事務所
福島県いわき市常磐水野谷町千代鶴６８
0246-43-4862

江尻　一夫行政書士事務所
福島県いわき市常磐水野谷町千代鶴６８
TEL: 0246-43-4862

トップページいわき市の行政書士です。　

Copyright © 江尻　一夫行政書士事務所, All Rights Reserved.

Powered By まめわざ(アクセス解析/広告のプライバシーポリシー・無料ホームページを作る)