法律コンビニ!街の法律家として皆様のお役に立ちたい。

行政書とデータサイエンティスト18

行政書士とデータサイエンティスト18
主張したい仮説がなりたたない場合も、たまたま仮説を支持するデータが得られる場合もある。

 統計学検定では、主張した仮説が成り立たないことを「帰無仮説」とする。有意水準を5%にした場合、主張したい仮説が5%の確率で得られる。

 論文等で公表されるデータには、データのばらつきのために生じたたまたまうまくいったケースを発表する場合がある。公表のバイアスという。有意にならなかった研究数がわからないので、公表のバイアスわからないことが多い。

 問題なのは、論文の再現性である。再現可能性については、データばらつきによる公表のバイアスよりも大きなバイアスがあるのではないかと思われる。

  データの再現性の問題は、「結論ありき」という研究姿勢から生じる。つまり、事前に結論はなく、データを見てからデータに合う結論を探す場合に生ずる。

 「結論ありき」のバイアスを「確証バイアス」という。このようなバイアスがあるため、統計的検定行う場合は有意水準の調整が必要になるのである。

 「確証バイアス」避けるためには、①どのような項目についてデータを取るか②どの項目を評価の対象とするか③有効と無効の判断基準にあらかじめ決めておく必要がある。いわゆる確認的データ解析が必要になる。

 一方、ビックデータは自然に集まってくるデータある。そのため、ビックデータ解析は論文データとは異なり、探索的データ解析になる。いわゆるデータマイニングである。ただし、ビックデータにより情報が溢れていると言っても、知りたいことについてデータが得られない場合もある。

 最近のインターネットの発展による特有の問題がある。いわゆるステレスマーケッティング(消費者に宣伝と気づかれないように宣伝行為をすること。)やフェクニュースの問題もある。

2022/5/10