行政書士とデータサイエンティスト12
データには、観測しやすいデータと観測しにくいデータがある。
もちろんのことであるが、観測しにくいデータにはコストがかかる。当然、コストに見合う価値があるかどうかが問題になる。
例えば、天文学のデータが我々の暮らしや経済活動にとって価値があるとは言えない。そのようなデータは文化的、学問的価値はあるだろう。
公共的な価値をもつデータが政府の作成するデータである。IDつきPOSデータの購買行動のデータは価値あるといえる。
いわゆるビックデータは取りやすいデータからなるデータである。インターネット通販の購買履歴は若者のものは取れるが高齢者のデータは取りにくい。つまり、データにはバイアスがかかっているのである。ビックデータのバイアスは取りにくいデータが欠測するから生じるので、欠測データ解析値解析の手法を用いて解決できる。
公共データは、最近ではインターネットで公開されるので入手はしやすくなったが、インターネット上のデータをそのまま印刷しても、コンピュータで解析するのに適しているとは言えない。
また、利用者が加工したインターネットデータには著作権が生ずる。
オープンなデータであるためには、機械判読に適したデータであること、二次利用をする際のルールがあることが明確であることが要求される。日本においては、2万個以上のデータがオープンデータとして公開されている。
オープンデータの考え方は政府の情報の他、科学的研究におけるデータの公開にも適している。国が作成するデータは有用性が
高いが、電話、運輸、コンビニ等の大手の事業者が保有するビックデータも社会的価値が大きい。
ビックデータは個別の企業ビジネスに有効であるので、データを適切な形で流通させる市場が必要である。企業間のデータ提供では、当然、個人情報の扱いが問題なる。改正個人情報保護においては、適切な匿名化処理をすれば第三者に提供可能となっている。
データ収集のコストがかかる場合は、データ収集の方法を工夫しなければならない。統計学の標本調査法(バイアスの排除、無作為標本抽出法)や実験計画法(標本調査法より能動的なデータ抽出法)を利用して効率的なデータを収集する方法もある。
江尻 一夫行政書士事務所
福島県いわき市常磐水野谷町千代鶴68
TEL: 0246-43-4862
Copyright © 江尻 一夫行政書士事務所, All Rights Reserved.