法律コンビニ!街の法律家として皆様のお役に立ちたい。

行政書士とデータサイエンティスト11

行政書士とデータサイエンティスト11

 根本的な話になるが、データの定義はどうなるだろうか?

 一般的に、データとはさまざま計測や観察によって主として数値の形で得られる情報をいう。測定される情報を変数と呼ぶことが多い。

 体温や体重は連続的な値をとるので連続的な変数と呼ばれる。
データの種類には時系列データとクロスセッションデータ(1時点においてさまざまな個体に関して得られるデータ)がある。

 その他に、主なものにテキストデータ、音声データ、画像データがあり、これらのデータはExelシートに入力しても分析ができず「非構造化データ」呼ばれる。

 注意しなければならないのは、情報には有用性や目的が付随しているということである。

 さらに、データの中で不要なものをノイズという。また、データの中に含まれる傾向やパターンをシグナルという。つまり、データはノイズとシグナルから構成されているのである。どの部分がノイズで、どの部分がシグナルになるかは、データを分析する目的によって変化する。


2022/5/3