Is the Normal Curve Normal?
最近、正規曲線をデータサイエンティストの親友とする記事を見ましたが、確かに正規分布は古典統計理論でユビキタスです。
神話その 1: ほとんどのデータは正規分布する
少し考えてみれば、そうでないことがわかると思います。 まず、多くのデータは、生存/死亡、クリック/クリックしない、購入/購入しない、詐欺/詐欺なしなど、バイナリ形式になっています。 正常なデータの例としてよく引き合いに出されるデータでさえも、そうではない。 身長のヒストグラムを見ると、中央より左に凸凹があることがわかります。 子供を取り上げても、男性と女性、国の違いによって平均値が異なる。 例えば、グアテマラの成人男性など、グループを厳密かつ均質に定義したときだけ、分布は正規分布になります(その定義のプロセスは、より大きな分布の中で何が正規分布でないかを特定することによって導かれます)。
IQスコアはこの神話をよく表しています。 IQ スコアほど象徴的なベル型の正規分布はありません。 人々はIQが正規分布していると考えがちですが、実は正規分布しているのはIQスコアだけで、IQ自体はやや曖昧な概念で、具体的な形はその指標にのみ存在します」
そしてどのようにしてIQスコアは正規分布になるのでしょうか。 IQテストの問題は微調整され、追加され、削除されるため、スコアは低いほうや高いほうであまり束にならず、ベル型の正規分布にきれいに分布する。
(元のデータの分布と残差の分布の重要な区別については、「誤差分布」についての以下の歴史的注を参照してください。)
神話2:正規分布は統計理論の中心である
古典統計学(つまりコンピュータ以前の統計学)では、正規分布とその親戚であるt分布は必須の近似であると言ったほうが正確であろう。 1908年、ウィリアム・ゴセット(「学生」)がt分布を導入したバイオメトリカの代表的な論文(「平均の確率的誤差」)を発表しました。
真の分布を近似するための基礎として正規分布を使用するゴッセの正当な理由(右)を読む価値があります-便利だからです。 あるいは、エフロンとヘイスティが(『Computer Age Statistical Inference』で)言っているように、「数学的扱いやすさ」です。
ゴセは、同じ母集団から抽出した場合、あるサンプルが別のサンプルからどれだけ異なるかに興味がありました。 当時、科学者たちは身体的特徴と精神的特徴や犯罪傾向の相関に非常に興味を持っていたので、このデータは利用可能でした。 続けて、4人ずつの標本を作り、その平均値を記録しました。 5024>
次に、彼がどのように正規形(実際には t 型)近似をデータに当てはめたかがわかるでしょう。 1908 年当時、誰も何千回もカードのサンプルを引き出す時間がなかったので、これはサンプリング分布に基づく計算のタスクを大幅に簡素化しました。 しかし,現在では,リサンプリング法(並べ替え法,ブートストラップ法)が,正規性の仮定に頼らずに,真の標本化分布を近似する良い仕事をしています。 実際、計算能力の出現により、統計学の領域は正規理論に基づく推論手順をはるかに超え、正規近似は拡大し続ける道具箱の中で中心的とはいえないが、有用なツールに過ぎなくなったのである。
神話その3:データを正規化すると正規分布になる
データの正規化または標準化は、データが測定されるスケールが結果に影響しないように、分析的手順でしばしば使用されます。 例えば、データのクラスターを見つけようとする場合、分析では「レコード間の距離」を重要な指標として使用します。 通常、どちらの指標を使うか(例えばメートルかキロメートルか)によって結果が異なることは避けたいが、生データを使う場合はそうなってしまう。 データを同じ尺度にする方法はいくつかありますが、一般的な方法のひとつは、平均値を引いて標準偏差で割る方法です。 これはzスコアとも呼ばれ、データを標準的な正規分布と比較することができます。
ただし、この方法でデータを正規化しても、データが正規分布になるわけではありません。
Historical note: The “Error Distribution”
正規分布はもともと「誤差分布」と呼ばれ、天体観測における平均からの偏差に適用されていた。 そして、元のデータではなく、誤差(残差)の正規分布という概念が、統計学における正規理論の本来の広い適用を推進したのです。