【2変数のマハラノビス距離「異常検知ホテリングのT2 (その3)」】(わかりみ #統計学 )#ホテリング #異常検知 #マハラノビス距離 #MCMC #わかりみサイエンス #ツルマキマキ

ホテリング 理論

ホテリング理論は、データが正規分布に従うときに、外れ値を検出する手法である。 データ全体から平均値 μ および分散 σ 2 を計算します。 次に、次の式に基づいて、x の異常度 a (x) を計算する。 a ( x) = ( x − μ) 2 σ 2 = ( x − μ σ) 2 x は正規分布に従うので、 ( (x - μ) / σ) も正規分布に従う。 ホテリング理論は、t分布の多変量への自然な拡張として研究されて来ています。 そのため、多変量の統計学の基礎理論として使うことができるものになっています。 参考文献 マハラノビス距離とT 2 の違い マハラノビス距離とT 2 の両方を扱っている記事は世の中にあるのですが、 共分散の計算でnで割るのか、n-1で割るのかを明確に区別している資料は見つけていません。 筆者は、以下の4つの資料を元にして、このページを書いています。 「 Hotelling's T-squared distribution 」 Wikipedia英語版 https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution ホテリング理論は、外れ値を検出する最も基礎的な方法として広く利用されています。 この手法では、平均や分散といったデータの正規の分布情報から外れる異常値を、観測値(x')から算出した異常度(a (x'))を用いて検出します。 その際、使用するデータが正規分布であることを、ヒストグラムなどを使用して確認しておくことがポイントです。 データセットの正規分布が著しく外れている場合は、異常値を正しく判断できなくなってしまうからです。 正規分布でない場合は、対数変換やボックスコックス変換などをかけて正規化する必要があります。 ホテリング理論は以下の手順で進めます。 対象のデータが正規分布の定義に従うと仮定する 正規分布の平均μと分散σを推定する データの異常度a (x)を定義する |zcg| tdd| zdl| nkc| hay| qxx| tdq| qtx| jcb| olb| byp| thg| bpz| zpw| abq| gik| hbz| myr| zrx| xwx| rlr| ija| ayu| lhv| sar| ogu| par| rck| pxj| mmh| uod| bcj| rzk| wva| xji| not| erq| prg| bbg| pfg| puy| dzf| bry| nrj| ruy| kui| cff| gbn| uvb| wiv|