多重代入法の扱う場合のフローチャート

欠測値補完について まとめ

近年では有名雑誌ではほぼ必須と言われる欠測値補完
自分の備忘録も兼ねて欠測値補完についてまとめました

分かりやすくセンセーションに伝えるためでしょうが
完全ケース分析は禁忌!!!
という教科書もありますが実はそうではない、という事が分かります

流行りの多重代入法の手法であるMICEも万能ではありません


https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-017-0442-1
こちらの論文がよく纏まっていたのでそれに沿って解説します
最後にその他読んだ論文で肉付けしていきたいと思います

When and how should multiple imputation be used for handling missing data in randomised clinical trials – a practical guide with flowcharts
Janus Christian Jakobsen

まず前提知識として
欠測はその原因によって3つに分類される事を知っておきましょう
それぞれに対応が多少異なります

欠測の原因

MCAR:完全にランダムに欠落
MAR:ランダムに欠落
MNAR:非ランダムに欠落

欠測値に対する対応の種類
・完全ケース分析
MCAR(完全にランダムに欠落)の場合、サンプルサイズが小さくなるため統計的検出力の低下はあるものの、バイアスにはならない
MCARでない場合、介入効果の利益を過大評価し、外を過小評価するリスクがある

・単一代入法
複数の方法があり、最後の観測値ですべて置き換える、最低の観測値に置き換える、平均の代入などがある
単一代入法では変動性が過小評価されやすく、MCARであったとしてもバイアスを招く可能性があるため基本的には推奨されない

多重代入法
ランダム化比較試験において有効性が示され頻用される

欠測値の状態に応じた対応

ここで皆さん誤解している方も多いと思いますが
欠測データを無視して良い場合があります

・欠測データを無視して良い場合
a)経験則ではあるが欠測率が5%未満の場合
特にベストケース、ワーストケースの感度分析により、不確実性の範囲を示し、この範囲が質的に矛盾する結果でない事を示すことでより確からしくなる
b)従属変数に欠損値があるのみで、補助変数(回帰分析には参入されないが欠損値と関連がある変数※後述)がない場合
Limitationとした上で完全データ分析を使用せざるをえない
この場合、多重代入法も不適切で、標準誤差が増加する可能性があり代替手法がないためである
c)MCARの場合は完全ケース分析でも問題はない
ただしMCARが確実である場合は稀
Littele MCAR testでMCARという帰無仮説を棄却できない場合でも合理的な疑いがある場合は不適切となる、つまりMCARとして扱ってはいけない

・欠測データが40%を超える場合
欠測値補完をした場合でも欠損率があまりに高い場合は、あくまで仮説的(hypothesis generating results)として見なされることが多い
数少ない例外は欠測の理由がMCARであると説明可能な場合である

・MNARの場合
ベストワーストおよびワーストベストケースの感度分析は、不確実性の理論的範囲全体を示す可能性があり、この不確実性の範囲に結論があると考えられる
ただこの分析のlimitationについて十分な議論と考察が必要となる

・欠損値のある結果変数が連続的であり分析モデルが複雑な場合
分析モデルと多重代入法との相性の問題を回避するためにより一般的な直接最尤法の使用を検討すべき
注意点としては直接最尤法は連続変数のみに使用可能であること

ここからは多重代入法の方法についてです

様々なタイプの多重代入
・単一値回帰分析
補助変数が特定されている場合
連続従属変数のベースライン値のみに欠損値がある場合

・単調代入
欠損が単調な場合
単調欠損か否かの検定パッケージが各種統計ソフトにある

・連鎖方程式またはマルコフ連鎖モンテカルロ法(MCMC)
上記に該当しない場合は多重代入法やMCMC法を使用すべきである
また補助変数はできる限り参入すべきである
有名なMICEパッケージはこの連鎖方程式にあたります

ここでは多重代入法と比較した完全情報最尤推定法についても述べられています

完全情報最尤推定法 (FIML:full information maximum likelihood method)の強み
1)
実装が簡単

2)
多重代入とは異なり、FIML法には代入モデルと分析モデルの間の非互換性に関する潜在的な問題がない
代入モデルと分析モデルの間に非互換性がある場合、または代入モデルが分析モデルよりも一般的でない場合、多重代入結果の妥当性は疑わしくなる

3)
多重代入法ではランダムシードを設定しない場合に計算のたびに違う結果が出てきてしまう(ランダムシードを設定することで解決可能)

FIML法のlimitation
1)
商業的に設計された統計ソフトウェア(STATA、SAS、SPSSなど)の機能を欠いている
STATA(SEMコマンドを使用)およびSAS(PROC CALISコマンドを使用)では、FIML法を使用できますが、連続従属(結果)変数を使用する場合に限定される
ロジスティック回帰とCox回帰の場合、欠測データの最尤法で完全な情報を提供する唯一の商用パッケージはMplusのみ

2)
FIML法は多変量正規性を仮定していること
ただしそれを無視したとしても大きな影響はなくbinary変数でも算入できる可能性がある

感度分析について
1)
欠測データの潜在的な影響は、変数ごとに個別に評価する必要があり、欠測データのある変数ごとに1つのベストワーストシナリオと1つのワーストベストケースシナリオが必要

2)
多重代入法を使用する必要があるとなった場合、主要な結果である必要があります
それぞれの単回帰分析は、対応するケース分析によって常に補われるべき

まとめ
MNARである場合はどのような補完をしても無駄→欠測の原因を探すべき
単一代入法や単調代入が適切な場合は現実的には少なく、多重代入法やFIML法を検討すべき
欠測率などにも依るので以下のグラフを参考にすればよいだろう

図1
ランダム化臨床試験の結果を分析するときに、欠落データを処理するために複数の代入を使用する必要がある場合
図2
多重代入のフローチャート

※補助変数についての解説
補助変数とはMissing At Randomの前提を満たすために組み込まれる補助的な変数の事である(メインの分析には影響がない変数)
補助変数は適切な補助変数が分からない場合、測定したすべての変数を補助変数として投入しデータをできるだけMAR に近づけるというアプローチも可能
garbageと言われるような補助変数が多量に含まれていたとしてもメインの分析の推定値の精度は低下しないことが示されている
ただし補助変数を多くすると計算が複雑になり計算的負荷が高まるため現実的には適切な補助変数選定すべきである

その他の論文からの引用
以下は欠測値補完にまつわる様々な論文からの抜粋です

sample imputation methodやmedian imputation methodに比較してkNN imputationは優れている
その他の欠測値補完法との比較では欠測率による
しかし、MICEは全てにおいて優れている
https://aip.scitation.org/doi/abs/10.1063/5.0053286?journalCode=apc#:~:text=Results%20show%20that%20the%20multiple,sample%20and%20median%20imputation%20methods.

kNN imputationは優れた補完法であるが、20%の欠測値を超える場合はkNN imputationは推奨されない
https://www.techscience.com/cmc/v70n2/44693

6種類の補完法の比較(kNN, MICEを含む)
bPCA法やFKM法が現実的に最も考慮すべき補完法である
https://lgreski.github.io/datasciencedepot/references/a-comparison-of-six-methods-for-missing-data-imputation-2155-6180-1000224.pdf

The experimental analysis suggests that EM is the imputation algorithm which is expected to be a good choice to deal with the problem of missing data in the healthcare area
ヘルスケア分野ではEM(Regularized ExpectationMaximization)が最も推奨される補完法
http://www.jaist.ac.jp/~razvan/publications/comparison_imputation_healthcare.pdf

所感

結局補完したほうが良いのは間違いないが、データによる、状況による、欠測率による、など、まだこの分野も議論が分かれているというのが現状でしょう

タグ: ,