マスコミの方々からのバルサルタン論文不正関連の資料を昨年末、整理していて、2014年3月の日本循環器学会学術集会での興梠貴英先生(自治医大附属病院企画経営部医療情報部准教授)の講演スライドの写真が目にとまった。Kyoto Heart Study(以下KHS)のサブ解析論文1)の問題点を指摘した内容で、血清K(以下K)の分布を「正規分布」としてその平均値、標準偏差を示し、シミュレーションのための乱数の発生も正規分布に基づき行っていた。しかし、Kは「対数正規分布」を示すので、対数正規分布の図を用い、シミュレーションも対数正規分布に従う乱数を発生させるのが正しいのではないかと思った。そこで、興梠貴英先生、山崎力先生(東大附属病院臨床研究支援センター教授)が糖尿病に関するKHSサブ解析論文について書かれた2014年6月の日本医事新報J-CLEAR通信2)を読み、以下の点に気付いたのでコメントを書かせていただく。
確率変数Xの対数ln(X)が正規分布に従うとき、Xは対数正規分布であるという。J-CLEAR通信にはKに関する記載があるが、そこでは対数正規分布であるKを正規分布とし、平均値から標準偏差を引き算して分布の範囲を説明している。対数正規分布では、こうするとマイナスの値が出ることが多い。マイナスの値が出る時は対象が正規分布していないか、データ処理ミス(入力ミス、外れ値の未処理等)で標準偏差が大きくなっている可能性をまず考えないといけない。
少し分かりにくいと思うので、最近出版された統計学の本3)の解説を紹介させていただく。図1は身長、総コレステロール、中性脂肪の分布を示している。以下原文を引用する。
『身長と総コレステロールの分布は正規分布に近い形をしていますから、正規分布では平均値±2×標準偏差の間に全体の約95%のデータが含まれると考えてよさそうです。身長では163.1-2×8.4=146.3cmと163.1+2×8.4=179.9cmの範囲に約95%のデータが含まれることになります』
『一方、中性脂肪の値では、正規分布していると仮定して約95%のデータが含まれる範囲を計算してみると、-41.8mg/dL(=105.4-2×73.6)から252.6mg/dL(=105.4+2×73.6)となります。中性脂肪の値がマイナスになるヒトはいませんので、この計算は意味がなさそうです。このように、平均値±2×標準偏差の範囲を求め、その値があり得ない値になるとき、その多くはデータの分布が正規分布から大きくずれている可能性があります』
図2はこれを一般化して説明したものである。『標準偏差が平均値に対して相対的に大きい場合の、元のデータの分布の特徴に注意してください』と書かれている(「添付文書がちゃんと読める統計学」84〜87頁、中性脂肪は対数正規分布の典型例)。
残り2,454文字あります
会員登録頂くことで利用範囲が広がります。 » 会員登録する