【折笠】非劣性試験には非劣性マージンと言って,ここまで劣っていても目をつむるというラインがあります。1.4倍くらいのリスク増大まで認めることが多いですが,時には2倍のリスク増大でも非劣性とすることがあります。一方,優越性試験にはそうしたマージンがまったくない。
【谷】逆はできないので,順番としてはまず非劣性試験を行っておくということです。
【折笠】糖尿病の新薬では,心血管イベントに対して様々な試験が行われていますが,これは効果をみるというよりも安全性をみています。だから,優越性試験である必要はないのです。つまり,同等であれば問題ない。血糖を下げる,あるいは末梢血管で作用があればよい。副作用としての心血管イベントが増えていないことを確認するために,非劣性試験が行われています。
【桑島】非劣性試験では必ず非劣性マージンを設定しますが,そのマージンがはたして適正なのかどうかという疑問もあるようです。
【谷】確かに,非劣性マージンを甘くすれば,症例が少なくても証明できるということはあります。かといって厳しくすると,発売から9年も10年も経っているのに結果が出ないということになってしまいます。早く結果を出す必要もあるわけです。その兼ね合いをFDAが決めています。
【名郷】早く出したいのはメーカーの都合であって,臨床家からすれば別に早く出せとは思いません。広いマージンを取って非劣性でしたと言われても,臨床家にはほとんど意味がないのです。
【谷】名郷先生,誤解されていると思うのですが,この非劣性マージンの1.3というのは「平均値が1.3増えても」ということではなく,「信頼区間の上限が1.3というマージンを超えない」ということです。
【名郷】それはわかります。別に誤解はしていませんから大丈夫です。
【谷】ですから平均値なら1.16です。16%以上イベントが増えたとき,信頼区間の上限が1.3を超えます。
【名郷】16%だとしても,たとえばUKPDS33の相対危険が0.88ですから,むしろUKPDS33は非劣性ですよ。1.16の+0.16よりも,0.88では-0.12で差が小さいわけですから。
【谷】では,名郷先生はどう設定したら,安全性を証明できるとお考えですか。
【名郷】合併症予防を優先して,時間をかけて最初から優越性試験をやればいいのです。優越性が出なければ従来治療のほうが安いし,良かったということでいいじゃないですか。
【谷】それだと結果が出るまでに10年はかかってしまいます。FDAとしては,安全性が担保されなければすぐ発売中止にしなければならない。既に市販されている薬ですから,早く証明しなければなりません。しかも「優越性が証明できなければ同等」という考え方は間違いとされていますので,それでは安全だと証明できません。
【桑島】低血糖を起こさずに,確実に血糖あるいはHbA1cを下げる新薬があれば,それは安全性を確認した上で早く使いたいですね。
【折笠】安全だということは証明されていませんが,ある範囲内において危険ではないということは証明されています。
【名郷】プライマリーアウトカムは非劣性かもしれませんが,心不全などは統計学的に有意に増えているので,それで本当に非劣性としていいのでしょうか。実際に,DPP-4阻害薬でも追加治療で使用すると低血糖が増えています。統計学的に有意差はないですが,安全ではないから止めてもいいという結果だと思います。それを止めないわけですから,何のための試験なのかわからない。
【谷】でも, DPP-4阻害薬を使う場合,もし本当にアドバースエフェクトが強ければストップになります。だから,それを証明する試験が非劣性試験になるのではないですか。
【名郷】現実に心不全が増えるなどしていますが,そこがあまり取り上げられていません。安全性を取り上げているわけだから,プライマリーアウトカム以外で有意差が出たからといって,これは危険とは言えないというのは違うと思います。代替治療があるわけですから,臨床家としてはまず新しい治療を控えようと考えますよ。
【桑島】新規抗凝固薬のDOACも,ほとんどが非劣性試験です。
【折笠】DOACはちょっとまずくて,プライマリーエンドポイントが安全性ではなく有効性なのです。つまり,脳梗塞を減らすという目的で,ワーファリンと比べて1.4ぐらいの非劣性マージンで一応はOKということになっています。脳出血のほうは安全性の指標であり,こちらは非劣性など示していない。包括的に,脳梗塞と脳出血を同時に比べているのです。
【桑島】非劣性試験というのは相手方が標準薬であることが基本です。DOACの場合には,対照薬のワーファリンの用量調整をダブルブラインドで実施していますから,適正なINRというわけではありません。したがって,対照薬が本当に標準治療なのか疑問が残ります。
【折笠】悪い状況ですね。
【谷】試験は非劣性でするしかないと思います。標準薬があるわけですから。全体数の枠は有効性もそうですけど,安全性との兼ね合いになります。それをマージンまでゆるめにするのは「非常に安全だから」という考え方があるのです。そういうことも含めて,マージンが決まるわけです。
【名郷】DOACの場合は標準治療が標準治療になっていないということが,現時点で恐らく一番決定的な問題です。たとえばPIONEER-AFなどでも,DOACは用量を減量しているのに,ワーファリンはINRが2~3のように,むしろ日本の標準治療より強いような範囲で設定されています。そんなので比べたら出血が増えるに決まっているだろうというやり方で行われているのが,やはり最大の問題でしょう。
【折笠】試験は4種のDOACとも非劣性マージンを1.4くらいとして行っていますが,肺塞栓ではマージンを2としてやっています。なぜかというと,イベント数が少ないからです。イベント数が少ないと信頼区間が広がり,2というラインも飛び出してしまう。だから,マージン2なのです。
【名郷】マージンで見るととんでもない感じがします。2のマージンで非劣性と言われてもね。
【折笠】2倍以上増えていない限り,危険ではないということです。
【名郷】たとえば1.9では危険でしょうみたいなね。高いわけですし。
【谷】しかし,イベントが少ない肺塞栓で,イベントが増えないことを証明するには,非劣性マージンをゆるくする以外に今のところ方法がないわけです。
【折笠】今考えられているのは,ネットワークメタアナリシスです。ただし,ネットワークメタアナリシスは直接比較ではないから,いろいろなバイアスが入るとは言われています。しかし,例数はグンと増えますから,マージン1.2くらいであっても証明できると思います。
【名郷】UKPDSの時代ですら,あれだけの規模と時間をかけてようやく効果が出たという歴史をふまえると,どんな新薬を追加してもなかなか難しい。それこそが実は重要だと思います。DOACのことでいうと,非劣性の結果が出たとしてもやはりワーファリンが第一選択で,ワーファリンが使えない場合に限ってDOACの適応を考えたほうがわかりやすいと思います。
【桑島】しかし,納豆や他の食品,医薬品との併用による有害事象を考慮するとワーファリンは使いにくいことがありますので,DOACを最初に選択することは不適切ではないと思いますが。
【谷】過去にFDAは,有意差がつかなければ同等とみなしていましたが,これは間違いだとして同等であることを証明しなければならないとしました。そこで始まったのが非劣性試験なので,これはやはり統計学的根拠に基づいています。
【折笠】FDAは,糖尿病薬が心血管に1.4倍以上危険をもたらすことはないだろうということで,国民に対してエクスキューズがきくわけです。つまり,「1.2倍くらいは危険かもしれないが,まさか2倍も危険ではないということが証明されたから安心して下さい」ということですね。
【名郷】でもそう考えると,今までの集中的な糖尿病治療も,治療しないのと大して変わらないという結果になっているので,臨床家からするとわけがわかりません。1.2倍以内の危険はあるかもしれないけど,それは同じでしょうという考え方なわけですよね。
集中的な治療は,おおむね合併症が1から0.9ぐらいに減るかもしれないといったところでやっているわけで,それが非劣性試験の立場では集中的な治療に比べてゆるい治療は劣っているとは言えないというようなことと重なると,何の話だかわからないですよね。
統計学的にはそうかもしれないけど,臨床的な考え方とは明らかな齟齬があり,その齟齬をどう解決するかについて,統計学側からは何の答えももたらされていないと私は思います。
【折笠】統計学的には,安全だということを証明するのは難しいです。膨大な人数を必要とします。それに比して,有効だということを証明するのは意外と簡単です。
【名郷】たとえば100のイベントを90にしたから有効だとしている現状をふまえた場合,どのレベルでマージンを切り,どの程度の安全性と言うか,という議論が欠けていて,1.3というようにいい加減になっているのではないかと言いたいのです。
【桑島】最後に折笠先生,臨床試験の方法論における今後の展望についてご教示下さい。
【折笠】2000年頃から実薬対照試験が本格的に始まり,それは日本が主導して行ってきましたが,ここ5年ぐらいは米国でも行われるようになっています。その頃から,非劣性試験へ疑問を呈する人も増えてきました。倫理的な疑問を呈する人もいるし,これは無駄な試験なのではないかと言う人もいます。プラセボ比較試験にも倫理的な問題は指摘されていましたが,実薬との非劣性試験でも同様の疑義があがっているのは事実です。同類の薬剤は登場するが,画期的な薬剤は生まれない。これは患者にとっては不幸なこと,という主旨です。
数年で,また方針が変わるかもしれないですね。たとえば,FDAは近年の糖尿病治療薬に対して心血管イベントのランダム化比較試験を課していますが,よりリアルワールドに近い観察研究データの使用可能性も考えているようです。観察研究データでも,プロペンシティ解析のような統計手法を用いて因果分析ができるようになってきたからです。
【名郷】最後に1つだけ。SU薬やピオグリタゾンなどの糖尿病治療薬で心血管イベントが増えるかもしれないということは,事前確率が高い仮説ですよね。実はこれが重要なことで,事前確率が高い仮説についての非劣性というのは,マージンをどうするかということとはまた別に厳しくしなくてはいけないと思います。
【桑島】お話しをうかがって,名郷先生は臨床家としての素朴な疑問,新薬における商業主義に対する警戒心がある印象でした。一方で谷先生は,理論的・科学的な観点からの考え方で,これもまた説得力のあるお話しでした。お二人のご意見,そして折笠先生のご解説は大変参考になります。本日は,どうもありがとうございました。