株式会社日本医事新報社 株式会社日本医事新報社

第85回:〈J-CLEAR主催座談会〉非劣性試験の問題点

登録日:
2018-05-01
最終更新日:
2024-11-15

非劣性試験の妥当性

【桑島】最近,糖尿病治療薬や直接経口抗凝固薬(DOAC) などに関する大規模臨床試験が相次いで発表されていますが,その多くは,新薬が従来薬やプラセボに比べて非劣性であることを証明できたと結論づけています。

こうした中で,名郷医師から「非劣性試験よりも,まず優越性試験を行うことが大事なのではないか」という問題提起が本誌に投稿されました〔J-CLEAR通信75(No.4849,p56)参照〕。
それに対して「当然,新薬に優越性は必要であるが,既存の同種同効薬よりも有用な点があれば,従来薬に対する効果と安全性における非劣性を証明することが重要である」とする谷医師の反対意見がありました。
そこで今回は,名郷先生と谷先生,そして統計学に造詣の深い折笠先生にお集まり頂き,非劣性試験の妥当性について議論して頂きます。

【名郷】糖尿病の臨床試験の歴史をみると,血糖を下げることと,心血管イベントが減るということがまったくパラレルではなく,糖尿病治療薬が血糖を下げるだけで保険適用になるという現状そのものに,実は大きな問題があります。血糖を下げた分だけ合併症が減っていないということが,むしろこれまでで明らかになっていると思います。

たとえばDPP-4阻害薬のトライアルでみると,安全性とは言いつつも,実際に評価しているのは糖尿病の合併症そのものなのです。そもそも安全性ではなく,イベントについての効果があるかを調べる以外にこの臨床試験の意味はないと私は思っています。
なので,非劣性を示す意味がわからないです。心血管疾患は糖尿病に伴うイベントですから,これは安全性ではない。たとえばUKPDS33では,全糖尿病合併症を100から88へと,せいぜい1割ほど減らす効果があるとしているわけですから,ましてや非劣性試験で非劣性マージンを1.3取っていることを考えると,臨床家としてはまったく理解の外にある感じなのですが。

【桑島】谷先生は,今回の糖尿病関連の試験で試験薬となったDPP-4阻害薬やSGLT2阻害薬は,心血管イベント抑制のための薬というよりも,まず血糖値を下げる薬であることが前提となっており,それを世に出すためには安全性の評価が重要という見方をされているのですね。

【谷】そうです。プラセボと比較して有意な血糖降下作用が示されたから,米国食品医薬品局(FDA)は糖尿病治療薬として承認したのです。決して,心血管イベント抑制薬として承認された薬剤ではないのです。ただ,ロシグリタゾンのような問題がありましたので,心血管イベントという有害事象が増えないことを示す義務を課したわけです。しかも,既に発売されている薬剤の試験ですので,時間がかかる優越性試験を行うことはできません。安全性に問題があるなら早く結論を出す必要があります。そのためには3年ぐらいで終わるように試験を組む必要がありますが,それを考えると非劣性試験になるわけです。

非劣性試験を実施すれば,非劣性を証明した後でも優越性を示すことができます。しかしその逆,つまり優越性を証明できなかったので,せめて非劣性を証明しようというのは検証試験という特質上不可能です。エンパグリフロジンの上乗せ効果をみたEMPA-REG OUTCOME試験では,非劣性が証明されたからこそ次に優越性の検証ができ,またそれは優越性のエビデンスとなりました。そうした利点のため,最初は非劣性試験を実施するほうが適切ではないかということです。

【桑島】まず安全性を証明すべきということですね。イベント抑制を目的とするのであれば,その後に優越性試験をやるべきだと。

【谷】そうです。

非劣性試験では必ず非劣性マージンを設定しますが,そのマージンがはたして適正なのかという疑問もあります。

  

桑島 巖
71年岩手医科大学医学部卒業,05年東京都健康長寿医療センター副院長,12年同病院顧問,09年J-CLEAR理事長

非劣性試験が必要な背景

【折笠】対照薬をどのように選んで試験するかについてですが,日本ではそれまで,新薬承認申請に際して既に薬があれば,次の薬は最初の薬と実薬対照試験を行っていました。そして,同等であればよいということで承認していたのです。しかし,いい加減な試験をすれば同等性が証明されてしまうため疑問視されていました。そこで,実薬同士のガチンコ勝負の試験をどのように実行するべきか,日本の主張を取り入れたICH-E10ガイドライン「臨床試験における対照群の選択とそれに関連する諸問題」ができました。そのとき,米国はアクティブ同士の試験をやっていなかったため,あまり関係ないように振る舞っていたようでした。米国の試験は,今までの標準薬をベースとして,それに上乗せで新薬を加えるかプラセボを加えるかというプラセボ対照試験なのです。

今までの標準治療があって,それに加えて優越性を示すような数字はそう出せるものでない。だから同等か,少し良ければ認めてはどうかということで,ICH-E10が出たという経過があります。

もう1つ,非劣性試験が必要な背景があります。FDAは糖尿病治療薬に関して血糖コントロールだけで認可していましたが,ロシグリタゾンのように心血管イベントの問題が取り上げられることが増えてきて,2007年にガイドラインが出ました。市販後に心血管イベントまでみなければいけないというものです。それらの試験は,前述のように標準薬をベースにして,新薬を上乗せしてプラセボと比較する試験です。現実的に優越性を立証することは難しいので,非劣性試験を行うようになりました(表1)。

【谷】恐らくプラセボを対照としても優越性を出せるほど差がつかないのだと思います。差がつかないので,非劣性ならば同等と認めようということではないでしょうか。

【名郷】プラセボではなくて,たとえばメトホルミンを増量するなど,別の形の治療に対して非劣性ということなら臨床的にも理解はできますけど。

【谷】実際はそうなってます。このSAVOR-TIMI 53では対照群,すなわちプラセボ群は,インクレチン作動薬以外の糖尿病薬の併用が増えていますよね。だから,HbA1cの差があまりついていません。インクレチン作動薬以外の薬剤との比較になっているのです。

【桑島】試験開始直後はプラセボだけであっても,血糖値を下げるために途中で対照群に実薬が処方されているということですよね。いずれの試験もIntention-To-Treat解析ですから,当然そのようなことも念頭に置く必要があります。

【谷】その通りです。実質的には実薬対照となっているので,非劣性試験でも問題ないと思います。

【折笠】非劣性といっても,感覚的にはほぼ同じような薬が出てくるという感じですよね。メリットは同類薬の市場競争性くらいだと思います。非劣性試験は,臨床家にとっても患者にとってもあまりメリットはありません。メリットがあるのは企業だけではないでしょうか。

【桑島】谷先生は,先にプラセボや従来薬に対する優越性を証明すべきであるという意見が非倫理的であるというご意見ですね。

【谷】はい。優越性試験をやると症例数が増えるし,時間もかかりますから。
心血管イベントが増えないということを時間をかけずに証明するには,非劣性試験をするしかないという考えです。

【名郷】非劣性試験をするしかないと仰いますが,もしこれで非劣性が証明されたとしてもDPP-4阻害薬を使うという選択肢にはならないのではないですか。新薬を非劣性試験で同等と言ったところで,安価で慣れた治療を行ったほうがいいわけですから。非劣性試験が臨床家にとってどういう意味があるかということですよ。

【谷】確かに,薬価が高くなるということはありますが,たとえば低血糖の頻度が低い,高齢者が使いやすいなどの利点があるなら,それも含めて判断する必要があると思います。

【桑島】DPP-4阻害薬は,従来薬に比して血糖降下作用の確実性は高いですね。

【名郷】血糖を下げるだけでは臨床的には無意味で,あくまでも合併症予防が治療の目的です。

たとえばUKPDSでは,SU薬やインスリン療法でHbA1cが8から7に下がったと出ていますよね。しかし,SU薬やインスリン療法では心血管イベントが10%しか減っていません。それに対してメトホルミンでは,HbA1cが8から7.4までしか減っていないのですが,心血管イベントが40%減っている。血糖を下げることとイベント抑制効果が大きく乖離しているので,糖尿病薬はイベント抑制薬として考える以外に使い道はないのではないでしょうか。

【谷】それは極端だと思います。UKPDSでみているのは心血管イベントだけではありません。

【名郷】UKPDSは全糖尿病合併症をみています。実際には,網膜症や腎症のほうが減っています。

【谷】そうでしょう。だから,この点から血糖を下げることは意味があります。

【名郷】血糖が下がるということだけでは無意味と申し上げています。網膜症,腎症は真のアウトカムですから,それが減ることには意味があります。「ただ血糖を下げるだけ」では無意味ということです。

【桑島】ただ,ガイドラインでも糖尿病治療のマーカーとしてHbA1cの目標値を定めています。名郷先生の仰る通りなら,それが無意味になってしまいます。

【名郷】たとえば血圧治療とは異なり,血糖を下げても下げた分イベントは減らないということがきちんと強調されることが非常に重要です。GLP-1受容体作動薬やSGLT2阻害薬のトライアルにしても,実は網膜症や足の切断,骨折の増加など,別の臨床上重要なアウトカムで有害事象が出ているわけですから,そのような状況で非劣性だからいいということは,どうしても認めることができないと思います。

【桑島】EMPA-REG OUTCOME試験ですが,これは非劣性試験の中でたまたま心不全などに優位性が出てきたので,それが強調されすぎている感はあります。心不全の予防が,血糖値を下げたことによるのかSGLT2阻害薬の利尿作用の結果なのかは不明です。そういう意味では,HbA1c低下と合併症抑制がパラレルではないかもしれません。

【谷】そうではなくて,非劣性試験をやった上で優越性試験をやるということが,最初から試験デザインに組んであるのです。全体で有意水準αが抑えられる閉検定手順として。

【桑島】詳しく教えて下さい。

【谷】一般に,非劣性と優越性の2つの検定を行うと多重検定になり,間違って有意と出てしまう確率αが2倍になります。ところが,非劣性試験を先に行えば,「非劣性が間違って証明された」となる確率α1と「優越性が間違って証明された」となる確率α2が包含関係になっていますから,2回検定してもα(有意水準)は増えず,多重検定にはならないのです。だから,非劣性が証明された後で優越性試験をしてもエビデンス(検証された)となります。しかし逆はできません。

広いマージンをとって非劣性でしたと言われても,臨床家にとってはほとんど意味がないのです。

名郷直樹
86年自治医科大学医学部卒業,05年東京北社会保険病院臨床研修センター長,11年から現職

非劣性マージンの設定

【折笠】非劣性試験には非劣性マージンと言って,ここまで劣っていても目をつむるというラインがあります。1.4倍くらいのリスク増大まで認めることが多いですが,時には2倍のリスク増大でも非劣性とすることがあります。一方,優越性試験にはそうしたマージンがまったくない。

【谷】逆はできないので,順番としてはまず非劣性試験を行っておくということです。

【折笠】糖尿病の新薬では,心血管イベントに対して様々な試験が行われていますが,これは効果をみるというよりも安全性をみています。だから,優越性試験である必要はないのです。つまり,同等であれば問題ない。血糖を下げる,あるいは末梢血管で作用があればよい。副作用としての心血管イベントが増えていないことを確認するために,非劣性試験が行われています。 

【桑島】非劣性試験では必ず非劣性マージンを設定しますが,そのマージンがはたして適正なのかどうかという疑問もあるようです。

【谷】確かに,非劣性マージンを甘くすれば,症例が少なくても証明できるということはあります。かといって厳しくすると,発売から9年も10年も経っているのに結果が出ないということになってしまいます。早く結果を出す必要もあるわけです。その兼ね合いをFDAが決めています。

【名郷】早く出したいのはメーカーの都合であって,臨床家からすれば別に早く出せとは思いません。広いマージンを取って非劣性でしたと言われても,臨床家にはほとんど意味がないのです。

【谷】名郷先生,誤解されていると思うのですが,この非劣性マージンの1.3というのは「平均値が1.3増えても」ということではなく,「信頼区間の上限が1.3というマージンを超えない」ということです。

【名郷】それはわかります。別に誤解はしていませんから大丈夫です。

【谷】ですから平均値なら1.16です。16%以上イベントが増えたとき,信頼区間の上限が1.3を超えます。

【名郷】16%だとしても,たとえばUKPDS33の相対危険が0.88ですから,むしろUKPDS33は非劣性ですよ。1.16の+0.16よりも,0.88では-0.12で差が小さいわけですから。

【谷】では,名郷先生はどう設定したら,安全性を証明できるとお考えですか。

【名郷】合併症予防を優先して,時間をかけて最初から優越性試験をやればいいのです。優越性が出なければ従来治療のほうが安いし,良かったということでいいじゃないですか。

【谷】それだと結果が出るまでに10年はかかってしまいます。FDAとしては,安全性が担保されなければすぐ発売中止にしなければならない。既に市販されている薬ですから,早く証明しなければなりません。しかも「優越性が証明できなければ同等」という考え方は間違いとされていますので,それでは安全だと証明できません。

【桑島】低血糖を起こさずに,確実に血糖あるいはHbA1cを下げる新薬があれば,それは安全性を確認した上で早く使いたいですね。

【折笠】安全だということは証明されていませんが,ある範囲内において危険ではないということは証明されています。

【名郷】プライマリーアウトカムは非劣性かもしれませんが,心不全などは統計学的に有意に増えているので,それで本当に非劣性としていいのでしょうか。実際に,DPP-4阻害薬でも追加治療で使用すると低血糖が増えています。統計学的に有意差はないですが,安全ではないから止めてもいいという結果だと思います。それを止めないわけですから,何のための試験なのかわからない。

【谷】でも, DPP-4阻害薬を使う場合,もし本当にアドバースエフェクトが強ければストップになります。だから,それを証明する試験が非劣性試験になるのではないですか。

【名郷】現実に心不全が増えるなどしていますが,そこがあまり取り上げられていません。安全性を取り上げているわけだから,プライマリーアウトカム以外で有意差が出たからといって,これは危険とは言えないというのは違うと思います。代替治療があるわけですから,臨床家としてはまず新しい治療を控えようと考えますよ。

DOAC(直接経口抗凝固薬)の大規模臨床試験

【桑島】新規抗凝固薬のDOACも,ほとんどが非劣性試験です。

【折笠】DOACはちょっとまずくて,プライマリーエンドポイントが安全性ではなく有効性なのです。つまり,脳梗塞を減らすという目的で,ワーファリンと比べて1.4ぐらいの非劣性マージンで一応はOKということになっています。脳出血のほうは安全性の指標であり,こちらは非劣性など示していない。包括的に,脳梗塞と脳出血を同時に比べているのです。

【桑島】非劣性試験というのは相手方が標準薬であることが基本です。DOACの場合には,対照薬のワーファリンの用量調整をダブルブラインドで実施していますから,適正なINRというわけではありません。したがって,対照薬が本当に標準治療なのか疑問が残ります。

【折笠】悪い状況ですね。

【谷】試験は非劣性でするしかないと思います。標準薬があるわけですから。全体数の枠は有効性もそうですけど,安全性との兼ね合いになります。それをマージンまでゆるめにするのは「非常に安全だから」という考え方があるのです。そういうことも含めて,マージンが決まるわけです。

【名郷】DOACの場合は標準治療が標準治療になっていないということが,現時点で恐らく一番決定的な問題です。たとえばPIONEER-AFなどでも,DOACは用量を減量しているのに,ワーファリンはINRが2~3のように,むしろ日本の標準治療より強いような範囲で設定されています。そんなので比べたら出血が増えるに決まっているだろうというやり方で行われているのが,やはり最大の問題でしょう。

【折笠】試験は4種のDOACとも非劣性マージンを1.4くらいとして行っていますが,肺塞栓ではマージンを2としてやっています。なぜかというと,イベント数が少ないからです。イベント数が少ないと信頼区間が広がり,2というラインも飛び出してしまう。だから,マージン2なのです。

【名郷】マージンで見るととんでもない感じがします。2のマージンで非劣性と言われてもね。

【折笠】2倍以上増えていない限り,危険ではないということです。

【名郷】たとえば1.9では危険でしょうみたいなね。高いわけですし。

【谷】しかし,イベントが少ない肺塞栓で,イベントが増えないことを証明するには,非劣性マージンをゆるくする以外に今のところ方法がないわけです。

【折笠】今考えられているのは,ネットワークメタアナリシスです。ただし,ネットワークメタアナリシスは直接比較ではないから,いろいろなバイアスが入るとは言われています。しかし,例数はグンと増えますから,マージン1.2くらいであっても証明できると思います。

【名郷】UKPDSの時代ですら,あれだけの規模と時間をかけてようやく効果が出たという歴史をふまえると,どんな新薬を追加してもなかなか難しい。それこそが実は重要だと思います。DOACのことでいうと,非劣性の結果が出たとしてもやはりワーファリンが第一選択で,ワーファリンが使えない場合に限ってDOACの適応を考えたほうがわかりやすいと思います。

【桑島】しかし,納豆や他の食品,医薬品との併用による有害事象を考慮するとワーファリンは使いにくいことがありますので,DOACを最初に選択することは不適切ではないと思いますが。

FDAの考え方と臨床試験の今後

【谷】過去にFDAは,有意差がつかなければ同等とみなしていましたが,これは間違いだとして同等であることを証明しなければならないとしました。そこで始まったのが非劣性試験なので,これはやはり統計学的根拠に基づいています。

【折笠】FDAは,糖尿病薬が心血管に1.4倍以上危険をもたらすことはないだろうということで,国民に対してエクスキューズがきくわけです。つまり,「1.2倍くらいは危険かもしれないが,まさか2倍も危険ではないということが証明されたから安心して下さい」ということですね。

【名郷】でもそう考えると,今までの集中的な糖尿病治療も,治療しないのと大して変わらないという結果になっているので,臨床家からするとわけがわかりません。1.2倍以内の危険はあるかもしれないけど,それは同じでしょうという考え方なわけですよね。

集中的な治療は,おおむね合併症が1から0.9ぐらいに減るかもしれないといったところでやっているわけで,それが非劣性試験の立場では集中的な治療に比べてゆるい治療は劣っているとは言えないというようなことと重なると,何の話だかわからないですよね。

統計学的にはそうかもしれないけど,臨床的な考え方とは明らかな齟齬があり,その齟齬をどう解決するかについて,統計学側からは何の答えももたらされていないと私は思います。

【折笠】統計学的には,安全だということを証明するのは難しいです。膨大な人数を必要とします。それに比して,有効だということを証明するのは意外と簡単です。

【名郷】たとえば100のイベントを90にしたから有効だとしている現状をふまえた場合,どのレベルでマージンを切り,どの程度の安全性と言うか,という議論が欠けていて,1.3というようにいい加減になっているのではないかと言いたいのです。
【桑島】最後に折笠先生,臨床試験の方法論における今後の展望についてご教示下さい。

【折笠】2000年頃から実薬対照試験が本格的に始まり,それは日本が主導して行ってきましたが,ここ5年ぐらいは米国でも行われるようになっています。その頃から,非劣性試験へ疑問を呈する人も増えてきました。倫理的な疑問を呈する人もいるし,これは無駄な試験なのではないかと言う人もいます。プラセボ比較試験にも倫理的な問題は指摘されていましたが,実薬との非劣性試験でも同様の疑義があがっているのは事実です。同類の薬剤は登場するが,画期的な薬剤は生まれない。これは患者にとっては不幸なこと,という主旨です。

数年で,また方針が変わるかもしれないですね。たとえば,FDAは近年の糖尿病治療薬に対して心血管イベントのランダム化比較試験を課していますが,よりリアルワールドに近い観察研究データの使用可能性も考えているようです。観察研究データでも,プロペンシティ解析のような統計手法を用いて因果分析ができるようになってきたからです。

【名郷】最後に1つだけ。SU薬やピオグリタゾンなどの糖尿病治療薬で心血管イベントが増えるかもしれないということは,事前確率が高い仮説ですよね。実はこれが重要なことで,事前確率が高い仮説についての非劣性というのは,マージンをどうするかということとはまた別に厳しくしなくてはいけないと思います。

【桑島】お話しをうかがって,名郷先生は臨床家としての素朴な疑問,新薬における商業主義に対する警戒心がある印象でした。一方で谷先生は,理論的・科学的な観点からの考え方で,これもまた説得力のあるお話しでした。お二人のご意見,そして折笠先生のご解説は大変参考になります。本日は,どうもありがとうございました。

非劣性試験は臨床家にも患者にもメリットはありません。メリットがあるのは企業だけではないでしょうか。

折笠秀樹
78年東京理科大学理学部応用数学科卒業,94年富山医科薬科大学(現富山大学)医学部教授,06年から現職

時間をかけずに心血管イベントが増えないということを証明するには,非劣性試験をするしかないという考えです。

谷 明博
82年大阪大学医学部卒業,91年JCHO大阪病院内科医長,05年みなと中央病院循環器内科部長,08年から現職

このコンテンツはプレミアム(有料)会員限定コンテンツです。

Webコンテンツサービスについて

ログインした状態でないとご利用いただけません ログイン画面へ
Web医事新報の有料会員向けコンテンツを読みたい サービス一覧へ
本コンテンツ以外のWebコンテンツや電子書籍を知りたい コンテンツ一覧へ

関連記事・論文

もっと見る

page top