薬の開発について

※この記事は私が勤めるクリニックのホームページに5月12日に投稿したものです。

今回は薬が開発されるプロセスを臨床試験を中心に解説します。

いま多くの方が疑問に思っているのは、新型コロナウイルス感染症に対して有効そうな薬が既にあるのに、なぜ早く承認しないのか？ということでしょう。

薬が開発されるプロセスは大まかに以下のようなものがあります。

① 薬効がありそうな化合物をスクリーニング

② 薬理試験・動物実験等の前臨床試験

③ ヒトを対象とした臨床試験（以下、臨床試験）

④ その結果をもって承認申請

今回は主に③の臨床試験について説明します。

なお、通常は臨床試験に辿り着く前の段階で何年もかかります。新型コロナウイルス感染症に対する薬をゼロから開発するまでの時間がないので、既に他の疾患のために存在する薬の中で理論的には効果がありそうなもの、試験管内では効果がありそうなものを何とか選択して臨床試験を行っています。

●フェーズとは何か？

薬が薬であるためには効果と安全性が両立している必要があります。

前回の記事で述べたように、仮に薬が目標とする疾患・状態に対して効果があったとしてもトータルでデメリットになってしまうようでは治療薬とは呼べません。薬理学的なメカニズムや動物実験からは実際に人間に投与してどうなるか分からないので、臨床試験という形で効果と安全性を検証する必要があります。

通常、臨床試験は第1相試験から第3相試験までの3つの段階の試験があり、これらを経て承認に至ります。この段階で初めて「化合物」から「薬」になったとみなされます。相のことをphase(フェーズ）と呼びます。Phase 1、Phase 2というのは第１相、第2相というのと同じ意味です。

第１から第3相に行くにつれて、安全性を段階から効果をみる段階に進んでいきます。

●第1相試験

第１相試験は少数の人を対象に薬物動態や安全性（裏返しにいえば毒性）をみるための試験です。一般的には健康な成人を対象にしますが、抗がん剤では実際の患者さんを対象にすることが慣例です。第１相試験では投与後数時間ごとに頻回に採血をしたり、心電図をとったりと厳密な管理が問われれます。そのため第１相試験を行うことができる施設は限られます。たまたま出てしまった副作用によって、それまで何年もかかって開発してきたものがストップしてしまうこともあるので、ある意味では最も慎重に行っていく必要があります。

●第2相試験

第2相試験は安全性だけでなく効果もみるために行う試験です。疾患にもよりますが、数十人から100人程度の患者さんを対象にすることが一般的です。新規治療薬だけを投与する方法や新規治療薬と既存の治療を比較する方法など試験のデザインには様々なものがあります。ここで有望な治療そうだと考えられた場合はさらに大人数を対象として第3相試験を行います。

第2相試験では有望な治療の拾い上げを目的としているため第3相試験よりも統計的な設定を甘めにしていることが多く、第2相試験でプラセボや既存の治療薬と比べて有意差がついても決定的な判断はできないということには注意が必要です。実際に第2相試験では有望そうにみえた治療でも第3相試験の結果で効果を認めなかったということは非常によくあることです。

●第3相試験

第3相試験は治療効果を検証するための試験です。殆どの場合でランダム化比較試験という方法で試験を行います。疾患や統計デザインによりますが、数百から1000人程度の患者さんを対象にすることが一般的です。第3相試験で効果が検証されると新治療として十分なエビデンスが整ったと考えられます。逆にいうと第3相試験の結果が出ない状態での判断は時期尚早ということになります。ただし、稀少疾患で大規模な臨床試験を行えない場合やがんの分子標的薬などで作用機序に裏付けされて効果が明らかに優れる場合には第3相試験の結果を待たずに早期承認されることがあります。

ここまでの結果が出るのに通常は何年もかかります。それは臨床試験へ参加する患者さんを集めたり、効果を評価したりするのに時間がかかるからです。結果が出てからも、それをまとめて薬事申請にかけるのには大変な労力が必要です。

●新型コロナウイルス感染症に対する臨床試験のフェーズ

新型コロナウイルス感染症に対する臨床試験は既に他の疾患に対して存在する薬を使用しています。従って前臨床の試験や第1相試験はスキップしています。

後で述べますが、ある薬が新型コロナウイルス感染症に対して効果があるかどうかは他の薬と比べると非常に早くわかります。また、世界中で新型コロナウイルス感染症に対する患者さんの数は急激に増加しているので、第2相試験・第3相試験の進行は非常に速いです。通常は何年もかかるような臨床試験ですが、こと新型コロナウイルス感染症に対しては早ければ数か月以内に結果が出ます。

もし本当に効果があるような薬が見つかったら、数か月以内に劇的に状況が変わる可能性があります。反対に、既存の薬では効果がなかったと分かった場合には安全性試験から開始しないといけないので、数か月では開発をすることはできないでしょう。

現時点（5月10日時点）では論文で確認できるもので、効果があったというのは第2相試験までです。ギリアド社が発表したデータでは第3相試験でもレムデシビルは有効だったようですが、医師たちは自分たちの目で論文を確認できなければ確かな情報とは考えません。この状況を以て、未だ明確に効くという治療はないと考えらえています。

●臨床試験が進みやすい状況

臨床試験は患者さんが試験に参加することで進んでいきます。従って対象となる患者さんの数が多いと臨床試験が進みやすくなります。また、臨床試験には適格基準・除外基準が厳しく設けられており「対象となる疾患以外には大きな合併症がない患者」を対象にします。年齢が増えるに従って合併症をもつ人は増えていくため、同じ患者数でも若い人がかかるような疾患の方が試験が進みます。

●新型コロナウイルス感染症の臨床試験

今回の新型コロナウイルスは世界中で多くの人が感染しており、患者数という意味では比較的臨床試験が進みやすい状況にあります。

一方で感染が収まっていくと（勿論、そのような状況は望ましいことではありますが）、患者さんの数も減っていくので臨床試験は進まなくなります。

実際に中国で行われたレムデシビルの試験は感染が終息していったために途中で試験が終了しています。

https://www.thelancet.com/pdfs/journals/lancet/PIIS0140-6736(20)31022-9.pdf

通常の臨床試験では無効で中止になることはあれど、わずか数か月以内に症例の集積がなくなったことを理由中止になることはありません。この試験ではレムデシビルの効果がプラセボと比較して統計学的な有意差が得られなかったものの、症例数が予定より少なかったため検出力不足であり、本当に効果がないのかどうかの結論がつけられませんでした（後で解説します）。

感染が終息していくのは誰もが望むところですが、製薬会社の立場からすると多額の投資をして開発したものが自然に消えてしまうのでは開発に対するリスクが非常に高いといえます。前回の記事で述べたように多くの抗ウイルス薬の開発が進まない理由の1つとして疾患が自然に治まるので、開発コストに見合ったリターンが得られないことがあります。

また、ただでさえ臨床試験を行うのは様々な準備が必要なのに、パンデミックの中で行うのは大変な労力が必要です。中国のグループからの報告は、非常事態の中でも臨床試験を行うことができたという意味で非常に勇気づけられるものです。

●臨床試験ではわからないこと

臨床試験も万能ではありません。大規模第3相試験といっても、せいぜい1000から数千人が対象です。疾患によっては市販後に何百万人の患者さんに投与します。そうすると臨床試験では起きなかったような副作用が起こることがあります。また、臨床試験で観察する期間では起きないような遅発性の副作用が後から起こることもあります。これらを調査する目的で市販後調査が行われます。

また、臨床試験では「対象となる疾患以外には大きな合併症がない人」を対象にします。そうでないと副作用の評価が難しくなるからです。出来るだけ良い数字を出したいという事情もあります。ところが、実際の患者さんは１つの疾患があれば他の疾患のリスクファクターも共有していることが多いので、むしろ色々な疾患がある方が自然です。そうなると、臨床試験で得られた効果が多くの患者さんで得られない可能性もあります。また、合併症が多い人の方が副作用が強く出るのも自然なことなので、臨床試験の対象となる患者さんでは出なかった副作用が出ることもあります。

つまり、臨床試験の対象になるような人に関しては確かなことはいえても、同じ疾患を抱えていても臨床試験の対象にならないような人に関しては十分なことはわからないことになります。このような状況のことを内的妥当性は高いが、外的妥当性は低いと呼びます。

また、臨床試験では理論では分からないことを検証できる反面、臨床試験の結果から「なぜ薬が効くのか？」といった理論的なことは分かりません。

他にも「効果を数学の定理のように証明」しているというよりは「効果がない確率が一定以下に低い、だから効果がある確率が高い」といったような統計学的な結論を出していることにも注意が必要です。

●前向き臨床試験以外の方法

臨床試験のように、事前に取り決めをもって行う研究を「前向き研究」といいます。こうすることで、整った条件で治療を比較することができます。反対に、既に行われているものを後から振り返って調査する研究を「後ろ向き研究」といいます。

前向き研究を行うためには膨大な準備を必要とします。後ろ向き研究は既に行われた治療の中で評価を行うので特別な準備は要りません。緊急的な事態、どうしても前向き試験を組めないような状況には向いています。ただし、比較のための因子が調整されているわけではないので、本当に治療効果があるのか、それともたまたまなのか決定的なことはわかりません。最近では後ろ向き研究でも因子を調整する方法によってよりエビデンスレベルを高める方法も行われています。

●薬の効果とは何か？

ところで、「〇〇には効果がある」と言いますが、そもそも「薬に効果がある」とは何を指すのでしょうか？

ひとことで薬の効果といっても色々なものがあります。血圧の薬ならば血圧を下げることも効果でしょうし、血圧が下がった結果心筋梗塞や脳血管障害が減ることも効果でしょうし、それによって死亡率が下がることも効果でしょう。

血圧が高いことそのものでは自覚的な症状は殆どないので、血圧が下がっただけでは患者さんにとって喜ばしいことはありません。患者さんにとっての「真の便益」は血管疾患の発症を抑制することや、それによって長生きできることでしょう。

何が真の便益なのかを常に考える必要があります。

●エンドポイントについて

効果を測定する指標のことを「エンドポイント」と呼びます。なお、エンドポイントのことを「臨床試験の目的」と勘違いされることがよくありますが、エンドポイントは目的ではなく「指標」や「評価項目」のことです。

臨床試験では事前にエンドポイントを設定します。最終段階の第3相試験では、可能であれば「真の便益」をエンドポイントにします。試験の結果、エンドポイントが基準を満たしたかどうかを評価します。そのために事前に統計学的な設定を行い、必要な症例数等を事前に決めています。最重要点なので後で説明します。

後から色々なことを解析して差を出たとしても決定的な判断はできません。たくさん検定を行うと検定の多重性の結果、本来は差がないものまで差があると拾ってしまう可能性があるからです。事前に設定したもの以外は決定的な判断が出来ないということはぜひ知って頂きたい考え方です。

●新型コロナウイルス感染症の臨床試験のエンドポイント

先に述べたように、新型コロナウイルス感染症の最大の問題は、少なからぬ確率で重篤化し、死亡する人がいることです。そうでなければインフルエンザのように、ある程度は広まっていくことを容認されるわけです。従って、望まれる効果は「重篤化するのは防ぐ」「死亡率を低下させる」ことでしょう。特に「死亡率が低下すれば良いな」と皆が考えていると思います。重症化率の低下や死亡率を低下などが真の便益なので、これをエンドポイントとしたいところです。

しかしながら、新型コロナウイルス感染症の場合、死亡率の低下をエンドポイントにした試験を行うことは難しいです。なぜならば新型コロナウイルス感染症による死亡率は数%程度と低いからです（勿論、その数%が大問題なのですが、ここではあくまで数字の話です）。もともと発生確率が低いものを更に下がるかどうかをみるためには非常に多くの患者さんを対象にする必要があります。

殆どの場合は自然に治る疾患なので、薬を投与した人が治ったからといって薬の効果で治ったかどうかはわかりません。「〇%の人に効いた」という分かりやすいエンドポイントも使えません。

現実的なエンドポイントとしては「投薬から回復までの時間」や「投薬開始をしてから一定期間経過後の症状改善率」「PCR陰性化までの期間」などになります。ただ「何を以て回復したのか？」という基準も必要なので、測定が難しいエンドポイントになります。エンドポイントには測定のしやすさや測定の正確性も求められます。

いずれにしても、がんや生活習慣病の臨床試験のように測定に時間がかかるようなエンドポイントは用いられないので、感染症以外の臨床試験と比べると早期に結果が出ます。

●臨床試験の設計

臨床試験では予め多くの決まり事を定めた文書を作ります。これをプロトコールと呼びます。1人1人に匙加減で治療をしたのでは適切な評価ができないからです。副作用もプロトコールに基づいて評価します。

プロトコールの中には試験の核となるデザインが記載されています。

異なるＡという治療とＢという治療を比べるとします。治療Ａと治療Ｂの効果は絶対に同じではありません。どんなに小さな差であっても症例数（サンプルサイズ）を増やせば、必ず統計学的な有意差がつきます。従って、いたずらに症例数を増やすことは許されません。街角インタビューなどとは違い「〇人」に調査しましたの「〇人」には根拠が求められます。

臨床試験で検証したいのは当然「臨床的に意味のある違いがあるかどうか？」です。従って、まず「臨床的に意味のある違いはどれくらいか？」を設定します。それに加えてαエラー（本当は差がないのに差があるとみなしてしまうエラー）とβエラー（本当は差があるのに差がないとみなしてしまうエラー）といった統計学的な設定をし、必要な症例数を算出します。αエラーとβエラーには慣習がありαエラーは5%、βエラーは10-20%で設定することが多いです。

これらは事前に設定したうえで臨床試験を開始します。つまり、場当たり的に何人調べて差がついたかどうかを見ているわけではないのです。

先に挙げた中国のレムデシビルの試験では予定よりも患者数が集まりませんでした。この状態では検出力不足（βエラーが高い）という状態になります。本当に臨床的効果がないのか、サンプルサイズが足りなかったせいで検出できなかったのかが分からないのです。

反対に、いたずらに多くのことを調べると、今度はαエラーが蓄積して「本当は差がないのに差がある」とみなしてしまう確率があがります。無効な治療を有効と見做してしまうわけです。これを我々は恐れているため、通常αエラーはβエラーよりも厳しく設定されます。

複雑なように感じられるかもしれませんが、このような決まり事をして、初めて数字は意味を持ちます。

●プラセボを投与することは問題ないのか？

「新治療」対「偽薬」の比較をすることに倫理的な問題はないのかと疑問に思われる方もいると思います。これは問題ありません。なぜならば、このような試験が成り立つ段階では新治療と偽薬のどちらかが優れているか分からないからです。偽薬の方が優れている状況もありえます。もし新治療に全く効果がないのであれば、副作用だけが残るので偽薬以下の結果になるという状況もありえます。

もし何らかの治療が有効であった場合は、次に対照となるのは「偽薬」ではなく「既存治療」になります。このようにしてより良い治療が開発されていきます。

●まとめ

今回は薬の開発について臨床試験を中心に解説しました。

臨床試験には多くのプロセスが必要であり、本来であれば何年もかけて行われるものです。新型コロナウイルス感染症については現在、既存薬を中心に多くの第2相、第3相試験が行われており過去に類を見ないほどの速度で臨床試験が進行中です。

仮に臨床試験の結果、効果は否定的だったとしても、今後その治療を他の患者さんに届けなくて済むというポジティブな方向に進めます。検証をしない限りは前に進めないのです。

報道をみると「なぜアビガンを早く承認しないのだ」という意見ばかりのようですが、2回の記事にわたって述べてきたように、化合物が薬になるまでには非常に多くのプロセスとハードルがあります。

このようなパンデミックの中で臨床試験を行うのには非常に多くの労力が必要であり、現場の方々に最大限の敬意を表して今回の記事を終えたいと思います。