タンパク質二次構造予測の新手法MOGP-MMF|遺伝的プログラミング×マルチビュー特徴で創薬AIが進化
はじめに
タンパク質の立体構造を知ることは、新薬の開発において極めて重要です。タンパク質がどのように折りたたまれるかを正確に予測できれば、薬がどこにどう結合するかを設計でき、創薬プロセスが大きく加速します。
2026年3月、arXivに投稿された論文 「Multi-objective Genetic Programming with Multi-view Multi-level Feature for Enhanced Protein Secondary Structure Prediction」(arXiv: 2603.12293)は、この課題に対して新しいアプローチを提案しました。
提案手法 MOGP-MMF は、遺伝的プログラミング(GP)を活用してタンパク質二次構造予測の特徴選択と融合を自動化し、7つのベンチマークすべてで従来の最先端手法を上回る精度を達成しています。
本記事では、この論文の内容を薬学・創薬の観点からわかりやすく解説します。
タンパク質二次構造予測(PSSP)とは
タンパク質は20種類のアミノ酸が鎖状に連なった分子ですが、機能を発揮するには特定の立体構造に折りたたまれる必要があります。
二次構造は、タンパク質の折りたたみの「中間段階」に相当する構造パターンです。
| 二次構造 | 略号 | 特徴 |
|---|---|---|
| αヘリックス | H | らせん状に巻いた構造。細胞膜を貫通する受容体などに多い |
| βシート | E | シート状に並んだ構造。抗体の抗原認識部位などに多い |
| コイル | C | 規則的な構造を持たない領域。ループやターンを含む |
Q3予測はこの3分類、Q8予測はさらに細かい8分類(310ヘリックス、βブリッジなど)への分類を行います。Q8は創薬において特に重要で、薬の結合部位の微細な構造を把握するのに役立ちます。
なぜ二次構造予測が創薬に重要なのか
- ドラッグデザイン:標的タンパク質の構造がわかれば、それに結合する分子(薬)を設計できる
- 副作用予測:薬が意図しないタンパク質に結合するリスクを構造から評価できる
- バイオシミラー開発:タンパク質医薬品の構造的同等性を評価する際の基盤となる
既存手法の限界
近年、深層学習ベースの手法がPSSPの精度を大きく向上させてきました。代表的な手法には以下があります。
| 手法 | 年 | アプローチ |
|---|---|---|
| NetSurfP-3.0 | 2022 | 言語モデル + CNN |
| AttSec | 2024 | アテンション機構 |
| TruMPET | 2024 | トランスフォーマー |
しかし、これらの手法には共通の課題がありました。
- 単一の特徴表現に依存 — 進化情報だけ、あるいは言語モデルの埋め込みだけなど、一つの観点からしか特徴を捉えていない
- 複数特徴を使うと冗長性が生じる — 単純に特徴を結合すると、情報の重複がノイズとなり精度が低下する
- 融合方法が手動設計 — 特徴の組み合わせ方を人間が設計するため、最適な融合が保証されない
MOGP-MMFは、これら3つの課題を同時に解決する手法です。
MOGP-MMFの全体像
MOGP-MMFは、大きく3つのコンポーネントで構成されています。
┌─────────────────────────────────────────────────────┐
│ MOGP-MMF │
│ │
│ ┌───────────┐ ┌───────────┐ ┌────────────────┐ │
│ │ MMF │ │ EOS │ │ MOGP │ │
│ │ マルチビュー│→│ 演算子 │→│ 多目的遺伝的 │ │
│ │ マルチレベル│ │ セット │ │ プログラミング │ │
│ │ 特徴抽出 │ │ (融合) │ │ (最適化) │ │
│ └───────────┘ └───────────┘ └────────────────┘ │
└─────────────────────────────────────────────────────┘
1. MMF:マルチビュー・マルチレベル特徴モジュール
MMFは、タンパク質の配列を3つの異なる観点から特徴化します。
進化的観点(Evolutionary View)
- PSSM(位置特異的スコア行列):進化的に保存されたアミノ酸の出現パターンを捉える
- HMMプロファイル:統計的な配列間関係をモデル化
意味的観点(Semantic View)
- ProtTrans-T5:大規模タンパク質言語モデルによる1024次元の文脈埋め込み。自然言語処理のBERTのように、アミノ酸配列の「文脈」を理解する
構造的観点(Structural View)
- SaProt:Foldseekの構造アルファベットを用いた480次元の埋め込み。3D折りたたみの制約情報を直接取り込む
さらに、各観点の特徴を4種類の抽出器(CNN×2、RNN×2)で処理し、合計 4特徴ソース × 4抽出器 = 16個 の多様な特徴表現を生成します。
2. EOS:拡張演算子セット
16個の特徴をどう組み合わせるか——これを自動で最適化するのがEOSです。
| カテゴリ | 演算子 | 役割 |
|---|---|---|
| フィルタリング | W_Add, W_Sub, Mul, ReLU等 | 重み付き加算・非線形変換 |
| 特徴抽出 | LoGF, FFT | 周波数領域での特徴抽出 |
| プーリング | MaxP | 次元削減 |
| 連結 | Root1-3 | 最終特徴の統合 |
従来の手法が「連結」や「加算」など単純な融合しかしなかったのに対し、EOSは非線形な融合関数を自動で進化させることができます。
3. MOGP:多目的遺伝的プログラミング
GPは、木構造で表現されたプログラム(融合関数)を「進化」させる手法です。MOGP-MMFでは、以下の2つの目的を同時に最適化します。
- 目的1:予測精度の最大化
- 目的2:モデル複雑度の最小化
この2つはトレードオフの関係にあるため、単一の最適解ではなく、パレート最適解の集合(精度と複雑度のバランスが異なる複数の解)が得られます。利用者は計算リソースに応じて適切な解を選択できます。
知識移転メカニズム
さらに、単目的GPで事前に得た高性能な個体50個を「種」として多目的最適化に組み込む知識移転により、探索効率を大幅に向上させています。
実験結果
ベンチマークでの性能比較
MOGP-MMFは、CB6133(訓練用)で学習し、7つのテストセットで評価されました。
Q8精度(8分類の正解率)での比較:
| データセット | MOGP-MMF | TruMPET(従来最良) | 改善幅 |
|---|---|---|---|
| CB6133 | 80.0% | 79.6% | +0.4% |
| CB513 | 77.0% | 76.8% | +0.2% |
| CASP10 | 80.5% | 78.5% | +2.0% |
| CASP11 | 77.6% | 76.1% | +1.5% |
| CASP12 | 74.6% | 73.0% | +1.6% |
特にCASPシリーズ(構造予測の国際コンペティション由来のデータセット)で大きな改善が見られます。CASPデータは訓練データと配列相同性が低く、汎化性能の高さを示しています。
Sov(セグメント重複度)での評価
Sovは、予測された二次構造の「セグメント」が実際の構造とどれだけ重なるかを評価する指標です。薬の結合部位のように連続した構造領域の予測精度を測るのに適しています。
| データセット | MOGP-MMF | TruMPET | 改善幅 |
|---|---|---|---|
| CASP12 | 76.3% | 72.7% | +3.6% |
Sovでの大幅な改善は、創薬で特に重要な構造領域の予測精度が向上したことを意味します。
アブレーション実験:何が効いているのか
| 設定 | CB6133精度 |
|---|---|
| 単一視点・単一レベル | 約67% |
| 単一視点・マルチレベル | 約72% |
| マルチビュー・単一レベル | 約79% |
| MMF(マルチビュー・マルチレベル) | 80.0% |
マルチビューの効果が最も大きく(+12%)、マルチレベルを加えることでさらに+1%の改善が得られています。つまり、進化情報・言語モデル・構造情報の3つの観点を組み合わせることが、精度向上に最も寄与しています。
融合手法の比較
| 融合手法 | CB6133 | CB513 | CASP10 |
|---|---|---|---|
| 単純加算 | 78.5% | 74.9% | 78.6% |
| 連結 | 75.4% | 72.0% | 75.6% |
| MOGP-MMF(自動融合) | 80.0% | 77.0% | 80.5% |
手動設計の融合(加算・連結)と比較して、GPによる自動融合が1.5〜5%の精度向上をもたらしています。
パレート最適解の活用
MOGP-MMFは、精度と複雑度のトレードオフに応じた複数の解を提供します。
| タイプ | 木の複雑度 | CB6133 | CASP12 | CASP14 |
|---|---|---|---|---|
| 軽量モデル | 15 | 79.4% | 68.3% | 62.7% |
| バランス型 | 28 | 79.9% | 73.2% | 67.5% |
| 高精度型 | 42 | 80.1% | 74.6% | 69.1% |
計算リソースが限られる現場では軽量モデルを、精度が最優先の創薬研究では高精度型を——というように柔軟な運用が可能です。
技術的なポイント整理
MOGP-MMFの革新性を3つにまとめます。
1. 「何を見るか」と「どう組み合わせるか」の両方を最適化
従来の手法は、特徴抽出か特徴融合のどちらかに焦点を当てていました。MOGP-MMFは、マルチビュー特徴で「何を見るか」を広げ、GPで「どう組み合わせるか」を自動最適化します。
2. 専門家の設計に依存しない
特徴の融合方法をGPが自動で進化させるため、ドメイン専門家が融合アーキテクチャを設計する必要がありません。これは、AI創薬の民主化につながる重要な特性です。
3. 精度と効率のトレードオフを可視化
パレート最適解の提供により、「精度を少し犠牲にして計算コストを1/3にする」といった現実的な判断が可能になります。
創薬・薬局業務への示唆
創薬プロセスへの影響
タンパク質二次構造予測の精度向上は、以下のプロセスに直接的な影響を与えます。
- 標的同定:疾患関連タンパク質の構造を正確に予測し、創薬ターゲットを絞り込む
- リード最適化:薬候補分子と標的タンパク質の結合様式をシミュレーションし、薬効を高める
- 安全性評価:オフターゲット結合のリスクを構造ベースで早期に評価する
MOGP-MMFのように汎化性能の高い手法は、構造が未知の新規タンパク質(新興感染症の病原体タンパク質など)に対しても有効であり、パンデミック対応型の創薬でも威力を発揮する可能性があります。
薬局実務への間接的な影響
一見、基礎研究に思えるタンパク質構造予測ですが、薬局の現場にも波及します。
- バイオ医薬品・抗体医薬品の品質評価:二次構造の同等性はバイオシミラー承認の重要な判断基準
- 服薬指導の質向上:「この薬はタンパク質のこの部分に結合して効果を発揮する」という作用機序の理解が深まる
- 相互作用の予測:タンパク質の結合部位情報は、薬物間相互作用の予測にも活用される
まとめ
MOGP-MMFは、タンパク質二次構造予測に遺伝的プログラミングの「自動最適化」を持ち込むことで、以下を実現しました。
- 進化・意味・構造の3つの観点からタンパク質を多面的に特徴化
- GPによる自動融合で、専門家の手動設計を超える精度を達成
- 7つのベンチマーク全てで最先端を更新(Q8精度でCASPシリーズ最大+2.0%改善)
- パレート最適解により、精度と計算効率のトレードオフに応じた柔軟な運用が可能
「AIが融合方法自体を設計する」というメタ的なアプローチは、タンパク質構造予測に限らず、AI創薬全体の方法論に影響を与える可能性があります。
参考文献
Yining Qian, Lijie Su, Meiling Xu, Xianpeng Wang. “Multi-objective Genetic Programming with Multi-view Multi-level Feature for Enhanced Protein Secondary Structure Prediction.” arXiv:2603.12293, March 2026.