banner
ホームページ / ブログ / マルチ
ブログ

マルチ

Mar 11, 2024Mar 11, 2024

Scientific Reports volume 12、記事番号: 10487 (2022) この記事を引用

1174 アクセス

3 引用

2 オルトメトリック

メトリクスの詳細

この記事は更新されました

タンパク質相互作用 (PPI) はタンパク質の機能にとって重要ですが、タンパク質配列から PPI 界面の残基を予測することは依然として困難な問題です。 さらに、PPI インターフェース アノテーションなどの構造ベースの機能アノテーションは希少です。残基ベースの PPI インターフェース アノテーションが利用できるのは、すべてのタンパク質構造の約 3 分の 1 のみです。 深層学習戦略を使用したい場合は、利用可能なデータが限られているという問題を克服する必要があります。 ここでは、欠損データを処理できるマルチタスク学習戦略を使用します。 マルチタスク モデル アーキテクチャから始めて、コスト関数の欠落データを慎重に処理するようにそれを適応させました。 関連する学習タスクとして、二次構造、溶媒のアクセス可能性、および埋もれた残留物の予測が含まれます。 私たちの結果は、マルチタスク学習戦略がシングルタスクアプローチよりも大幅に優れていることを示しています。 さらに、追加の PPI アノテーションなしで、構造特徴データで拡張されたデータセットを効果的に学習できるのは、マルチタスク戦略だけです。 PPI アノテーションの割合が非常に小さくなると、マルチタスクの設定はさらに重要になります。PPI アノテーションのわずか 8 分の 1 でトレーニングされたマルチタスク学習者 (データ拡張あり) は、シングルタスク学習者と同じパフォーマンスに達します。すべての PPI アノテーションに適用されます。 したがって、我々は、マルチタスク学習戦略が、対象となるタンパク質の機能的特性が部分的にのみ注釈付けされている小さなトレーニング データセットに対して有益である可能性があることを示します。

タンパク質配列データベース 1 は急速に成長し続けており、構造情報はより容易に入手できるようになってきています 2。 それにもかかわらず、タンパク質結合部位 3 など、タンパク質構造に基づく正確な機能アノテーションは依然として不足しており、予測することが困難です。 したがって、コンピューター技術を使用して、タンパク質の配列に基づいてタンパク質のいくつかの機能的構造特性を予測します。 これらの特性の 1 つは、タンパク質の機能にとって重要なタンパク質間の物理的相互作用インターフェースです4。 タンパク質間の相互作用は、DNA 複製、RNA 転写、シグナル伝達、細胞プロセスの制御、タンパク質輸送、代謝などの多くの生物学的プロセスで必要とされます5、6、7、8、9。 さらに、多くの病気はタンパク質の界面の変形に関連している可能性があります 10,11。 他のタンパク質と相互作用するタンパク質内の残基のセットを予測することは重要ですが、依然として困難な課題です 12。 さらに、界面を構成する残基に関する構造情報は不足しています。 PPI 注釈付きデータベースのサイズは、構造注釈付きデータベースのサイズのほんの一部にすぎません。 構造注釈付きデータベースのサイズは、タンパク質配列データベースのサイズのほんの一部です (図 1 を参照)。 さらに、エピトープ(抗体結合)界面の予測などの問題もあり、ラベル付けされていないデータさえ利用可能である13。 PPI インターフェース予測や、アノテーションがほとんど利用できないその他のタスクのためにディープ ニューラル ネットワークを効率的にトレーニングするには、トレーニング データセットのサイズが限られているという問題を克服する必要があります。

タンパク質配列、タンパク質構造、および特定の構造に基づく機能アノテーションに関するデータベースで利用可能なエントリ数の比較: タンパク質間相互作用 (PPI) インターフェース。 これらの結果はそれぞれ、UniProtKB/TrEMBL データベースで利用可能なタンパク質エントリ、タンパク質データ バンク (PDB) で利用可能なタンパク質エントリ、および PPI インターフェイス アノテーション付きのタンパク質エントリに基づいています。 y 軸は対数であることに注意してください。

自然言語処理などの分野での深層学習の成功により、深層学習アプローチはますます使用されており、タンパク質の構造特徴予測に大きな成功を収めています14、15、16、17。 深層学習では、接続された複数の層とそのパラメータが、対応する入力特徴の出力を予測します18。 畳み込みニューラル ネットワーク (CNN)、残差ニューラル ネットワーク (ResNet)、リカレント ニューラル ネットワーク (RNN)、長短期記憶ネットワーク (LSTM)、変換器、マルチタスク学習器などのアプローチとモデルが、最近の構造予測方法に登場しています 15,16 、19、20、21、22。 Hanson ら 16 は、特に SPOT-1D モデルで超ディープ ResNet を使用し、タンパク質構造内でのみ近接しており、タンパク質配列内では近接していない残基間の非局所的相互作用を捕捉することができました 16。 Heffernan et al.21 は、LSTM 双方向 RNN を使用し、この方法が長距離相互作用、特に多数の長距離接触を持つ残基を捕捉するのに有用であることを示しました。 私たちは最近、タンパク質界面の予測におけるさまざまなニューラル ネットワーク アーキテクチャの使用法を比較しました23。 さらに、トランスフォーマーはタンパク質の言語でうまく使用されています 24,25。 トランスフォーマーでは、タンパク質配列などの一般的なドメイン データから学習した情報が、二次構造予測などのドメイン固有のデータに転送されます。 情報が伝達されるもう 1 つの戦略は、マルチタスク学習です。