molrepでお手軽分子置換
030918 S. Fushinobu
060329 修正
PDBの構造登録数はうなぎ登りの昨今、分子置換でどんどん構造を解いていきましょう!
Michael G. Rossmann先生に敬意を払いつつ*・・・
注1:ccp4iのインストールは必須です。バージョンはできるだけ新しいものを。
注2:molrepはAlexei
Vaginの作っているプログラムです。ccp4にはデフォルトで入っていますが、彼のHPには最新版があります。
注3:ccp4
6.0の公開にともない、molrepもバージョンが上がり、さらに使いやすくなりました。
- モデル分子の選択
- アシメの分子数
- 反射ファイルの変換
- molrep
- 複数のドメインからなる場合
- ホモロジーの低い分子でモデリングする場合
1. モデル分子の選択
- 自分のタンパク質のアミノ酸配列と相同性の高い配列をPDBから検索する。
- NCBIのblastpでdatabaseをpdbにして検索する。
- 最近はPDBでもblastをかけられるので、こっちの方がよい。
- PDB IDが分かったら、それをPDBからゲットする。
- 相同性が高い(40〜50%以上?)場合には、ホモロジーモデリングしたPDBファイルを使うと、後で精密化の時に側鎖を変異させる手間が省ける。
- 3D-JIGSAWを使う場合(こっちの方が挿入/欠失に強いのでオススメ)
- アミノ酸配列と自分のメールアドレスをsubmitすれば、しばらくしたら返事が返ってくる。
- そのままだと温度因子(右端の数字)が0.0のままなので、テキストエディタの変換機能等を使って適当な数に変換しておく(ex.
20.0)
- SWISS-MODELを使う場合
- First Approach
modeでアミノ酸配列と自分のメールアドレスを入れればしばらくしたら返事が返ってくる。
- Results optionsは、Short modeかNormal modeがおすすめ。
- SWISS-MODELは、アミノ酸の挿入/欠失には弱いので、最も相同性の高いアミノ酸配列とClustalWなどを使ってアラインメントした結果を参考に、適当に挿入/欠失させた配列を送るのがよい。
- 最近3D-JIGSAWの調子が悪いみたいなので、CPHmodelsなど使ってみるのもアリ。
- CCP4の中に入っているChainsawも使ってみてはどうでしょう。計算があまりに早くて頼りないんですが、ベストの結果が出たこともありました。Molecular Replacement -> Model Generation -> Create search modelで使えます。アラインメント(入力)ファイルは、色んなフォーマットに対応しているようです。例えば、BLASTの結果を直接コピペしたものも使えます。
- PDB上の相同構造の候補が多く、コンフォメーションが複数あったりする場合には、Molrepを使うよりもBALBESやMrBUMP(三沢?)で複数の候補を網羅的にサーチした方がよいでしょう。
- 相同性が低い場合にはこちらを参照。
- ただし、molrepを走らせるときに自分の蛋白質のアミノ酸配列を入れておけば、側鎖を適当にモデリングしたものを作ってくれるようです(どのていど使えるのかは未確認)。
2. アシメの分子数
3. 反射ファイルの変換
- ccp4iでIからFに変換しちゃいましょう。
- mtz形式のファイル(ex. KEK-PFのDPS/mosflm/scala)なら、Data
Reduction→Convert Intensities to SFsで。
- HKL2000(Scalepack)や、d*trek(R-axis; Rigaku
MSCのCrystalClearなど)のファイルなら、Data Reduction→Import
Scaled Dataで。一番上のタブから変換元のフォーマットを選ぶ。
- 通常はUse anomalous dataはoff、Free R flagは0.05 (5%)。
- dataset nameを入れるのを忘れないこと
- 予想されるアシメの残基数を入れる。
- 消滅則のある軸のデータが取れてなくて、らせん軸などが分かっていない場合は、空間群はとりあえずLaue
Classの一番上を入れておく。
[空間群の表]
- 後でCNSを使って精密化する場合は、Reflection Data
Unitilites→Convert from
MTZでCNSフォーマットに反射のmtzファイルを変換しておく。使うカラムは通常はFP,
Sigma, FreeRだけで十分。
4. molrep
- (ccp4i ver. 6.0.0用に改訂しました)
- Molecular Replacement→Molrep-auto MRを選択
- アシメに2分子以上と見積もられる場合には、self rotation
functionを試してみるとNCSが分かる場合がある。(Doのタブからself
rotation functionを選ぶ)Integration
Radiusは分子(1個)の半径と直径の間の値を入れる。デフォルトは30Å。
- psファイルをdisplayコマンド等を使って見る。例えば、NCSの2回軸がある場合は、Chi=180度のマップに、Crystallographic
Symmetry以外の場所に強いピークが見えるはず。ちなみに、この図は極座標(polar
angle; Phi, Psi)のマップを「北極」から見ている。
- 通常の分子置換は、Do "molecular replacement" performing
"rotation and translation function". Get input structure factors
from "MTZ file". でやるのが普通でしょう。
- Use sequenceをチェックしてSeq
inにpirファイル(1行目:>の後にseq名、2行目は空、3行目から配列,
参考)を入れるとモデルを修正して使ってくれる。これは利用したほうがよい。ログファイルに、sequence
alignmentの結果や、identityも出てくるのでメモしておこう。
- MTZ in, MODEL in を入力。FPとSIGFPのカラムが入力したdataset
nameと一致してるか確認。Seq inは入力しなくてもよい。
- PDBファイルの中の水分子や余計なヘッダーは、エディターなどを使って取っておくのが無難。オリゴマーがPDBファイルに入っている場合には、もちろんモノマーにしておく。(サブユニット間の並びがモデルと同一であるかも知れないので、オリゴマーのままでmolrepをかける手もありますが、まずはモノマーで試すのがおすすめ)
- ヘムなどのでっかいリガンドは、入っていることを確信するならば入れたままでもよい。
- Rasmolなどで表示して見て、一応確認しておく。
- The Modelパネル
- Apply .... Modelのタブは、通常は、"set Bvalues related to
accesibility & shift
origin"だが、ポリアラニンモデルを使いたければ、"convert to
polyalanine & shift origin"にする。
- Expect .... fraction completeness of model with ....
fraction similarity to input structure
は、別に入れなくても良いが、分かっているなら入れておいてもバチは当たらない。
- Search Parametersパネル
- アシメに複数分子ある場合には、Search for ... monomers in
the asymmetric unit に数を入れると2分子目以降を探しに行く。
- Self Rotationの解がはっきり分かっている場合はLocked
Rotation
Functionを使うこともできる。(ノイズを減らすのに有効とされていますが、私はまだ試したことありません)
- Search for .. peaks
...に数字を入れる。相同性が低い場合には、rotation、translation双方で20づつは探した方がよい。Rotationの下位に正解が出ることは結構ある。逆に、translationの下位に出ることは少ない。
- Pseudo-translation
vectorはデフォルトのautoにしておくとチェックしてくれる。これまでpseudo-translationが出てきたことはないですが。
- Output the closest of ....
のチェックは入れておいた方が良い。
- Infrequently Used Parametersパネルの中の、最初のChange space
groupのタブで、Laue
Class中の任意の空間群で計算することができる。全く分からない場合には、Check
allにする。消滅則などである程度絞り込まれている場合にはdefine
space groupを選べば時間を節約できる。
- R-factorとCorrelationが「他の解に比べて有意に高い」のが正解。モデル分子との相同性にもよるが、50%台前半のR-factor
になることが多い。同じタンパク質がモデルならば、40%台程度の解が出るのが普通。
- 複数分子を探す場合には、2分子目、3分子目とR-factorが「格段に」良くなっていくことを確認する。余裕があれば、正解の数+1分子目を探しに行かせて、結果がコケるのを確認しておくこと。
- 全ての分子が見つけきれていないと感じる場合には、Input fixed
modelを使う。
- あとは、CNSなどを使っての精密化へGO!
- 追記:いきなりRefmac5に行ってrigid body→restrained
refinementをかけるのがオススメです。ccp4
6.0.0以降は特に簡単になってます。
- 分解能2.3Å以上の反射が得られていて、次にARP/wARPを使う時に、アシメに2分子入っている場合には、molrepの出力したPDBファイルの中の、A/B
chainsの間に数行入っていて(モノマーだと勘違いされるために)うまくいかない場合があるので、これを除くべし。よく分からない場合には、まずRefmacをかけて、その出力のmtz
fileに入っているFcとFOMを使う。
5. 複数のドメインに別れている場合
- モデル分子(=目的の分子)が複数の「動きやすい」ドメインに別れている場合
- とりあえずPDBファイルをエディター等をつかって分ける。
- まずは大きいドメインだけで探しに行く。同程度のサイズならば両方やってみる。
- もう一つのドメインを探しに行くには、molrepのInput fixed
modelのチェックをONにして、現れてくるFixed in にその前のoutput
PDBを入れる。
- 2つめのドメインを探しに行った結果が芳しくない場合には、1つめのドメインだけを使った解を使って精密化に進みましょう。手でモデルを構築するのは大変ですが、分解能が高い場合にはArp/wArpの助けを借りましょう。
5.
ホモロジーの低い分子でモデリングする場合
戻る