PhyloCGN: Beta Release
Mar 3, 2026: Software Release
分子系統を利用したゲノム近傍解析ツール:「PhyloCGN」
標的遺伝子の機能に関わる遺伝子群を抽出・可視化するツール 「PhyloCGN」 をGitHub上で公開しました。
本ツールは、Microbes and Environmentsで発表した論文(Kosaka and Matsutani, 2025)の手法を、より高速・軽量な形で実装し直したものです。
解析スタックのモダン化:高速化とスケーラビリティ
従来のレガシーなツール群を刷新することで計算リソースを大幅に節約し、ノートPC環境でも解析が可能となりました。
| プロセス | 従来の構成 | PhyloCGNの構成 |
|---|---|---|
| Homology Search | BLASTp | diamond |
| Clustering | MCL | MMseqs2 |
| Alignment | muscle3 | muscle5 |
| Tree Building | NJ (Neighbor-Joining) | VeryFastTree |
| Visualization | R (Static images) | HTML + JS (Interactive) |
AIを活用したRubyへのコード移行とRakeによる自動化
これまで系統樹のクラスタリングに使用していた TreeCluster.py を、AIアシスタント(Gemini/Claude)との協業によりRubyスクリプトとして実装し直しました。これにより、Rakefileによる単一ワークフロー(rake do_all)での一括実行が可能になっています。
入力仕様について:シングル解析
本ベータ版(v0.9.0)では、入力は単一のアミノ酸配列(1つのターゲットタンパク質)に限定されており、現時点では「1クエリ・1解析」のスタイルを採っています。複数のターゲットを解析したい場合は、クエリごとにディレクトリを分けて実行してください。
公開の目的と今後の展望
PhyloCGNは現在ベータ版として公開しており、今後は複数配列への対応とその代表配列の選定について検討を行う予定です。 複雑なタンパク質複合体や成熟化因子の特定において、進化系統とゲノム近傍情報の統合は極めて強力です。本ツールが、機能未知遺伝子の探索に挑む皆さまの助けとなれば幸いです。
リソース・関連情報
- ソースコード (GitHub): tkosaka1976/PhyloCGN
- 関連論文: Kosaka and Matsutani, Microbes and Environments, 2025, 40:ME25018 DOI: 10.1264/jsme2.ME25018