大規模ゲノムモデル:兆億の塩基対で訓練されたオープンソースAI

大規模ゲノムモデル:兆億の塩基対で訓練されたオープンソースAI

2025年末、我々はEvoと呼ばれるAIシステムの開発について報道しました。このシステムは、大量の細菌ゲノムで訓練され、関連する遺伝子クラスターからのシーケンスを提示された場合、次の遺伝子を正確に識別したり、全く新しいタンパク質を提案したりする能力がありました。

しかし、複雑な細胞を持つ生物(真核生物)のゲノムでは、関連する遺伝子がクラスター化されていないため、同様のアプローチが機能するかどうかは不明確でした。しかし、Evoの開発チームはこの課題に挑戦し、今日、Evo 2と呼ばれるオープンソースAIを発表しました。このAIは、生命の3つの領域(細菌、古細菌、真核生物)から得られたゲノムを訓練しています。

ゲノムの特徴

細菌ゲノムは、相対的に単純な原則に従って組織化されています。タンパク質やRNAをコードする遺伝子は、コードシーケンスに中断がなく、関連する機能を持つ遺伝子は通常、クラスター化されています。これにより、それらを制御する単一のコンパクトな規制システムが存在します。

しかし、真核生物はそれとは異なります。遺伝子のコード部分は、タンパク質をコードしないインtronによって中断され、規制は数百の塩基対に散在することがあります。インtronのエッジや規制タンパク質の結合部位を定義するシーケンスは、弱く定義されています。

大規模ゲノムモデルの訓練

Evo 2システムの基盤は、StripedHyena 2と呼ばれる畳み込みニューラルネットワークです。訓練は2つの段階で行われました。最初の段階では、重要なゲノム特徴を含むシーケンスを8,000塩基対程度の長さのチャンクでシステムに提供しました。その後、100万塩基対程度の長さのシーケンスを提供して、大規模なゲノム特徴を識別する機会を与えました。

研究者は、すべての生命の3つの領域から得られた8.8兆塩基対を含むOpenGenome2データセットを使用して、システムの2つのバージョンを訓練しました。1つは2.4兆塩基対で訓練され、70億パラメータを調整し、もう1つは40億パラメータを調整し、全OpenGenome2データセットで訓練されました。

Evo 2の能力

Evo 2は、タンパク質コード領域とそれらを囲むインtronの境界を認識し、タンパク質の構造的な特徴(アルファヘリックスやベータシート)も認識しました。また、移動遺伝子要素(DNAレベルの寄生虫)も特徴として認識しました。

このシステムは、DNAのトランスクリプション開始部位やRNAのトランスレーション開始部位に影響を与える単一塩基変異を検出する能力があります。また、タンパク質の翻訳を中断する変異(ストップシグナルの導入など)は、変異が翻訳を維持するものよりも重大な変異と認識されます。

今後の展開

Evo 2は、ゲノムの評価と重要な特徴の識別に優れたツールとして機能します。しかし、このシステムが設計する新しいDNAシーケンスが生物学的に関連するかどうかを評価するためには、さらなる研究が必要です。

このシステムが未知のゲノム特徴を識別した可能性も考えられます。これからの研究が、Evo 2が持つ可能性を明らかにするでしょう。


元記事: https://arstechnica.com/science/2026/03/large-genome-model-open-source-ai-trained-on-trillions-of-bases/