Tomoyasu Yokoyama Computational Materials Scientist's Pages

2025年の読んでおきたいマテリアルズ・インフォマティクス論文5選

2025年もマテリアルズ・インフォマティクス(MI)の論文紹介をX上で続けることができました。今年も個人的注目論文を今年も5本紹介していきたいと思います。

AIエージェント

2025年、MI分野において急増したのは「AIエージェント」に関する研究でした。

AIエージェントとは、これまでの単なる機械学習モデルではありません。自ら仮説を立て、データベースから必要な情報を収集し、計算・実験ツールを実行して結果を解析、さらにはその考察に基づいて仮説を修正する、という科学的発見のサイクルを自律的に回す能力を持ったAIです。2025年は、「Agentic Science(エージェント科学)」という新たな技術分野が定義され、材料科学においても「AIを使う」時代から「AIが自ら行動する」時代への転換点となりました。

この潮流の中で私が注目したのが、AGAPIというオープンアクセスのAIエージェントプラットフォームです。これは、GPT-4など商用モデルに依存せず、多数のオープンソースLLMと20以上の材料科学専用ツールを統合したシステムで、既に1000人以上のユーザーがこのシステムを使用しているそうです。このシステムの特徴は、PlannerとExecutorを分けたアーキテクチャにあり、実際の物理シミュレーションや機械学習モデルなどのツールで検証することで、LLM特有のハルシネーションを劇的に抑えたとのことです。

現状、こうしたエージェントの活躍の場はシミュレーション上での材料探索が中心ですが、計算機内で完結できるワークフローは、近い将来ほぼすべてAIエージェントに取って代わられる可能性が高いと思います。そうなると「計算屋さんは不要になるのか?」という問いが現実味を帯びてきます。次なるステップは、このAIエージェントが物理的な自動実験ロボットと直接つながることです。シミュレーションで予見された材料をAIがそのままロボットに合成させ、その結果をフィードバックして学習を深める自律型研究ラボへの進展が、今後の主戦場となります。

個人的には、単に計算を回すだけの役割はAIに任せることで、もっといろんな材料開発に貢献できるようになるのが楽しみです。特に、材料科学の仮想世界と実世界をどう繋ぎ、どの課題にAIを向かわせるべきかを考えることが、これから我々の役割になるのかなと感じています。

汎用機械学習ポテンシャル

機械学習ポテンシャルとは、原子の間に働くエネルギーや原子間力を機械学習により予測する手法です。2024年のMatterSimやEquformerV2の登場以降も、あらゆる元素に対応した汎用モデルの報告は2025年も相次ぎ、前半はリーダーボードの上位が1ヶ月おきに入れ替わるような状態でした。しかし後半に入るとその勢いも落ち着き、代わって「どのモデルが、どの物理現象を正しく記述できるのか」というベンチマーク論文が増加。2024年までは、エネルギーの予測精度は良いが原子間力はあまり良くない、などモデルごとに一長一短がありましたが、多面的なベンチマーク指標も構築され、上位モデルはどれでも一通りのことはできるという印象です。モデルとしては出そろった感があります。

2025年12月現在、このリーダーボードで1位のモデルの一つが、Metaさんから報告されたeSENです 。昨年のモデル(EquformerV2)は、エネルギー予測の精度で圧倒していましたが、eSENはそこに物理的な滑らかさを追求したモデルになっています 。具体的には、原子のカットオフ付近での不連続性を排除するエンベロープ関数の導入や、空間グリッドに離散化しない計算手法により、数値的なノイズを極限まで抑えています。これにより、エネルギー保存則を満たしつつ、フォノン計算や熱伝導率といった高次の微分を必要とする物性予測において、高予測精度を達成できたそうです。

余談ですが、機械学習ポテンシャルの非常に興味深い特徴として、教師データとして使われる第一原理計算よりもポテンシャルエネルギー曲面が「滑らか」になるという点があります。これにより、構造最適化の際に第一原理計算では陥りがちな局所解をスルーし、より安定な構造を見つけやすいというメリットも報告されています。こうした「機械学習ならではの滑らかさ」を逆手に取ったアプローチは、面白いなと思います。

これらの汎用モデルの多くはオープンに公開されており、誰でも無料で利用可能です。かつては専門家がスパコンで数週間かけていたシミュレーションが、今や実験屋さんが自分のPCやクラウドで、数分で行える時代になりました。特に「まずは構造緩和だけしてみたい」「大まかな物性の傾向を掴みたい」といったニーズに対し、汎用モデルは協力な武器となります。2025年は、こうした高度な計算ツールが専門家の手を離れ、実験の現場に真に溶け込み始めてきたと感じます。

機械学習汎関数

第一原理計算では物質の組成と構造から汎関数が求まり、それに基づきエネルギーや原子間力を算出します。機械学習ポテンシャルでは、組成と構造から直接エネルギーを予測しますが、機械学習汎関数は、エネルギーではなくその一歩手前の汎関数を予測します。特に、第一原理計算における正確な形がわからない汎関数(交換相関汎関数)をニューラルネットワークで表現する手法をここでは機械学習汎関数と呼びます。

第一原理計算ではシュレディンガー方程式を解く際、電子同士の複雑な相互作用をひとまとめにした「闇鍋」のような項が登場します。これが「交換相関汎関数」ですが、厳密な数式が不明なため、これまでは様々な近似式が使われてきました。計算精度はこの近似の質で決まりますが、高精度な汎関数ほど計算コストが膨大になり、適用できる系が限られるというジレンマがありました。

そこで、高精度汎関数による計算データをあらかじめ大量に生成しておき、その「闇鍋」の中身を機械学習で高速にシミュレーションしてしまおう、というアプローチが取られます。この手法の最大の利点は、機械学習ポテンシャルでは困難だった電子密度そのものを扱える点にあります。電子状態が直接関与する欠陥、励起状態、あるいは複雑な化学反応が寄与する物性予測への応用が期待されています。ざっくりとは昨年紹介した機械学習ハミルトニアンと同様のアプローチと捉えても問題ないと思います。

2025年この分野で注目を集めたのが、Microsoftさんが発表したSkalaという汎用モデルです。Skalaは、深層学習を用いることで従来の近似では困難だった非局所的な相互作用を学習した新しい汎関数です。ポイントは約8万件という膨大な高精度汎関数の計算データを学習した点にあると思われます。その結果、小分子の原子化エネルギーにおいて高精度汎関数と同等以上の1 kcal/mol以下の誤差を達成できたそうです。

ただ現状のモデルの学習範囲はHからAr、および一部のハロゲンや希ガスなど主族元素が中心であり、対象も分子系に限られています。そのため、遷移金属を含む触媒や、結晶構造などの周期系への適用はこれからの課題ですが、機械学習ポテンシャルに続くMIの次なる本命トレンドになる可能性を十分に秘めています、と毎年言っているような気も・・。

大規模言語モデルによる最適化

材料開発において、組成やプロセス条件などの「最適化」は常に研究の核心ですが、探索空間が広大であるため、従来の数値的な最適化手法だけでは、データが極めて少ない領域で探索が迷走するという課題がありました。

2025年にいくつか報告があったのが、大規模言語モデル(LLM)が持つ膨大な材料科学の知見を最適化のフレームワークに直接組み込むアプローチです。これにより、実験データが不足している領域においても、材料科学的な妥当性に基づいた筋の良い探索が可能になりました。昨年も紹介したアプローチですが、2025年は様々な最適化手法と組み合わせ、より実践的な問題への応用が進んだ印象です。

この潮流を象徴する研究の一つが、強化学習とLLMを融合させたAIMATDESIGNというフレームワークです。従来の強化学習は報酬のみを頼りに試行錯誤しますが、この手法ではLLMがドメインの専門家として介入します。LLMが既存の文献から有望な特徴量を抽出し、最適化の指針を与えることで、高次元空間での探索効率を劇的に高めることに成功しました。その結果、合金設計などの複雑な逆設計タスクにおいて、従来手法を大きく上回る成功率を達成しています。

また、強化学習だけでなくベイズ最適化においてもLLMの組み込みが進んでおり、LLMがカーネル選択や探索範囲の絞り込みをサポートする研究が報告されました。

専門家であれば「この元素の組み合わせは不安定」「この温度域では反応が進まない」といった、経験的にわかっている暗黙知があります。これらをLLMに肩代わりさせることで、AIが的外れな実験を自ら回避し、最短ルートで正解に辿り着けます。この技術の進展は、MIによる材料発見の成功確率を一段上のステージへと引き上げることになると期待しています。

大規模材料データベース

2025年も、MIの基盤となる大規模データベースの公開が相次ぎました。特にMetaさんからは、分子の包括的な計算データOMatMol25、固体・液体界面の相互作用を網羅したOC25、そして分子結晶に特化したOMC25など、特定のターゲットを深掘りした質の高いデータセットが次々と提供されています。Metaさんはすごい・・!

そうした中、私が注目したのは統計数理研究所を中心とした産官学コンソーシアムによって開発された、世界最大級の高分子材料データベースPolyOmicsの公開です。高分子材料は、その構造の複雑さと合成・測定コストの高さから、Materials Projectのような無機材料に比べてオープンな大規模データが著しく不足していました。この課題に対し、日本国内の48機関から約260名の研究者が集結したRadonPyコンソーシアムが組織の垣根を越えて連携。12万件以上のポリマーに対して、密度、熱伝導率、ガラス転移温度など62種類もの多様な物性データを生成するという金字塔を打ち立てました。

「計算データだけでは実験値と合わず、役に立たないのでは?」と思われるかもしれません。しかし本研究では、実験データが極めて少ないケースでも、これら膨大な計算データで事前学習(Sim2Real)を行うことで、実験物性を極めて高精度に予測できることが示されています。

個人的に感銘を受けたのは、大学や国研だけでなく37社もの民間企業が参加し、コンソーシアムとして目に見える成果を上げている点です。MIのようなプラットフォーム技術は、もはや一つの組織が独自に抱え込む段階を過ぎ、誰もが享受できるコモディティ化の段階に入ってきているように思います。組織間で連携してスケールアップを急ぎ、導入のスピードを加速させるような、こうした取り組みがどんどん増えていくのではないかと感じました。

以上です、2026年はどんな面白いマテリアルズ・インフォマティクスの研究成果が報告されるのか、楽しみです。

番外編その1

番外編その1は、Microsoftさんの生成モデルによる結晶構造予測の論文。 この論文のプレプリントは2023年の読んでおきたいマテリアルズ・インフォマティクス論文5選でも紹介したので、今回の5本には取り上げませんでしたが、「AIは結晶構造をどこまで予測できるか?」という問いの現状の解と思いますので、未チェックの方は読んで損はないと思います。

番外編その2

番外編その2は、生成モデルにより自由エネルギーを予測する論文。 結晶構造予測とかよりも、こういう生成モデルの使い方の方が向いているのではないかなと期待しています。

番外編その3

番外編その3は、機械学習により偏微分方程式を解く論文。 この分野の研究もかなり盛んですが、以下のようなTransformerによりスケールさせた基盤モデルも報告されており、機械学習ポテンシャルのようになっていくのかなと感じました。

番外編その4

番外編その4は、材料物性における組成と構造の寄与を調べた論文。 機械学習による物性予測では意外にも構造情報なしで組成情報だけでうまくいく場合があり、この理由を理解するために情報理論の考え方で構造の寄与を評価したという研究です。専門家が何となく感じている事をちゃんと定量的に評価することは重要と思います。

個人的推し論文

個人的に2025年で一番面白かったのは、固体/固体界面の第一原理計算に関する論文。 これまでは異なる材料からなる界面を作るには、そのサイズが同じになるまでセルを大きくする必要がありましたが、これが不要となる新たな手法が提案されました。 この手法が汎用的に適用できれば、界面の計算データを高速に生成することが期待されます。 これを学習した機械学習モデルよりこれまでは難しかった固体/固体界面のシミュレーションが実現できるので、個人的推し論文として取り上げました。