Tomoyasu Yokoyama Computational Materials Scientist's Pages

2024年の読んでおきたいマテリアルズ・インフォマティクス論文5選

2024年もマテリアルズ・インフォマティクス(MI)の論文紹介をぼちぼち続けることができました。毎年恒例の個人的注目論文を今年も5本紹介していきたいと思います。

汎用機械学習ポテンシャル

2024年において最も進展したのは、汎用機械学習ポテンシャルの公開モデルです。こちらのリーダーボードにもあるMACEやSevenNetのような、様々な元素に対応、高精度で、かつ無料、という3拍子揃ったモデルが次々と登場し、誰でも第一原理計算レベルの材料シミュレーションが簡単にできる時代になりました。

機械学習ポテンシャルとは、原子の間に働くエネルギーや原子間力を機械学習により予測する手法です。従来の第一原理計算をはじめとする計算科学的な手法では計算コストが高いという課題を、機械学習で解決しようという取り組みです。これにより、これまで時間がかかって難しかった有限温度でのシミュレーションや表面や界面などのマクロスケールのシミュレーションが可能になります。

ポイントになっているのは学習モデルの進化というよりかは、学習に用いたデータの数にあります。多くのモデルは、従来の機械学習モデルをベースとし、それを膨大な計算データで訓練しています。例えば、Metaさんが公開したEquformerV2は1.1億を超える第一原理計算データベースOMat24を学習することで、最もエネルギー予測精度の高いモデルとなっています(2024年12月現在)。材料データもついに億の単位になったんだなと・・パワーで殴る時代の幕開けです。

そうした公開モデルの中で、現在最も注目度が高いのがMicrosoftさんが年末に公開したMatterSimという汎用機械学習モデルです。1700万件の膨大な第一原理計算のデータを構築し、M3GNetとGraphormerのモデルをベースとして訓練されたモデルで、特にエネルギー予測だけでなく、他のモデルと比べ原子間力や応力も高精度に予測できる点がすごいです。例えば、材料の熱物性を評価するのに重要なフォノン計算では高精度に原子間力を予測する必要がありますが、エネルギー予測精度が最も高いMetaさんのモデルでは原子間力の予測がイマイチでうまくいかないのに対し、MatterSimでは部分的には第一原理計算に匹敵する高精度予測を実現できているという報告もあります。

また、MatterSimを事前学習済みモデルとして微調整することで様々な予測が可能となるようです。機械学習ポテンシャルの最近のトレンドの一つに高性能な汎関数への対応があります。第一原理計算では計算コストとエネルギー精度が使用する汎関数に依存し、現状の汎用機械学習ポテンシャルの訓練データ生成に使用される汎関数では、実験を十分に再現できないという課題があり、もっと高性能な汎関数のデータで訓練した機械学習ポテンシャルが望まれます。それに対し、MatterSimを事前学習モデルとして少量の高性能汎関数の計算データにより微調整することで実験を再現できたそうです。

本モデルの登場で、ますます機械学習ポテンシャルの応用が進むことが考えられますので、1番読んでおきたい論文と言えると思います。

機械学習ハミルトニアン

近年、徐々に研究報告が増えてきている分野の一つに機械学習ハミルトニアンがあります。

機械学習ハミルトニアンは、機械学習ポテンシャルと同様に第一原理計算を代替(高速化)する手法ですが、目的変数に違いがあります。第一原理計算では物質の組成と構造から電子のハミルトニアンを求め、それに基づきエネルギーや原子間力を算出します。機械学習ポテンシャルでは、組成と構造から直接エネルギーを予測しますが、機械学習汎関数は、エネルギーではなくその一歩手前のハミルトニアン(の行列要素)を予測します。機械学習ポテンシャルと比べると機械学習ハミルトニアンは、電子状態(1電子エネルギー)を予測できる、学習時のデータ効率が良いなどの長所があり、さらには機械学習ポテンシャルの訓練用データを生成することでさらに精度を向上させることができる手法として期待されています。

機械学習ポテンシャルと同様、機械学習ハミルトニアンも汎化性が高まっています。今年、清華大学から報告された論文では、対称性を考慮した等変Transformerモデルにより1万件の第一原理計算データを学習し、24種類の元素に対応しながら誤差2.2meVの高精度予測を実現できたそうです。私が知る限りここまで広範囲の元素をカバーした機械学習ハミルトニアンは初めてだと思います。事前学習済みモデルとして微調整可能であることも示されています。

また、同グループから高精度汎関数により計算データを使って訓練することで、3000原子以上の2Dねじれ材料の電子状態を正確に予測できることも報告しており、実用的に使えるレベルに近づいている印象です。

ただ、電子状態予測を除くと機械学習ポテンシャルと比べどのくらいメリットがあるかは現状まだわかってない点もあり、データ効率などの観点でベンチマークが必要かと個人的には思います。

※ここでの「機械学習ハミルトニアン」は、DM21などのいわゆる「機械学習汎関数」と区別するために別の言葉を用いています。機械学習汎関数は第一原理計算における正確な形がわからない汎関数(交換相関汎関数)をニューラルネットワークで表現するのに対し、ここで紹介する研究はそれを含むいくつかの汎関数により表される電子のハミルトニアン自体を直接予測するため、著者らの表現に倣い「機械学習ハミルトニアン」と表現しました。

安定構造予測

次に紹介したい研究は、安定構造予測です。

第一原理計算では、初期構造から予測された原子間力が小さくなる方向に原子を動かし、構造を更新していく「構造緩和」により、安定構造を計算します。機械学習ポテンシャルでも避けることはできないこの繰り返し計算により、構造緩和は現状計算コストの最も高いステップと言えると思います。

そこで、機械学習により初期構造を入力とし安定構造を予測することができれば、大幅に高速化が期待されます。これまで、個別のデータセットで検証した例はありましたが、多様なデータセットに適用可能な汎用性のある手法はありませんでした。

そうした課題に対しこちらの論文では、等変グラフニューラルネットワークにより初期構造と安定構造の各原子の変位量を予測、得られた変位量から数値ユークリッド距離幾何学ソルバーを用いて安定構造を決定する、という枠組みが提案されました。この手法をMaterials ProjectやC2DBなど様々なデータベースで検証した結果、多くのデータセットで従来法より高精度に予測でき、予測された構造は第一原理計算で得られた安定構造と同程度のエネルギー分布を持っていたそうです。

また、予測された安定構造を入力として第一原理計算により構造緩和を実施すると、収束までに必要な繰り返し回数を半減できたとのことで、この成果もとても興味深いなと感じました。最近は結晶構造予測の手法も盛んに研究されていますが、予測構造はあまりにも安定構造から遠いような構造も多く生成され、機械学習ポテンシャルを使ったとしても構造緩和に時間がかかる、あるいはうまく収束しない、といったこともしばしば起こります。この論文のような手法で、そうしたおかしな構造をいい感じの構造に修正してくれるだけでも、大幅に計算コストを低減できる可能性があり、安定構造予測の進展は更なる効率化につながると期待されます。

大規模言語モデルによる最適化

2023年はChatGPTに代表される大規模言語モデル(LLM)が躍進した年でしたが、2024年もその傾向は続きLLMを用いた論文を毎日のように目にしました。

そうした中で、材料科学分野におけるLLMの主な使われ方としては、

  • 論文や特許から材料データの収集
  • これまでの機械学習モデルの代替(物性予測・逆設計など)
  • 専門家の代替(AIエージェント、自動化など)
  • ブラックボックス最適化の改良

にまとめられるかと思います。1〜3番目までは昨年も取り上げましたが、今回取り上げたいのは4番目の「最適化」です。

材料科学では様々な最適化問題が存在しますが、これを困難にしているのが最適化の目的関数が微分不可能であるという点です。微分は関数の傾きを示し、傾きが正であれば関数は増加し、負であれば減少します。この情報を利用して、最適化アルゴリズムは目的関数が最大または最小になる点を見つけることができます。しかしながら、元素の比率を変えることである材料物性を向上させたい場合、元素の比率に対する材料物性の関係式が自明ではなく、離散的な観測データしか得られないため、組成に対する材料物性の微分を考えることができません。従ってMIでは遺伝的アルゴリズムやベイズ最適化などのブラックボックス最適化手法をよく用いますが、LLMを使ってもっと効率的に行おうとする研究が進められています。

例えば下記の論文ではLLMを用いて遺伝的アルゴリズムを改良することで、分子の構造および材料物性最適化問題において、従来は見つけられなかった解を見つけられたそうです。遺伝的アルゴリズムの突然変異の操作をランダムに行うのではなく、化学の専門知識に基づいたLLMが実行することで、より効率的に行うという点がポイントのようです。またGPT-4のような汎用LLMよりも化学に特化したLLMの方が性能がよかったとのことです。一方、一つの最適化の操作に時間がかかる点が課題とのことで、高速かつ特化型のLLMの登場によりこうした研究も広がるのではないかと思います。

私自身も構造および材料物性最適化に従来のブラックボックス最適化を使っています。しかしながら、MIでは複雑な問題が多いため現状の最適化手法では初期値依存性の影響がかなり強く、もっと良い最適化手法があるだろうになぁと日々思っていたので、この技術の進展に対する期待度は高いです。

Kolmogorov-Arnold Networks

今年よく見たキーワードがKolmogorov-Arnold Networks(KAN)です。

KANは従来の機械学習モデルで使われる多層パーセプトロン(MLP)とは異なる新たなニューラルネットワーク構造で、非線形な活性化関数そのものを直接学習することから、パラメータ効率が良く、学習結果の解釈可能性が高いという特徴を持ちます。

2024年の4月に報告されて以降様々な分野へ応用が進み、MIの分野でも1週間に1回くらいの頻度で論文を目にするようになりました。従来のモデルのMLP部分を代替するだけで予測精度が上がる(≒論文が書ける)、という点が流行の1要素になっている気もします。SNS界隈では「最後にAIは勝つ by KAN」と盛り上がっていましたね。

実際に、従来の機械学習ポテンシャルのモデルであるAllegroやNequIPのMLP部分をKANに置き換えることで、エネルギーや原子間力の予測精度が向上するようで、やはりKANはすごいみたいです。ただ一般にKANを使うと学習時間が長くなるという課題があるようです。この論文では、どの層のMLPをKANに置き換えるかによっても精度と学習コストが変わるようで、こうした調整の可能性も議論しています。来年以降、従来モデルはKANに置き換わっていくのかどうか、今後の動向から目が離せません。

以上です、2025年はどんな面白いマテリアルズ・インフォマティクスの研究成果が報告されるのか、楽しみです。

番外編その1

番外編その1は、個人的に試してみたくなった以下の論文。 組成を見ればどの分野に応用できる材料かおおよそ予測がつくという専門家の知見を機械学習で再現したという内容です。皆さんはどれくらい当てられますか?

番外編その2

番外編その2は、LLMにより材料の特許侵害を判定する論文。 普通に欲しいです。

番外編その3

番外編その3は、言語モデル×化学のレビュー論文。 この分野は進展が早いので1年に1回はレビューを読んでおきたいですね。

番外編その4

番外編その4は、生成AIによる結晶構造予測のレビュー論文。 この分野、今年は大きな進展はなかったですが、来年はどうなるでしょうか。

個人的推し論文

個人的に2024年で一番面白かったのは、結晶構造の合体により新しいMOF材料を合成したという論文。 やっぱり結晶構造はちゃんと整理すればまだ新しい設計指針が眠っていることを改めて痛感しました。 2025年も僕は結晶構造沼にハマっていきたいと思います。