2024年もマテリアルズ・インフォマティクス(MI)の論文紹介をぼちぼち続けることができました。毎年恒例の個人的注目論文を今年も5本紹介していきたいと思います。
汎用機械学習ポテンシャル
2024年において最も進展したのは、汎用機械学習ポテンシャルの公開モデルです。こちらのリーダーボードにもあるMACEやSevenNetのような、様々な元素に対応、高精度で、かつ無料、という3拍子揃ったモデルが次々と登場し、誰でも第一原理計算レベルの材料シミュレーションが簡単にできる時代になりました。
機械学習ポテンシャルとは、原子の間に働くエネルギーや原子間力を機械学習により予測する手法です。従来の第一原理計算をはじめとする計算科学的な手法では計算コストが高いという課題を、機械学習で解決しようという取り組みです。これにより、これまで時間がかかって難しかった有限温度でのシミュレーションや表面や界面などのマクロスケールのシミュレーションが可能になります。
ポイントになっているのは学習モデルの進化というよりかは、学習に用いたデータの数にあります。多くのモデルは、従来の機械学習モデルをベースとし、それを膨大な計算データで訓練しています。例えば、Metaさんが公開したEquformerV2は1.1億を超える第一原理計算データベースOMat24を学習することで、最もエネルギー予測精度の高いモデルとなっています(2024年12月現在)。材料データもついに億の単位になったんだなと・・パワーで殴る時代の幕開けです。
そうした公開モデルの中で、現在最も注目度が高いのがMicrosoftさんが年末に公開したMatterSimという汎用機械学習モデルです。1700万件の膨大な第一原理計算のデータを構築し、M3GNetとGraphormerのモデルをベースとして訓練されたモデルで、特にエネルギー予測だけでなく、他のモデルと比べ原子間力や応力も高精度に予測できる点がすごいです。例えば、材料の熱物性を評価するのに重要なフォノン計算では高精度に原子間力を予測する必要がありますが、エネルギー予測精度が最も高いMetaさんのモデルでは原子間力の予測がイマイチでうまくいかないのに対し、MatterSimでは部分的には第一原理計算に匹敵する高精度予測を実現できているという報告もあります。
また、MatterSimを事前学習済みモデルとして微調整することで様々な予測が可能となるようです。機械学習ポテンシャルの最近のトレンドの一つに高性能な汎関数への対応があります。第一原理計算では計算コストとエネルギー精度が使用する汎関数に依存し、現状の汎用機械学習ポテンシャルの訓練データ生成に使用される汎関数では、実験を十分に再現できないという課題があり、もっと高性能な汎関数のデータで訓練した機械学習ポテンシャルが望まれます。それに対し、MatterSimを事前学習モデルとして少量の高性能汎関数の計算データにより微調整することで実験を再現できたそうです。
本モデルの登場で、ますます機械学習ポテンシャルの応用が進むことが考えられますので、1番読んでおきたい論文と言えると思います。
汎用機械学習ポテンシャルの論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) July 16, 2024
Microsoftさんは1700万データでM3GNetを訓練した機械学習ポテンシャルを用いて有限温度・圧力下の自由エネルギーを正確に予測できたそうです。
Microsoftさん、NNPもやってるみたい。https://t.co/Hn3TI1pTrE pic.twitter.com/s1qaaYzL1u
機械学習ハミルトニアン
近年、徐々に研究報告が増えてきている分野の一つに機械学習ハミルトニアン※があります。
機械学習ハミルトニアンは、機械学習ポテンシャルと同様に第一原理計算を代替(高速化)する手法ですが、目的変数に違いがあります。第一原理計算では物質の組成と構造から電子のハミルトニアンを求め、それに基づきエネルギーや原子間力を算出します。機械学習ポテンシャルでは、組成と構造から直接エネルギーを予測しますが、機械学習汎関数は、エネルギーではなくその一歩手前のハミルトニアン(の行列要素)を予測します。機械学習ポテンシャルと比べると機械学習ハミルトニアンは、電子状態(1電子エネルギー)を予測できる、学習時のデータ効率が良いなどの長所があり、さらには機械学習ポテンシャルの訓練用データを生成することでさらに精度を向上させることができる手法として期待されています。
機械学習ポテンシャルと同様、機械学習ハミルトニアンも汎化性が高まっています。今年、清華大学から報告された論文では、対称性を考慮した等変Transformerモデルにより1万件の第一原理計算データを学習し、24種類の元素に対応しながら誤差2.2meVの高精度予測を実現できたそうです。私が知る限りここまで広範囲の元素をカバーした機械学習ハミルトニアンは初めてだと思います。事前学習済みモデルとして微調整可能であることも示されています。
また、同グループから高精度汎関数により計算データを使って訓練することで、3000原子以上の2Dねじれ材料の電子状態を正確に予測できることも報告しており、実用的に使えるレベルに近づいている印象です。
ただ、電子状態予測を除くと機械学習ポテンシャルと比べどのくらいメリットがあるかは現状まだわかってない点もあり、データ効率などの観点でベンチマークが必要かと個人的には思います。
汎用機械学習ハミルトニアンの論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) June 19, 2024
1万件の計算データをニューラルネットワークで学習し結晶構造からハミルトニアンを予測、24種類の元素に対応しながら誤差2.2meVと高精度に予測できたそうです。
かなり興味深い結果。これくらいのデータ数でうまくいくのは驚き。https://t.co/d4wGGvca7l pic.twitter.com/PNqmDgGlIm
※ここでの「機械学習ハミルトニアン」は、DM21などのいわゆる「機械学習汎関数」と区別するために別の言葉を用いています。機械学習汎関数は第一原理計算における正確な形がわからない汎関数(交換相関汎関数)をニューラルネットワークで表現するのに対し、ここで紹介する研究はそれを含むいくつかの汎関数により表される電子のハミルトニアン自体を直接予測するため、著者らの表現に倣い「機械学習ハミルトニアン」と表現しました。
安定構造予測
次に紹介したい研究は、安定構造予測です。
第一原理計算では、初期構造から予測された原子間力が小さくなる方向に原子を動かし、構造を更新していく「構造緩和」により、安定構造を計算します。機械学習ポテンシャルでも避けることはできないこの繰り返し計算により、構造緩和は現状計算コストの最も高いステップと言えると思います。
そこで、機械学習により初期構造を入力とし安定構造を予測することができれば、大幅に高速化が期待されます。これまで、個別のデータセットで検証した例はありましたが、多様なデータセットに適用可能な汎用性のある手法はありませんでした。
そうした課題に対しこちらの論文では、等変グラフニューラルネットワークにより初期構造と安定構造の各原子の変位量を予測、得られた変位量から数値ユークリッド距離幾何学ソルバーを用いて安定構造を決定する、という枠組みが提案されました。この手法をMaterials ProjectやC2DBなど様々なデータベースで検証した結果、多くのデータセットで従来法より高精度に予測でき、予測された構造は第一原理計算で得られた安定構造と同程度のエネルギー分布を持っていたそうです。
また、予測された安定構造を入力として第一原理計算により構造緩和を実施すると、収束までに必要な繰り返し回数を半減できたとのことで、この成果もとても興味深いなと感じました。最近は結晶構造予測の手法も盛んに研究されていますが、予測構造はあまりにも安定構造から遠いような構造も多く生成され、機械学習ポテンシャルを使ったとしても構造緩和に時間がかかる、あるいはうまく収束しない、といったこともしばしば起こります。この論文のような手法で、そうしたおかしな構造をいい感じの構造に修正してくれるだけでも、大幅に計算コストを低減できる可能性があり、安定構造予測の進展は更なる効率化につながると期待されます。
緩和構造を直接生成する論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) April 6, 2024
構造緩和には反復計算が必要なため機械学習ポテンシャルを使っても時間がかかるのに対し
緩和前構造を入力し緩和量と不確かさを予測することにより数ミリ秒で正確な緩和構造が得られたそうです。
これ系で幅広く検証した論文は初めて?https://t.co/u4jFrWnXYX pic.twitter.com/uYpqRS3tSD
大規模言語モデルによる最適化
2023年はChatGPTに代表される大規模言語モデル(LLM)が躍進した年でしたが、2024年もその傾向は続きLLMを用いた論文を毎日のように目にしました。
そうした中で、材料科学分野におけるLLMの主な使われ方としては、
- 論文や特許から材料データの収集
- これまでの機械学習モデルの代替(物性予測・逆設計など)
- 専門家の代替(AIエージェント、自動化など)
- ブラックボックス最適化の改良
にまとめられるかと思います。1〜3番目までは昨年も取り上げましたが、今回取り上げたいのは4番目の「最適化」です。
材料科学では様々な最適化問題が存在しますが、これを困難にしているのが最適化の目的関数が微分不可能であるという点です。微分は関数の傾きを示し、傾きが正であれば関数は増加し、負であれば減少します。この情報を利用して、最適化アルゴリズムは目的関数が最大または最小になる点を見つけることができます。しかしながら、元素の比率を変えることである材料物性を向上させたい場合、元素の比率に対する材料物性の関係式が自明ではなく、離散的な観測データしか得られないため、組成に対する材料物性の微分を考えることができません。従ってMIでは遺伝的アルゴリズムやベイズ最適化などのブラックボックス最適化手法をよく用いますが、LLMを使ってもっと効率的に行おうとする研究が進められています。
例えば下記の論文ではLLMを用いて遺伝的アルゴリズムを改良することで、分子の構造および材料物性最適化問題において、従来は見つけられなかった解を見つけられたそうです。遺伝的アルゴリズムの突然変異の操作をランダムに行うのではなく、化学の専門知識に基づいたLLMが実行することで、より効率的に行うという点がポイントのようです。またGPT-4のような汎用LLMよりも化学に特化したLLMの方が性能がよかったとのことです。一方、一つの最適化の操作に時間がかかる点が課題とのことで、高速かつ特化型のLLMの登場によりこうした研究も広がるのではないかと思います。
私自身も構造および材料物性最適化に従来のブラックボックス最適化を使っています。しかしながら、MIでは複雑な問題が多いため現状の最適化手法では初期値依存性の影響がかなり強く、もっと良い最適化手法があるだろうになぁと日々思っていたので、この技術の進展に対する期待度は高いです。
LLMによる最適化の論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) June 27, 2024
遺伝的アルゴリズムにおける交差と突然変異を化学知識で微調整したLLMで分子設計を行うと、従来より早く最適解にたどり着くことが分かったそうです。ランダムでなく化学を考慮し最適化操作ができる点がポイント。
LLMの使い方がうまい。https://t.co/atVjRzNwKM pic.twitter.com/MJmj5wrv94
Kolmogorov-Arnold Networks
今年よく見たキーワードがKolmogorov-Arnold Networks(KAN)です。
KANは従来の機械学習モデルで使われる多層パーセプトロン(MLP)とは異なる新たなニューラルネットワーク構造で、非線形な活性化関数そのものを直接学習することから、パラメータ効率が良く、学習結果の解釈可能性が高いという特徴を持ちます。
2024年の4月に報告されて以降様々な分野へ応用が進み、MIの分野でも1週間に1回くらいの頻度で論文を目にするようになりました。従来のモデルのMLP部分を代替するだけで予測精度が上がる(≒論文が書ける)、という点が流行の1要素になっている気もします。SNS界隈では「最後にAIは勝つ by KAN」と盛り上がっていましたね。
実際に、従来の機械学習ポテンシャルのモデルであるAllegroやNequIPのMLP部分をKANに置き換えることで、エネルギーや原子間力の予測精度が向上するようで、やはりKANはすごいみたいです。ただ一般にKANを使うと学習時間が長くなるという課題があるようです。この論文では、どの層のMLPをKANに置き換えるかによっても精度と学習コストが変わるようで、こうした調整の可能性も議論しています。来年以降、従来モデルはKANに置き換わっていくのかどうか、今後の動向から目が離せません。
KANによる物性予測の論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) September 9, 2024
Allegroなど従来の物性予測の機械学習モデルおけるMLPの出力ブロックをKANに置き換えてみたところ、学習時間が短くなり、かつ予測精度も向上することがわかったそうです。
KANすごい。機械学習ポテンシャルもまだまだよくなりそう。https://t.co/jjANizWpFl pic.twitter.com/fJtwVvzNvk
以上です、2025年はどんな面白いマテリアルズ・インフォマティクスの研究成果が報告されるのか、楽しみです。
番外編その1
番外編その1は、個人的に試してみたくなった以下の論文。 組成を見ればどの分野に応用できる材料かおおよそ予測がつくという専門家の知見を機械学習で再現したという内容です。皆さんはどれくらい当てられますか?
材料の応用先を予測する論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) April 13, 2024
材料の組成と応用例を2021年までの論文から抽出しword2vecベースのモデルで学習、2022年に初めて報告された組成の応用先を予測すると21中19化合物を予測できたそうです。
確かにOs22Al78はわからない。皆さんはどれくらい当てられますか?https://t.co/qUuJGVEt1d pic.twitter.com/BL7bakazCh
番外編その2
番外編その2は、LLMにより材料の特許侵害を判定する論文。 普通に欲しいです。
分子の特許侵害を判定する論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) December 13, 2024
特許文献から分子と請求項の抽出、置換基の識別、入力された請求項との一致判定をLLMによるマルチエージェントフレームワークを構築、80%以上の正解率で正しく判定できたそうです。
これはありがたい。特許庁の業務効率化も進みそう。https://t.co/FaVJdSLgLq pic.twitter.com/4i4sctjE5g
番外編その3
番外編その3は、言語モデル×化学のレビュー論文。 この分野は進展が早いので1年に1回はレビューを読んでおきたいですね。
化学×LLMのレビュー論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) July 5, 2024
化学のためのLLMについて、歴史、機能、課題、将来展望などがまとまっています。特に最近報告が相次ぐAIエージェントが注目されているようです。
改めてみるとすごい数、進展が速い。今一番ホットな分野なので一読の価値あり。https://t.co/jlhZ5QifI5 pic.twitter.com/f1dqpAnkCd
番外編その4
番外編その4は、生成AIによる結晶構造予測のレビュー論文。 この分野、今年は大きな進展はなかったですが、来年はどうなるでしょうか。
生成AIによる結晶材料の逆設計のレビュー論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) July 6, 2024
VAE・GANから拡散モデル、そしてLLMを使った結晶逆設計の研究が手法の課題を含めまとまっています。
これもちょうど読みたかったやつ。堅実な書きっぷりで、これ系のレビューの中では一番わかりやすかったのでオススメです。https://t.co/kQ6bfJPGb8
個人的推し論文
個人的に2024年で一番面白かったのは、結晶構造の合体により新しいMOF材料を合成したという論文。 やっぱり結晶構造はちゃんと整理すればまだ新しい設計指針が眠っていることを改めて痛感しました。 2025年も僕は結晶構造沼にハマっていきたいと思います。
結晶構造の合体によるMOF設計の論文。
— 横山トモヤス|計算材料科学者 (@yoko_materialDX) November 12, 2024
MOFのような複雑な3次元ネット状構造を体系的に整理すると、53種類の基本構造の組み合わせによりさまざまな構造を説明できることがわかり、この法則により新しい構造をもつMOFの合成に成功したそうです。
2024年で個人的最も面白論文。https://t.co/QkkX4eav4Q