2023年の読んでおきたいマテリアルズ・インフォマティクス論文5選

2023年もマテリアルズ・インフォマティクス（MI）の論文紹介を続けることができました。昨年に引き続き、今年も備忘録のために個人的注目論文を5本書き留めておきます。

大規模結晶材料データベース

2023年に発表された論文の中で最も読んでおくべきと思ったのは、やはりDeepMindさんが計算で38万もの合成可能性の高い材料を予測したものです。

これまでに計算によって熱力学的に安定とされた材料は高々数万件しかなかったのに対し、この論文によって材料データ空間が1桁広がったのはすごいです。僕はボストンで開催された2023 MRS fall meetingにてこの発表を立ち見で聞いていたのですが、投影された数字を見て「？」となりました。

この論文ではブレークスルー技術が明確にあったわけではなく、「こんなことができればいいなぁ」と誰しもが思い描いていた内容であったと思いますが、それをちゃんと組み上げたところと、膨大なコストとマシーンパワーをかけて動かしたところがすごいと思います。泥臭い作業を含め、様々なご苦労があったことと推察しますが、それを乗り越えてここまでの形に仕上げられる組織はほとんどないのではないでしょうか。とはいえやるべきことはまだまだあり、例えば報告のない未知構造はあまり考慮されていない点、第一原理計算での予測が困難なランタノイドを含む化合物が多い点などの課題はあると個人的には思いました。

結晶材料というニッチな分野において、データで殴られるような時代が来るとは数年前までは想像できませんでしたが、今後はこの論文を無視した研究開発はできないという意味でも、ダントツ1位で読んでおきたい論文です。

ちょうどMRSでGoogleの人がやばい発表してると思ったらプレスリリースがでてました。

220万の安定な結晶材料をAIで予測、このうち736化合物が実験的に合成できたという内容でNature 誌に掲載されたとのこと。すごい。

データで殴られる波がついに結晶材料にも来てしまったみたい。 https://t.co/LjXC7PsbZA
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) November 29, 2023

大規模言語モデル

「生成AI」が流行語大賞になったように、2023年はChatGPTに代表される大規模言語モデル（LLM）が躍進した年でした。材料科学分野においてもLLMを用いた論文を毎日のように目にしました。

材料科学分野におけるLLMの主な使われ方としては、

論文や特許から材料データ収集
これまでの機械学習モデル代替（物性・構造・反応経路予測など）
自動・自律型実験システム構築（実験設計・ロボット制御など）

などが挙げられます。特に自動・自律実験とLLMの組み合わせは注目度が高く、MIの課題の一つであるリアルとバーチャルのギャップを埋めることができると期待しています。

そうした中で個人的に面白いと思ったのは、LLMを使って新材料を発見したという論文です。 GPT−4から予測された実験条件を人間が実際に試し、その結果をGPT-4にフィードバックするループを通じて、これまで報告のない金属有機構造体（MOF）を合成できたという内容で、LLMが予測した材料をきちんと合成して確認した報告はこれが初めてではないかと思います。 MOF×LLMの論文は他にもいくつかあり、テキスト表現ができるMOFはLLMとの相性がいいのかなと思いました。

投稿失敗してたので再投稿。

言語モデルにより新材料を発見した論文。

GPT-4を使って提案された合成条件から実験、その結果をプロントベースでフィードバックするループにより新しいMOFを発見できたそうです。

ついに言語モデルで新材料合成の報告が！MOF界隈は言語モデル活用が進んでる。 https://t.co/cMBkZCouxu
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) October 7, 2023

生成AIによる結晶構造予測

この1年で大幅に増加したと感じたのが生成AIを用いた結晶構造予測の論文です。

結晶構造予測とは、元素種とその比率から結晶構造を予測することで、未知材料の発見のためにとても重要な技術です。例えば周期表からTiとOを1:1の比率で合成しようとする場合、それがどのような物性を持つか実験をする前に知る、つまり第一原理計算や機械学習により材料の物性を予測する際にはその「構造」の情報が必要になります。通常は実験のデータベースなどから構造ファイルを取得して計算しますが、まだ発見されていない物質の構造ファイルは収録されていないため、そうした未知の物質を予測することは困難です。結晶構造予測は「バーチャル空間上における材料合成」であり、これによりこうした課題が解決され、実際に合成する前に良い材料を知ることができるので効率的な材料探索を実現できると期待されています。

これまでは遺伝的アルゴリズムを使って最安定な構造へ最適化する手法がよく使われてきましたが、2018年ごろに敵対的生成ネットワーク（GAN）や変分オートエンコーダ（VAE）などの生成AIを使った手法が提案されて以降、この分野の研究者人口が増加し、今年のMRSでも多くの発表がありました。

そうした中で個人的に面白いと思ったのは、Microsoftさんが拡散モデルにより大規模な結晶構造データを学習した論文です。ポイントは学習データの数で、これまでは限られた系の数万データだったのが、さまざまな元素種を使った100万もの大規模なデータで学習していることが予測精度につながっていると思います。こうした生成AIを使うことで、従来より予測精度が高くなるだけでなく、物性から構造を推定する逆設計を実現できることが期待されており、複数の逆設計のタスクに成功している点も興味深いです。ただ、現実ではありえない構造が多く生成される点などが現状は課題であり、どこまで進化するか楽しみです。

Microsoftさん本気の結晶構造予測モデルが登場！

100万件の大規模データベースを使って元素種・格子定数・原子位置の拡散モデルを構築。

従来より高精度予測できるだけでなく物性や空間群を指定した予測や相図探索など逆設計も実証しておりすごいです。

課題は低対称構造を生成しやすい点とのこと。 https://t.co/Z7gG4Kpb1r
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) December 11, 2023

マルチモーダルAI

今年よく見たキーワードが「マルチモーダル」です。

マルチモーダルAIとは、異なる種類の情報をまとめて扱うAIのことを指します。例えば、分子を表現する際には、テキスト形式、グラフ形式、画像形式、あるいはスペクトル形式など、いくつかの種類の情報があります。こうした異なる種類の情報から1つのAIを学習させ、多様で複雑な分子の情報を捉えることで、予測精度の向上や現実の複雑なタスクの処理が期待されています。特にテキスト表現ができ言語モデルとの相性が良い分子材料を対象に、いくつかのマルチモーダルモデルが提案されており、IBMさんなどが積極的に推進されている印象です。

以下の論文では、分子のテキスト情報、グラフ情報、画像情報を扱えるLLMを構築し、分子構造の認識や物性予測、分子生成の3つのタスクを行ったところ従来より10〜20％予測精度が向上したとのことで、マルチモーダルAIの可能性を感じました。こうした潮流は今後、分子材料から結晶材料にも訪れると予想しています。

分子のためのマルチモーダルAIの論文。

文字列・グラフ・画像・テキストなど様々な分子の入力情報を一度に処理できるマルチモーダルモデルが登場、分子生成や分子物性予測において従来の言語モデルより高精度に予測が可能だそうです。

MIでもマルチモーダルAIのブーム到来？https://t.co/dafAXYNjB9 pic.twitter.com/YMLsenmq81
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) August 18, 2023

機械学習による分子動力学法の代替

最後は、分子動力学（MD）計算を使わずに機械学習で原子分布を予測したMicrosoftさんの論文です。この論文はアプローチが画期的で、手法も作り込まれていて、個人的に2023年で一番面白かった論文でした。

MD法は原子の物理的な動きの時間経過を計算する手法であり、材料だけでなく創薬分野のシミュレーションにおいても最も使われる手法の一つです。近年は機械学習ポテンシャルを用いることでどんな材料でも高速かつ高精度に分子動力学ができるようになり、今年も毎日のようにその応用論文を目にしました。しかし、機械学習ポテンシャルを用いても平衡状態まで到達するのにはまだ時間がかかります。

そこで、Transformerをベースとしたグラフ学習手法にアニーリングの考え方を導入することで、高速に原子分布を予測できたそうです。ポイントは、高温から低温になるにつれ原子分布が局在化するアニーリングにヒントを得て、拡散過程としてこれを考慮し平衡分布に近似するように予測した点です。また学習データを集めるところも物理学情報に基づく拡散事前学習という新たな手法で効率化しています。

これによりタンパク質のコンフォメーション分布や触媒表面への分子吸着分布などの多様なタスクにおいて、MD計算では10年かかるのが10日でできるようになったそうです。さらに逆設計ができることも実証しており、バンドギャップなどの物性を入力することでそれを実現する結晶構造も予測できるとのこと。

細かいところも読み応えがあり、学ぶことが多く、一読の価値があります。このようなMD計算の代替は今後トレンドの一つになるのではないかと感じました。

機械学習による原子分布の予測

実世界では動く原子の平衡分布が観測値となり、これが計算が合わない要因の一つ。

MicrosoftさんがGraphomerによりMDなしで平衡分布を予測、タンパク質・触媒だけでなく逆設計の構造予測まで応用できたそうです。

応用範囲広すぎのすご手法。https://t.co/PpSCAwCL7H pic.twitter.com/zZbyl5r8NQ
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) June 16, 2023

以上です、2024年はどんな面白いマテリアルズ・インフォマティクスの研究成果が報告されるのか、楽しみです。

惜しくも落選その１

上記の５本を選ぶ際に悩んだ論文の一つ目は、量子アニーリングを結晶構造予測に応用した論文です。

量子アニーリングは、量子ゆらぎを用いた過程によって組合せ最適化処理を高速かつ高精度に実行すると期待されている計算技術です。量子アニーリングは量子コンピュータだけでなく、古典コンピュータ上でも計算することができるため、材料科学においても量子アニーリングを用いてプロセス条件の最適化に成功したといった報告を国内企業でももよく目にしました。

この論文は、結晶構造をメッシュに区切り、そのメッシュに原子を配置するなら1、配置しないなら0と割り振ることで、結晶構造を整数計画問題に落とし込み、この問題を量子アニーリングを使って高速に解くという内容です。ただ結晶構造予測手法という意味では、対称性に制約がある点は大きな課題ではあります。その点を鑑みると上記の生成AIを使った手法の方が現実的ではありますが、結晶構造を整数計画問題に落とし込むような思考は見習いたいと思いました。

Optimality guarantees for crystal structure predictionhttps://t.co/c8Yyf0QIZ2
「組み合わせ最適化と連続最適化を組み合わせて、単位胞内の未知の原子位置をすべて見つけるアルゴリズムにより、エネルギーを保証しながら結晶材料の構造を予測」
最強の結晶構造予測法でNature来たな
— 部品（森七菜） (@tjmlab) July 5, 2023

ちなみに我々も同じく量子アニーリングを使って合金系の結晶構造予測をしておりますので、ご興味があればこちらもぜひご覧ください。

なお我々の量子技術×構造予測（固溶体）の研究とも似てまして、比較すると

・エネルギーは第一原理計算から算出（nature論文ではクーロン力のみ）
・2種の原子配置を離散最適化（nature論文では空孔を含む3〜5種）
・連続最適化なし

が異なる点です。 https://t.co/xnS4dNa5vV
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) July 9, 2023

惜しくも落選その２

上記の５本を選ぶ際に悩んだ論文の二つ目は、深層シンボリック回帰により物理法則を発見する論文です。

機械学習としてよく使われるニューラルネットワークは非常に柔軟であるため、さまざまな物理式をモデル化できる一方、物理的な解釈が困難という課題があります。よってこの分野ではシンプルで解釈可能なシンボリック回帰が注目されています。これを深層強化学習と組み合わせることで、左辺と右辺で単位が揃わないと成り立たないといった物理的な制約下で最適化ができ、特殊相対性理論の粒子のエネルギー式など単純な物理式から複雑な物理式まで導出できたそうです。

材料科学においても解釈可能性や制約を考慮した最適化は重要なので、こうした手法は面白いなと思いました。深層強化学習を用いた最適化が流行ってきていますね。

機械学習により物理法則を導く論文。

方程式は左辺と右辺で単位が揃わないと成り立たない、という制約をRNNで学習。

これにより従来は予測できなかった特殊相対性理論の粒子のエネルギー式などを正確に予測できたそうです。

制約を学習するアプローチは色々役に立ちそう。https://t.co/Ev55EBPJmH pic.twitter.com/IrDkBX7ub2
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) March 10, 2023

番外編その１

番外編その１は、個人的に試してみたくなった以下の論文。この法則は知らなかったです。

機械学習により結晶構造の謎に迫る論文。

データベースにある無機材料を原子数ごとに並べると4の倍数の構造が異様に多い「４の法則」を発見。

その謎を機械学習により解析、エネルギーや空間群とは相関がなく、局所構造がカギとわかったそうです。

この研究やってみたい。https://t.co/DBOWfBwBsr pic.twitter.com/gltWf8m0w0
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) July 31, 2023

番外編その２

番外編その２は、結晶材料の表現方法のレビュー論文。材料の表現方法の進化がMIの進化であるといっても過言ではなく、材料科学者が考えるべきことがこの先にあると個人的には思うのでオススメです。

機械学習のための材料の表現方法に関するレビュー論文。

材料の特徴を数値化する手法の進化により機械学習の予測精度は向上してきました。

局所・大域の特徴を両立する表現手法、緩和なしの物性予測手法などが今後注目とのこと。

面白かった、結晶の人には一読の価値あり。https://t.co/r8n0v66occ pic.twitter.com/ZRMAl9DDgw
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) January 26, 2023

番外編その３

番外編その３は、言語モデル×化学・創薬のレビュー論文。今読んでおきたい一本です。

化学・創薬×言語モデルのレビュー論文。

言語モデルによる回帰分類・分子生成・反応予測の精度向上、スペクトルやテキストなど入出力形式の多様化、自ら思考し実験する自律型ラボの実現、の観点で研究例がまとまっています。

MI分野の2023年を表すレビューですね。https://t.co/bgQf6740Y8 pic.twitter.com/zlRd7QSGIb
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) October 17, 2023

番外編その４

番外編その４は、物理情報付きニューラルネットワーク（PINN）のレビュー論文。この分野も毎日にように論文を目にしますが、それが僕のような素人にもわかりやすくまとめられていてありがたかったです。

機械学習により偏微分方程式を解くためのレビュー論文。

物理シミュレーションの高速化のためにNNで様々な偏微分方程式を解く手法がまとまっています。

学習に大量のデータが必要かつ時間がかかることなどがまだ課題みたい。

とはいえ商業ソフトにもそろそろ実装される？https://t.co/yVpvuUb0bg pic.twitter.com/zVNlNBXEIF
— 横山トモヤス｜計算材料科学者 (@yoko_materialDX) September 21, 2023