Tomoyasu Yokoyama Material Scientist's Pages

2023年の読んでおきたいマテリアルズ・インフォマティクス論文5選

2023年もマテリアルズ・インフォマティクス(MI)の論文紹介を続けることができました。昨年に引き続き、今年も備忘録のために個人的注目論文を5本書き留めておきます。

大規模結晶材料データベース

2023年に発表された論文の中で最も読んでおくべきと思ったのは、やはりDeepMindさんが計算で38万もの合成可能性の高い材料を予測したものです。

これまでに計算によって熱力学的に安定とされた材料は高々数万件しかなかったのに対し、この論文によって材料データ空間が1桁広がったのはすごいです。 僕はボストンで開催された2023 MRS fall meetingにてこの発表を立ち見で聞いていたのですが、投影された数字を見て「?」となりました。

この論文ではブレークスルー技術が明確にあったわけではなく、「こんなことができればいいなぁ」と誰しもが思い描いていた内容であったと思いますが、それをちゃんと組み上げたところと、膨大なコストとマシーンパワーをかけて動かしたところがすごいと思います。 泥臭い作業を含め、様々なご苦労があったことと推察しますが、それを乗り越えてここまでの形に仕上げられる組織はほとんどないのではないでしょうか。 とはいえやるべきことはまだまだあり、例えば報告のない未知構造はあまり考慮されていない点、第一原理計算での予測が困難なランタノイドを含む化合物が多い点などの課題はあると個人的には思いました。

結晶材料というニッチな分野において、データで殴られるような時代が来るとは数年前までは想像できませんでしたが、今後はこの論文を無視した研究開発はできないという意味でも、ダントツ1位で読んでおきたい論文です。

大規模言語モデル

「生成AI」が流行語大賞になったように、2023年はChatGPTに代表される大規模言語モデル(LLM)が躍進した年でした。 材料科学分野においてもLLMを用いた論文を毎日のように目にしました。

材料科学分野におけるLLMの主な使われ方としては、

  • 論文や特許から材料データ収集
  • これまでの機械学習モデル代替(物性・構造・反応経路予測など)
  • 自動・自律型実験システム構築(実験設計・ロボット制御など)

などが挙げられます。 特に自動・自律実験とLLMの組み合わせは注目度が高く、MIの課題の一つであるリアルとバーチャルのギャップを埋めることができると期待しています。

そうした中で個人的に面白いと思ったのは、LLMを使って新材料を発見したという論文です。 GPT−4から予測された実験条件を人間が実際に試し、その結果をGPT-4にフィードバックするループを通じて、これまで報告のない金属有機構造体(MOF)を合成できたという内容で、LLMが予測した材料をきちんと合成して確認した報告はこれが初めてではないかと思います。 MOF×LLMの論文は他にもいくつかあり、テキスト表現ができるMOFはLLMとの相性がいいのかなと思いました。

生成AIによる結晶構造予測

この1年で大幅に増加したと感じたのが生成AIを用いた結晶構造予測の論文です。

結晶構造予測とは、元素種とその比率から結晶構造を予測することで、未知材料の発見のためにとても重要な技術です。 例えば周期表からTiとOを1:1の比率で合成しようとする場合、それがどのような物性を持つか実験をする前に知る、つまり第一原理計算や機械学習により材料の物性を予測する際にはその「構造」の情報が必要になります。 通常は実験のデータベースなどから構造ファイルを取得して計算しますが、まだ発見されていない物質の構造ファイルは収録されていないため、そうした未知の物質を予測することは困難です。 結晶構造予測は「バーチャル空間上における材料合成」であり、これによりこうした課題が解決され、実際に合成する前に良い材料を知ることができるので効率的な材料探索を実現できると期待されています。

これまでは遺伝的アルゴリズムを使って最安定な構造へ最適化する手法がよく使われてきましたが、2018年ごろに敵対的生成ネットワーク(GAN)や変分オートエンコーダ(VAE)などの生成AIを使った手法が提案されて以降、この分野の研究者人口が増加し、今年のMRSでも多くの発表がありました。

そうした中で個人的に面白いと思ったのは、Microsoftさんが拡散モデルにより大規模な結晶構造データを学習した論文です。 ポイントは学習データの数で、これまでは限られた系の数万データだったのが、さまざまな元素種を使った100万もの大規模なデータで学習していることが予測精度につながっていると思います。 こうした生成AIを使うことで、従来より予測精度が高くなるだけでなく、物性から構造を推定する逆設計を実現できることが期待されており、複数の逆設計のタスクに成功している点も興味深いです。 ただ、現実ではありえない構造が多く生成される点などが現状は課題であり、どこまで進化するか楽しみです。

マルチモーダルAI

今年よく見たキーワードが「マルチモーダル」です。

マルチモーダルAIとは、異なる種類の情報をまとめて扱うAIのことを指します。 例えば、分子を表現する際には、テキスト形式、グラフ形式、画像形式、あるいはスペクトル形式など、いくつかの種類の情報があります。 こうした異なる種類の情報から1つのAIを学習させ、多様で複雑な分子の情報を捉えることで、予測精度の向上や現実の複雑なタスクの処理が期待されています。 特にテキスト表現ができ言語モデルとの相性が良い分子材料を対象に、いくつかのマルチモーダルモデルが提案されており、IBMさんなどが積極的に推進されている印象です。

以下の論文では、分子のテキスト情報、グラフ情報、画像情報を扱えるLLMを構築し、分子構造の認識や物性予測、分子生成の3つのタスクを行ったところ従来より10〜20%予測精度が向上したとのことで、マルチモーダルAIの可能性を感じました。 こうした潮流は今後、分子材料から結晶材料にも訪れると予想しています。

機械学習による分子動力学法の代替

最後は、分子動力学(MD)計算を使わずに機械学習で原子分布を予測したMicrosoftさんの論文です。 この論文はアプローチが画期的で、手法も作り込まれていて、個人的に2023年で一番面白かった論文でした。

MD法は原子の物理的な動きの時間経過を計算する手法であり、材料だけでなく創薬分野のシミュレーションにおいても最も使われる手法の一つです。 近年は機械学習ポテンシャルを用いることでどんな材料でも高速かつ高精度に分子動力学ができるようになり、今年も毎日のようにその応用論文を目にしました。 しかし、機械学習ポテンシャルを用いても平衡状態まで到達するのにはまだ時間がかかります。

そこで、Transformerをベースとしたグラフ学習手法にアニーリングの考え方を導入することで、高速に原子分布を予測できたそうです。 ポイントは、高温から低温になるにつれ原子分布が局在化するアニーリングにヒントを得て、拡散過程としてこれを考慮し平衡分布に近似するように予測した点です。 また学習データを集めるところも物理学情報に基づく拡散事前学習という新たな手法で効率化しています。

これによりタンパク質のコンフォメーション分布や触媒表面への分子吸着分布などの多様なタスクにおいて、MD計算では10年かかるのが10日でできるようになったそうです。 さらに逆設計ができることも実証しており、バンドギャップなどの物性を入力することでそれを実現する結晶構造も予測できるとのこと。

細かいところも読み応えがあり、学ぶことが多く、一読の価値があります。このようなMD計算の代替は今後トレンドの一つになるのではないかと感じました。

以上です、2024年はどんな面白いマテリアルズ・インフォマティクスの研究成果が報告されるのか、楽しみです。

惜しくも落選その1

上記の5本を選ぶ際に悩んだ論文の一つ目は、量子アニーリングを結晶構造予測に応用した論文です。

量子アニーリングは、量子ゆらぎを用いた過程によって組合せ最適化処理を高速かつ高精度に実行すると期待されている計算技術です。 量子アニーリングは量子コンピュータだけでなく、古典コンピュータ上でも計算することができるため、材料科学においても量子アニーリングを用いてプロセス条件の最適化に成功したといった報告を国内企業でももよく目にしました。

この論文は、結晶構造をメッシュに区切り、そのメッシュに原子を配置するなら1、配置しないなら0と割り振ることで、結晶構造を整数計画問題に落とし込み、この問題を量子アニーリングを使って高速に解くという内容です。 ただ結晶構造予測手法という意味では、対称性に制約がある点は大きな課題ではあります。 その点を鑑みると上記の生成AIを使った手法の方が現実的ではありますが、結晶構造を整数計画問題に落とし込むような思考は見習いたいと思いました。

ちなみに我々も同じく量子アニーリングを使って合金系の結晶構造予測をしておりますので、ご興味があればこちらもぜひご覧ください。

惜しくも落選その2

上記の5本を選ぶ際に悩んだ論文の二つ目は、深層シンボリック回帰により物理法則を発見する論文です。

機械学習としてよく使われるニューラルネットワークは非常に柔軟であるため、さまざまな物理式をモデル化できる一方、物理的な解釈が困難という課題があります。 よってこの分野ではシンプルで解釈可能なシンボリック回帰が注目されています。 これを深層強化学習と組み合わせることで、左辺と右辺で単位が揃わないと成り立たないといった物理的な制約下で最適化ができ、特殊相対性理論の粒子のエネルギー式など単純な物理式から複雑な物理式まで導出できたそうです。

材料科学においても解釈可能性や制約を考慮した最適化は重要なので、こうした手法は面白いなと思いました。深層強化学習を用いた最適化が流行ってきていますね。

番外編その1

番外編その1は、個人的に試してみたくなった以下の論文。 この法則は知らなかったです。

番外編その2

番外編その2は、結晶材料の表現方法のレビュー論文。 材料の表現方法の進化がMIの進化であるといっても過言ではなく、材料科学者が考えるべきことがこの先にあると個人的には思うのでオススメです。

番外編その3

番外編その3は、言語モデル×化学・創薬のレビュー論文。 今読んでおきたい一本です。

番外編その4

番外編その4は、物理情報付きニューラルネットワーク(PINN)のレビュー論文。 この分野も毎日にように論文を目にしますが、それが僕のような素人にもわかりやすくまとめられていてありがたかったです。