通过很少的培训 机器学习算法可以发现隐藏的科学知识


当然,计算机可以用来玩大师级国际象棋(国际象棋计算机),但他们可以做出科学发现吗?能源部劳伦斯伯克利实验室(伯克利实验室)的研究人员表明,没有材料科学培训的算法可以扫描数百万篇论文的文本并发现新的科学知识 。
由伯克利实验室能源存储和分布式资源部门的科学家Anubhav Jain领导的团队收集了330万份已发表的材料科学论文
“没有告诉任何有关材料科学的知识,它就学会了周期表和金属晶体结构等概念,”Jain说 。“这暗示了该技术的潜力 。但可能是我们发现的最有趣的事情,你可以使用这种算法来解决材料研究中的差距,这是人们应该研究但到目前为止还没有研究过的东西 。”
该研究结果发表在7月3日的“ 自然 ”杂志上 。该研究的主要作者,“无监督的词汇嵌入材料科学文献中捕获潜在知识”,现为伯克利实验室博士后研究员Vahe Tshitoyan,现在在谷歌工作 。与Jain一起,伯克利实验室的科学家Kristin Persson和Gerbrand Ceder帮助领导了这项研究 。
“该文件确定科学文献的文本挖掘可以发现隐藏的知识,纯文本提取可以建立基本的科学知识,”Ceder说,他还在加州大学伯克利分校的材料科学与工程系任命 。
Tshitoyan表示,该项目的动机是难以理解大量已发表的研究 。“在每个研究领域都有100年的研究文献,每周都有数十项研究出现,”他说 。“研究人员只能访问其中的一小部分 。我们认为,机器学习能否以无人监督的方式利用所有这些集体知识,而无需人类研究人员的指导?”
该团队从1922年至2018年间在1000多种期刊上发表的论文中收集了330万篇
“重要的不是每个数字,而是用数字来看看单词是如何相互关联的,”Jain说道,他领导一个小组,致力于发现和设计能源应用的新材料,使用理论,计算和数据挖掘 。“例如,您可以使用标准向量数学来减去向量 。其他研究人员已经证明,如果您在非科学文本源上训练算法并采用”王减去女王“的结果,那么您得到的结果与”男人减去女人“相同 。“ 它没有你告诉任何事情就找出了关系 。“
类似地,当在材料科学文本上进行训练时,该算法能够简单地基于
门捷列夫的周期表位于右侧 。Word2vec的元素表示,投影到两个维度,位于左侧 。图片来源:伯克利实验室
当每个化学元素的向量投影到两个维度时,Word2vec甚至能够学习元素周期表中元素之间的关系 。
提前几年预测发现
【通过很少的培训 机器学习算法可以发现隐藏的科学知识】因此,如果Word2vec如此智能,它能预测新型热电材料吗?良好的热电材料可以有效地将热量转换为电能,并且由安全,丰富且易于生产的材料制成 。
伯克利实验室团队采用了算法建议的顶级热电候选者,该算法根据单词矢量与“热电”一词的相似性对每个化合物进行排序 。然后他们运行计算来验证算法的预测 。
在前10个预测中,他们发现所有计算的功率因数略高于已知热电的平均值; 前三位候选者的功率因数高于已知热电材料的第95百分位数 。
接下来,他们测试了算法是否可以“过去”进行实验,只给出2000年的
结果令人惊讶 。“老实说,我没想到算法能够如此预测未来的结果,”Jain说 。“我曾经想过,也许这个算法可以描述人们之前做过的事情,但却没有提出这些不同的联系 。当我不仅看到预测而且还看到预测背后的推理时,我感到非常惊讶,例如半赫斯勒结构,这是一种非常热的电热晶体结构 。“
他补充说:“这项研究表明,如果这个算法早些时候到位,可以想象一些材料可以提前几年被发现 。” 随着研究,研究人员正在发布该算法预测的前50种热电材料 。如果他们想要搜索更好的拓扑绝缘体材料,他们还将发布人们制作自己应用所需的嵌入词 。
接下来,Jain表示,该团队正在开发一个更智能,更强大的搜索引擎,允许研究人员以更有用的方式搜索
该研究由丰田研究所资助 。其他研究合着者是伯克利实验室研究人员John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大学伯克利分校研究员Olga Kononova 。

    推荐阅读