最新目录

面向功能材料属性预测的机器学习方法初探(2)

来源:功能材料与器件学报 【在线投稿】 栏目:期刊导读 时间:2021-04-02
作者:网站采编
关键词:
摘要:1 研究方法 由于传统手工筛选可能HOIP结构表现耗时耗力,为有效提升功能材料结构的挖掘过程,提出了基于ML和DL技术的统计模型方法通过优化预测得到一

1 研究方法

由于传统手工筛选可能HOIP结构表现耗时耗力,为有效提升功能材料结构的挖掘过程,提出了基于ML和DL技术的统计模型方法通过优化预测得到一种高精度的HOIP带隙的紧密性结构-性质关系,进而发现影响理想HOIPs太阳能电池性能的因素.这一部分将从总体设计框架、传统ML模型、DL模型以及模型推断和验证介绍.

1.1 总体设计框架

基于传统ML和DL技术的方法框架总体流程图如图1所示,具体而言,总体设计包括三部分:输入HOIPs数据,ML算法以及DFT计算.正如传统ML方法,由于所采集的HOIP数据特征包含大量冗余的特征,因此在训练和预测HOIPs时如何提取和描述其特征表示是ML训练和测试中的核心步骤.当特征被准确选择时,即通过五折交叉验证从中选出最优的超参数搜索HOIPs.随后将训练好的ML模型用于数据预测.最终将DFT计算研究和验证ML模拟的结果.

图1 总体流程图

1.2 传统ML模型

采用ML常用技术手段——梯度boosting回归(Gradient boosting regression, GBR),是一种非参数化的统计机器学习回归模型,该模型用于预测未知的HOIP的带隙参数.该模型核心思想是通过学习一组弱回归器从而单独使用弱回归器的预测性能,该模型在训练过程依次学习每个弱回归器,进而利用求和模型加强模型预测和建模能,其数学表达式如下所示:

其中m表示训练迭代次数,x表示输入数据,θm表示模型参数向量的分布.整个ML模型共训练M次,每次训练产生一个弱回归函数T.弱分类器的损失函数定义如下:

其中Fm-1(xi)代表当前模型,GBR用于通过最小经验损失确定下一个弱分类器的参数.采用的传统ML方法基于分析小样本数据计算DFT进而验证ML模型的预测能力.

1.3 DL模型

传统ML(手工特征+线性回归器)方法有两方面不足:1)手工特征性能对于不同域分布的数据表现过于敏感,因此特征工程需要大量的先验知识且耗时耗力;2)传统线性回归函数表达能力有限,故难以直接对原始数据和预测目标属性准确建模.为解决上述问题,DL被研究者通过采用多层神经网络结构有效地对数据和目标标签之间复杂的非线性关系建模.除此之外,由于深度神经网络强大的非线性建模能力,故在大规模数据中基于深度学习的分类识别任务表现尤为突出.综上所述,DL能够被应用于功能材料性能预测任务,并且其优势在于特征工程不再依赖于繁琐的手工设计过程和大量的功能材料专业先验知识.而只是将已有标注数据作为神经网络的输入,并通过优化算法更新网络参数至收敛,最终得到最优的参数解.如图2 所示,基于2.2节所述传统ML框架,式(1)重新定义为

FK(x)=f1°f2°…°fk(σ(WTx+b))

同时,损失函数式(2)形式化为

图2 深度神经网络结构示意图

其中f表示单层神经网络,K代表网络层数.W和b分别代表需要更新学习的网络参数权值和偏置.σ(·)表示非线性的激活函数,这样使得多层网络具有复杂强大的非线性表示能力.f1°f2表示网络嵌套,即将f1的网络输出作为f2的输入.优化式(4)中的网络参数,通常采用反向传播(BP)随机梯度下降方法[13-14],进而迭代更新参数W和b,再根据式(4)给出两组更新公式如下所示:

其中k对应网络第k层参数W和b,ρ为模型优化学习率,即控制整个网络学习收敛速率.

1.4 模型推断和验证

所述ML和DL方法中的关键是选择合适的ML算法.目前,常用预测的ML回归算法包括诸如上述提到的GBR、人工神经网络(Artificial neural networks,ANN)、基于核的岭回归(Kernel ridge regression,KRR).这些回归方法能够提供材料属性预测的DFT 精度.在本节给出了GBR和DL(同ANN)两种基于ML的回归策略用于材料性能预测([7]文中给出多种回归方式:支持向量回归、高斯过程回归、决策树回归以及多层感知器回归).具体而言,在所有数据里选出一部分子集作为训练集,训练好模型之后将该模型用于预测剩余数据从而选择有效统计ML/DL模型.为验证训练模型在测试集上的性能表现,文献[7]同时给出了三种评价预测误差准则:1)决定系数;2)Pearson系数;3)均方差.利用上述三项评价指标验证所采用ML\DL统计模型训练收敛性和泛化能力(泛化能力是指统计ML模型在训练集和测试集的性能表现,表现一致表明泛化能力).

2 实验数据集和实验设置

本部分介绍ML模型的数据准备和特征选择的技术策略细节.

2.1 实验数据集

文章来源:《功能材料与器件学报》 网址: http://www.gnclyqjxb.cn/qikandaodu/2021/0402/656.html



上一篇:壳聚糖基生物医用材料研究新进展
下一篇:从政务新媒体属性视角探究政务微信建设路径以

功能材料与器件学报投稿 | 功能材料与器件学报编辑部| 功能材料与器件学报版面费 | 功能材料与器件学报论文发表 | 功能材料与器件学报最新目录
Copyright © 2019 《功能材料与器件学报》杂志社 版权所有
投稿电话: 投稿邮箱: