新浪财经

【专家视角】哈工大任南琪院士团队贺诗欣ES&T:可解释机器学习助力污染物导向的端到端碳催化高级氧化新模式探索

市场资讯 2024.09.01 06:02

第一作者:王汝鹏 博士生;

共同一作:陈宏林 硕士生

通讯作者:贺诗欣 教授

通讯单位:哈尔滨工业大学环境学院;城市水资源与水环境国家重点实验室

论文DOI:10.1021/acs.est.4c04714

图片摘要

成果简介

近日,哈尔滨工业大学任南琪院士团队贺诗欣教授在环境领域著名学术期刊Environmental Science & Technology上发表了题为“Discovery of an End-to-End Pattern for Contaminant-Oriented AdvancedOxidation Processes Catalyzed by Biochar with Explainable Machine Learning”的论文。该研究将机器学习(ML)方法应用于开发污染物导向的端到端碳催化高级氧化新模式,旨在优化新兴污染物的降解过程,加快处理速度并指导定向碳催化剂的设计。为了实现这一目标,研究团队首先收集并构建了一个针对生物炭催化过硫酸盐高级氧化的专用数据集。随后,通过分层回归模型,将新污染物特性、催化反应条件和生物炭催化剂材料特性与反应速率常数(k)关联起来,精准预测不同新污染物的降解效果。此外,研究还创新性地将K均值聚类与可解释的机器学习工具结合,优化目标污染物的生物炭催化设计和反应策略。最后,通过分子指纹分析,提出了针对不同新污染物的量化端到端降解模式,提供了污染物导向的优化策略。这项研究为新污染物碳催化高级氧化的全过程优化提供了新范例,拓展了机器学习技术的应用场景,并促进了高级氧化技术在应对新型污染物挑战方面的广泛应用

摘要

生物炭催化过氧硫酸盐高级氧化过程(BC-PMS AOPs)被广泛认为是有效且经济的去除新兴污染物(ECs)方法。最新的机器学习(ML)技术被用于精确预测ECs在BC-PMSAOPs中的反应速率常数,主要涉及性能预测、操作条件优化和机制解释。然而,其在针对不同ECs进行降解优化中的实际应用较少,限制了污染物导向的BC-PMS AOPs的实现。为解决这一问题,我们提出了一个分层机器学习管道,实现端到端(E2E)模式。此研究不仅加深了我们对污染物导向AOPs优化的理解,也成功缩小了ML模型开发与其环境应用之间的差距

图文导读

为了实现基于机器学习的E2E模式,研究团队建立了一个回归模型,旨在预测ECs在BC-PMS AOPs中的lg k值。根据机器学习中的“无免费午餐”理论,因此本研究训练了四种不同复杂度的机器学习模型(XGB、RFR、SVR和NN)来适配EC-AOP数据集。该数据集涵盖了BC-PMS AOPs优化前端的所有相关信息。通过8折交叉验证确定了各模型的最优超参数,避免过拟合并增强模型的鲁棒性。图1 a-d展示了各模型的真实值与预测值对比。结果显示,XGB模型的训练集和测试集R2值分别为0.996和0.841,对应的RMSE值为0.033和0.193,性能优于RFR、SVR和NN模型。因此,XGB模型被认为是构建E2E模型的最佳选择,有效捕捉ECs特性、反应条件、BC特性与k之间的复杂关系,进而实现污染物导向的BC-PMS AOPs中的E2E模式。

  • Figure 1. Predictiveperformance of (a) XGB, (b) RFR, (c) SVR, and (d) NN to predict lg k forvarious ECs in BC-PMS AOPs. The blue dashed lines represent the line ofequality (y = x), while the gray solid lines are the fitted lines for thetesting sets. (e) Framework diagram for contaminant- orientated hierarchicalanalysis of end-to-end (E2E) models.

尽管训练的E2E模型在预测k值方面表现出较高准确性,但其“黑箱”特性限制了构建污染物导向BC-PMSAOPs的E2E模式。为破解这一问题,研究团队采用污染物导向的分层分析,揭示了E2E模型中的关键信息。结果显示,污染物特征在k值预测中起重要作用,尤其是VIP和Gap两个分子指纹。进一步分析表明,去除污染物指纹后模型准确性显著下降,显示了其重要性,需进一步研究以优化E2E模式。为解决上述问题,我们利用K均值聚类将41种ECs进行分类,并对每类进行建模和分析,建立E2E模型的二级系统。通过轮廓系数确定最佳聚类数为2类:一类ECs具有较低的VIP、Gap和HN值,称为易降解类(E2D);另一类则具有较高值,称为难降解类(H2D)。H2D主要包括酚类和磺胺类,化学结构稳定,不易氧化;E2D则包括四环素和喹诺酮类,结构复杂,反应位点更多。随后,通过XGB算法训练了E2D和H2D模型,两者在k值预测中表现良好,测试集R2分别为0.835和0.805。这表明这些子模型能够准确模拟不同ECs的降解动态,助力污染物导向的BC-PMS AOPs的E2E模式构建。

Figure 2. (a)Three-dimensional (3D) scatterplot based on K-means clustering to classify ECsinto hard-to-degrade (H2D) and easy-to-degrade (E2D) contaminants. (b) Boxplotswith EC properties (VIP, Gap, and HN) for E2D and H2D. Predictive performanceof XGB model for predicting lg k based on (c) E2D-AOP data set and (d)H2D-AOP data set. The blue dashed lines represent the line of equality (y = x),while the gray solid lines are the fitted lines for the testing sets.

为了充分探索面向污染物的E2E模式,我们使用PDPs和ICE子图分析了E2D和H2D子模型的重要特征对k值的影响。对于E2D模型,BC-C和PMS-C是最有影响的两个特征。PDPs显示,随着BC和PMS浓度的增加,k值上升,但在500 mg/L以上时上升趋势明显减缓。这表明,通过增加BC-C和PMS-C可以提高E2Ds的降解效率,但存在边际效应。因此,优化催化剂和氧化剂的剂量是处理E2Ds的主要方法。对于H2D模型,特征重要性分析显示T和SSA是最重要的特征,而BC-C和PMS-C的影响较小。PDPs显示,当T在800–900 °C范围内时,k值较高;随着SSA增大到600 m²/g,k值逐渐上升,并在超过600 m²/g后呈指数增长。这表明T和SSA对提升H2D的k值有显著正面影响。由于T和SSA的强相关性,建议优先增加T以提升k值,其次再考虑增加SSA,而不应只关注增加BC或PMS的用量。

为了制定最终的E2E模式,我们通过2D PDPs分析了四个关键特征(PMS-C、BC-C、T和SSA)对k值的贡献变化,并将初步优化策略投射到ECs的能隙区间中。对于Gap值在3.17至3.65 eV的ECs,建议优化PMS浓度;3.65至4.64 eV的ECs建议优化BC浓度。对于Gap值在4.64至5.25 eV的H2Ds,建议优化T;超过5.25 eV的ECs则优化BC的SSA,以提升降解效率。

Figure 3. Featureimportance ranking based on Shapley values (SHAP) for the (a) E2D model and the(d) H2D model. Partial dependency plots (PDPs) with individual conditionalexpectation (ICE) subplots for the two most important features of the (b) E2Dmodel (BC-C and PMS-C) and the (e) H2D model (SSA and T). (c) Two-dimensional(2D) PDPs for BC-C and PMS-C of the E2D model. (f) Histogram of T and SSA toelucidate the correlation between T and SSA. (g) Summary diagram of the E2Eoperating pattern for achieving contaminant-oriented BC-PMS AOPs.

      为了验证通过机器学习工具获得的E2E模式,我们选择了四种常见的有机污染物(EC)作为实验对象:E2D中的四环素(TC)和环丙沙星(CIP),以及H2D中的磺胺甲恶唑(SMX)和双酚A(BPA)。它们的能隙顺序为BPA > SMX > CIP > TC,反映了它们的降解难度。实验结果显示,E2D在常规反应条件下可以有效处理,而H2D对氧化反应的抵抗性较强。随后,我们根据E2E模式优化了H2D的BC性能,以BPA为目标污染物,合成了高温处理的BC900和盐熔处理的SBC900,并以BC500为对照进行比较。实验表明,BC900和SBC900分别将BPA的降解速率常数k从0.010 min¹提高到0.037 min¹和0.167 min¹,验证了E2E模式的有效性。BC900和SBC900的比表面积(SSA)显著增加,SEM显示SBC900表面形成了多孔结构,证明了BC样品的成功优化。接下来,我们使用H2D模型预测了BC500、BC900和SBC900三种不同BC对BPA降解的k值,预测误差均在15%以内。使用SHAP的力图功能解释了每个样本的预测机制,显示BC500的关键特征为SSA、T和EC-C,均对k值有负面影响,证实了SSA和T需要改进。对于BC900,Id/Ig、T和EC-C是最重要的特征,其中Id/Ig的增加对k值有正面影响。SBC900中SSA的显著增加成为最重要的特征,表明提高BC的SSA对H2D降解效率至关重要。最终,我们通过实验验证了E2E模式在BC-PMS AOPs中的准确性和实用性,特别是通过控制T和提高SSA有效提升了H2D的k值。

Figure 4. (a) Degradation performance of BC500, BC900, andSBC900 for BPA. Conditions: [BC]0 = 200 mg/L, [PMS]0 = 500 mg/L, and [BPA]0 =20 mg/L. (b) SSA of BC500, BC900, and SBC900 from the BET. (c) SEM micrographof the SBC900. (d) Actual and predicted values of BC500, BC900, and SBC900 withthe developed H2D model. (e) Force plots for BC500, BC900, and SBC900.

小结

本研究通过应用分层模型,构建了实现高效、污染物导向的BC-PMS高级氧化工艺(AOPs)的端到端(E2E)操作模式,填补了研究空白。我们首先总结并构建了专门的EC-AOP数据集,涵盖反应条件、BC特性和EC属性。通过训练预处理后的EC-AOP数据集,XGB模型表现出最高的预测准确性,因此可用于污染物导向的k值预测。我们使用K-means聚类将EC分类为E2D和H2D,建立了初步的E2E模式框架。通过SHAP和PDP技术对E2D和H2D进行解释性分析,最终得出了污染物导向的E2E模式,并提出了针对不同能隙EC的操作策略。实际实验验证了该模式在提高EC去除效率方面的显著效果。总结而言,我们不仅引入了一个用户友好的AOPs优化模型,还成功地将ML模型的开发与实际应用联系起来,虽然面临一定局限性,如工业应用的适应性和高k值样本预测的不足,未来研究应着重于提升模型性能并应用于更复杂的废水处理场景

作者简介

通讯作者:贺诗欣(Shih-Hsin Ho), 国家高层次人才,现任职于哈工大环境学院,并担任国合基地副主任。近年来,主持并参与了包含中组部、基金委、科技部等项目共15项。主要从事藻菌废水处理与藻渣资源化、及环境功能材料开发等相关领域的研究。在Nat. Water, Nat. Biomed. Eng., Environ. Sci. Technol.,Water Res.等发表SCI论文300余篇。总引用23000余次(GoogleScholar),H index为84 (GoogleScholar),30余篇高被引论文。连续多年入选世界前2%科学家终身榜单并入选科睿唯安(Clarivate)全球高被引科学家和爱思唯尔(Elsevier)中国高被引学者等。拥有授权发明专利10余项,开展成果转化应用多项。现担任中组部、教育部、科技部、基金委和国内外高校人才评审专家等,并担任Environ. Sci. Ecotechnol., J. Hazard. Mater., Chin. Chem. Lett.等期刊副主编、编委或客座编委。

第一作者:王汝鹏,哈尔滨工业大学2022级博士研究生。主要研究方向为环境功能材料开发、大数据挖掘及量子化学理论计算等。近年来,以第一作者或共同作者身份在Environ. Sci. Technol.,Water Res., Chem.Eng.,J., ACS EST Engg., Sci. Total Environ.等国际著名期刊上发表SCI论文7篇。

共同一作:陈宏林,哈尔滨工业大学2022级硕士研究生。主要研究方向为环境功能材料开发、大数据挖掘等。曾获得国家奖学金、中国研究生“双碳”创新与创意大赛三等奖等奖励。

(生态修复网)

(转自:生态修复网)

加载中...