2022年6月14日,一篇題為“Machine learning-based risk factor analysis and prevalence prediction of intestinal parasitic infections using epidemiological survey data”的機器學習研究論文發(fā)表在《PLOS neglected tropical diseases》,作者為Aziz Zafar等人。這項研究旨在將機器學習技術與傳統(tǒng)邏輯回歸相結(jié)合,分析腸道寄生蟲感染的風險因素,并預測其流行率,從而為發(fā)展中國家如埃塞俄比亞的公共衛(wèi)生決策提供支持。
先前的流行病學研究調(diào)查了各種寄生蟲病的患病率和風險因素,包括原生動物和土壤傳播的蠕蟲(STH,例如鉤蟲和蛔蟲)感染。盡管機器學習在數(shù)據(jù)分析方面取得了進展,但這些研究中的大多數(shù)仍使用傳統(tǒng)的邏輯回歸來識別重大風險因素。
這項研究基于2016年至2017年對埃塞俄比亞奧羅米亞地區(qū)學童的調(diào)查。研究獲得了孩子父母或法定監(jiān)護人的書面同意,并使用了由采訪者主導的調(diào)查問卷。總共收集了954名埃塞俄比亞學童的54種腸道寄生蟲病風險因素的調(diào)查數(shù)據(jù)。為了確保數(shù)據(jù)的完整性,我們剔除了缺乏任何一個結(jié)果變量值的樣本,共排除了12例。最終用于分析的數(shù)據(jù)集中共有942個有效的樣本。
對于每個樣本,我們將感染分為二進制(感染或未感染)的四種結(jié)果,檢測出任何一種寄生蟲標記為“感染”:任何土壤傳播的線蟲(STH):蛔蟲(A. lumbricoides)、鞭蟲(T. trichiura)、鉤蟲(A. duodenale或N. americanus)以及絲蟲(S. stercoralis);線蟲:任何線蟲寄生蟲的卵或幼蟲;原蟲:賈第鞭毛蟲(G. lamblia)或 阿米巴原蟲(E. histolytica);任何寄生蟲感染:任何原蟲或線蟲寄生蟲。
在這項研究中,使用了對954名埃塞俄比亞學童的54種腸道寄生蟲病風險因素的調(diào)查數(shù)據(jù)。研究使用了多種特征選擇方法,包括信息增益(IG)、ReliefF(ReF)、聯(lián)合互信息(JMI)和最小冗余最大相關性(MRMR)。此外,使用分類器(例如邏輯回歸(LR)、支持向量機(SVM)、隨機森林(RF)和XGBoost (XGB)預測兒童的寄生蟲感染狀況,并比較了它們的準確度和受試者工作特征曲線下面積(AUROC)得分。為了獲得最佳模型訓練,還進行了十倍交叉驗證并調(diào)整了分類器超參數(shù)。為了平衡數(shù)據(jù)集,使用了合成少數(shù)過采樣(SMOTE)方法。此外,研究還使用關聯(lián)規(guī)則學習來建立風險因素與寄生蟲感染之間的聯(lián)系。
表1列出了研究中調(diào)查的所有風險因素,包括人口統(tǒng)計學變量、社會經(jīng)濟變量、健康相關變量、環(huán)境變量和血液學變量。本研究共納入942名學童,其中54.8%(516名)為女性,55.7%(525名)居住在城市地區(qū),9.2%(87名)年齡小于6歲,43.4%(408名)介于6至10歲之間,其余兒童年齡超過10歲。79.5%(749名)的兒童接受了驅(qū)蟲治療。感染情況如下:5.1%的兒童感染了線蟲(48例),5.8%(55例)感染了原生動物,15.1%(142例)感染了任何類型的蠕蟲,20.1%(189例)感染了任何寄生蟲。
2. 特征選擇方法與邏輯回歸模型識別的風險因素比較
特征選擇方法為風險因素分析提供了新的且互補于邏輯回歸的方法。表2比較了通過特征選擇方法與邏輯回歸模型識別的風險因素。結(jié)果顯示特征選擇方法(IG、Ref、MRM、JMI)和邏輯回歸模型在識別重要風險因素方面存在一定的重疊,但也揭示了一些新的風險因素。例如,頻繁燃燒娜夫塔(nafta)、木炭、木柴和糞便在特征選擇方法中多次出現(xiàn),但在邏輯回歸模型中未被識別。一些變量如家庭中有哮喘兒童、水源、茅草屋頂、母親有花粉癥、血小板計數(shù)和養(yǎng)豬在特征選擇方法中被識別,但在邏輯回歸模型中未被識別。
圖1展示了不同分類器(LR、SVM、RF、XGBoost)在預測寄生蟲感染方面的性能。當使用聯(lián)合相互信息(JMI)考慮前20個風險因素或使用所有特征時,隨機森林(RF)和支持向量機(SVM)分類器可實現(xiàn)最高準確率。感染的最佳預測因素是社會經(jīng)濟、人口統(tǒng)計學和血液學特征。
圖2展示了不同模型(LR、SVM、RF、XGB)在預測寄生蟲感染時的ROC曲線和AUC值。RF和SVM模型的AUC值最高,表明這些模型在預測寄生蟲感染方面具有最高的區(qū)分能力。XGB模型的AUC值略低于RF和SVM,但仍優(yōu)于LR模型。
5. 基于關聯(lián)規(guī)則學習的前五條規(guī)則
表3列出了基于關聯(lián)規(guī)則學習的前五條規(guī)則,這些規(guī)則揭示了某些風險因素組合與寄生蟲感染之間的強關聯(lián)。例如,擁有狗和馬與寄生蟲感染有強烈的關聯(lián),但這些動物在邏輯回歸模型中未被識別為顯著因素。頻繁燃燒木柴和低平均紅細胞血紅蛋白濃度與寄生蟲感染有關聯(lián)。
研究結(jié)果強調(diào)了使用機器學習算法識別新風險因素和驗證先前確定的風險因素的重要性。雖然在研究中,特征選擇方法與邏輯回歸重疊,但它們也揭示了大量這些方法未發(fā)現(xiàn)的風險因素。此外,證明了特征選擇和關聯(lián)規(guī)則學習是檢測寄生蟲感染風險因素的有效策略。最后,與LR分類器相比,SVM、RF和XGB分類器產(chǎn)生了高度準確的預測模型。表明與標準邏輯回歸模型相結(jié)合,機器學習技術可以識別新的風險因素并預測感染風險。
Zafar A, Attia Z, Tesfaye M, et al. Machine learning-based risk factor analysis and prevalence prediction of intestinal parasitic infections using epidemiological survey data. PLoS Negl Trop Dis. 2022;16(6):e0010517. Published 2022 Jun 14. doi:10.1371/journal.pntd.0010517
上一篇:發(fā)文新思路:妊娠期體重軌跡和不良妊娠結(jié)局關聯(lián)(潛在類別軌跡模型)
下一篇:金屬和LE8與美國成人死亡率的交互關聯(lián):一項前瞻性隊列研究