2024年,Emily F. Wong等人在《JAMA Network Open》雜志上發(fā)表了一篇題為《Evaluating Bias-Mitigated Predictive Models of Perinatal Mood and Anxiety Disorders》的文章。這項(xiàng)研究旨在評(píng)估和減少使用常見電子健康記錄(EHR)訓(xùn)練的圍產(chǎn)期情緒和焦慮障礙(PMADs)預(yù)測(cè)模型中的偏倚。具體而言,研究的目標(biāo)是試圖開發(fā)能夠準(zhǔn)確預(yù)測(cè)產(chǎn)后抑郁癥篩查結(jié)果的機(jī)器學(xué)習(xí)模型,并確保這些模型不會(huì)對(duì)少數(shù)族裔群體產(chǎn)生不利影響,從而減少健康不平等現(xiàn)象。
PMADs是常見的心理健康問題,尤其在產(chǎn)后女性中發(fā)病率較高。早期識(shí)別和干預(yù)對(duì)于改善患者的生活質(zhì)量和預(yù)防長(zhǎng)期心理問題至關(guān)重要。然而,傳統(tǒng)的篩查方法可能受到臨床偏倚的影響,尤其是在依賴EHR中,這些偏倚可能導(dǎo)致某些群體(如少數(shù)族裔)被誤診或漏診。因此,開發(fā)公平且準(zhǔn)確的預(yù)測(cè)模型具有重要意義。
這項(xiàng)研究的數(shù)據(jù)來源于2020年至2023年期間在洛杉磯錫達(dá)斯-西奈醫(yī)療中心分娩的19430名患者的EHR。所有患者均為女性,年齡在14至59歲之間,且有活產(chǎn)記錄,并在產(chǎn)后入院到產(chǎn)后病房或母胎護(hù)理病房。研究中使用的種族信息通過EHR獲取,分為以下7個(gè)類別:非西班牙裔白人、西班牙裔白人、非裔美國(guó)人或非裔黑人、亞裔美國(guó)人和太平洋島民、多種族、其他,以及未提供此信息的患者。
這項(xiàng)診斷性研究旨在預(yù)測(cè)PMADs,使用了兩種常用的篩查工具:9項(xiàng)患者健康問卷(PHQ-9)和愛丁堡產(chǎn)后抑郁量表(EPDS)。將這兩個(gè)工具的篩查結(jié)果分為“低風(fēng)險(xiǎn)”或“中度到高風(fēng)險(xiǎn)”。為了應(yīng)對(duì)類別不平衡問題,研究人員在訓(xùn)練集中對(duì)陽(yáng)性結(jié)果(即“中度到高風(fēng)險(xiǎn)”)進(jìn)行了隨機(jī)欠采樣,以確保模型不會(huì)過度擬合多數(shù)類數(shù)據(jù)。研究構(gòu)建了三種機(jī)器學(xué)習(xí)模型——邏輯回歸、隨機(jī)森林和極端梯度提升(XGBoost),并通過10折交叉驗(yàn)證來評(píng)估模型性能,主要評(píng)估指標(biāo)包括曲線下面積(AUROC)、人口統(tǒng)計(jì)平等(DP)和假陰性率差異。同時(shí)為了優(yōu)化模型性能,研究使用了樹結(jié)構(gòu)Parzen估計(jì)器算法,從optuna庫(kù)中進(jìn)行超參數(shù)調(diào)優(yōu),以最大化驗(yàn)證集上的AUROC。為了緩解模型中的偏倚,研究引入了“重新加權(quán)”的預(yù)處理技術(shù),根據(jù)Kamiran和Calders的研究提出的公式,計(jì)算出樣本權(quán)重。調(diào)整不同種族或民族群體的數(shù)據(jù)權(quán)重,以減少某些群體數(shù)據(jù)不足的影響,確保模型對(duì)所有人群都公平。
這項(xiàng)研究計(jì)算了每個(gè)模型在未重新加權(quán)和重新加權(quán)條件下的平均AUROC及其95%置信區(qū)間。結(jié)果顯示,對(duì)于未重新加權(quán)的數(shù)據(jù),PHQ-9在邏輯回歸、隨機(jī)森林和XGBoost模型的平均測(cè)試AUROC分別為0.602、0.622以及0.609,EPDS在邏輯回歸、隨機(jī)森林和XGBoost模型的平均測(cè)試AUROC分別為0.607、0.614以及0.607。對(duì)于重新加權(quán)的數(shù)據(jù),PHQ-9在邏輯回歸、隨機(jī)森林和XGBoost模型的平均測(cè)試AUROC分別為0.610、0.635以及0.635,EPDS在邏輯回歸、隨機(jī)森林和XGBoost模型的平均測(cè)試AUROC分別為0.611、0.624以及0.623。盡管重新加權(quán)略微降低了某些模型的整體預(yù)測(cè)能力(如PHQ-9的XGBoost模型)但模型的AUROC分布總體上仍然保持穩(wěn)定。這表明重新加權(quán)雖然提高了公平性,但略微犧牲了整體預(yù)測(cè)準(zhǔn)確性。(見表1、圖1)
為了評(píng)估模型的公平性,研究使用了兩個(gè)主要的公平性指標(biāo),即:DP和假陰性率差異。結(jié)果顯示,對(duì)于未加權(quán)的基線模型,少數(shù)族裔患者的陽(yáng)性預(yù)測(cè)率顯著高于非西班牙裔白人患者(DP = 0.238,95% CI: 0.231~0.244,P < 0.001)。這表明,在未重新加權(quán)的情況下,模型對(duì)少數(shù)族裔群體的預(yù)測(cè)率過高。對(duì)于重新加權(quán)后的基線模型,顯著減少了不同種族之間的DP差異(DP = 0.022,95% CI: 0.017~0.026,P < 0.001)。這表明,重新加權(quán)后,模型對(duì)不同群體的預(yù)測(cè)更加公平。(圖2)
對(duì)于未加權(quán)的數(shù)據(jù),少數(shù)族裔患者的假陰性率顯著低于非西班牙裔白人患者(假陰性率差異= -0.184,95% CI: -0.195~-0.174,P < 0.001)。這表明,在未重新加權(quán)的情況下,模型更容易漏掉少數(shù)族裔群體中的PMAD患者。對(duì)于重新加權(quán)的數(shù)據(jù),顯著減少了不同種族之間的假陰性率差異(假陰性率差異= 0.018,95% CI: 0.008~0.028,P < 0.001)。這表明,重新加權(quán)后,模型對(duì)不同群體的預(yù)測(cè)更加平衡,減少了漏診的風(fēng)險(xiǎn)。(圖3)
為了進(jìn)一步驗(yàn)證重新加權(quán)的效果,研究進(jìn)行了獨(dú)立樣本t檢驗(yàn)。結(jié)果顯示,重新加權(quán)顯著降低了DP(P < 0.001)和假陰性率差異(P < 0.001),這些結(jié)果表明重新加權(quán)技術(shù)有效地緩解了模型中的偏倚,提升了模型對(duì)不同群體的公平性。
本文通過引入重新加權(quán)技術(shù),成功降低了基于電子健康記錄(EHR)的圍產(chǎn)期情緒和焦慮障礙(PMADs)預(yù)測(cè)模型中的偏倚,使得模型在不同種族之間的預(yù)測(cè)更加公平。盡管模型的整體性能仍有提升空間,但這一研究表明,機(jī)器學(xué)習(xí)工具在醫(yī)療領(lǐng)域具有重要潛力,尤其是在減少健康不平等方面。未來的研究應(yīng)繼續(xù)探索如何優(yōu)化模型的權(quán)重,以實(shí)現(xiàn)特定的性能和公平性目標(biāo),從而更好地服務(wù)于所有患者群體。
— END —
上一篇:孕期魚類攝入與DHA補(bǔ)充——基于觀察性研究的母嬰健康影響分析
下一篇:12.09-12.15 臨床預(yù)測(cè)模型研究頂刊快報(bào)