編者按】作者王飛博士,是康奈爾大學威爾醫學院副教授。主要研究方向包括數據挖掘,機器學習技術在醫學數據科學中的應用。本文全面分析了當下深度學習在醫學領域面臨的現實挑戰。
本文發于HC3i中國數字醫療網,作者王飛;經億歐大健康編輯,供行業人士參考。
近年來,人類對于醫療健康領域中機器學習和人工智能技術應用的興趣激增。人工智能技術的發展讓機器得以模仿更加復雜和獨立的人類智能,這種能力是人工智能技術發展程度的最直觀體現。早期,醫療健康領域的人工智能系統嚴重依賴于人的邏輯規則,這需要相關專家將臨床知識編碼作為特定臨床場景的邏輯規則來進行。隨著技術的更迭,更為先進的機器學習系統開始逐漸脫離人工,借助識別和權衡數據中的相關特征(如醫學圖像中的像素或電子健康記錄(EHRs)中的原始信息)來自主學習這些規則。
為確保在實踐中行之有效,傳統機器學習技術常常需要專家對特征工程進行指導(例如,將檢測值離散化道固定的范圍區間或是從醫學圖像中提取區域特征)。但新的深度學習技術對人為介入的要求大大降低,它通過使用端到端的學習機制對原始輸入進行逐層映射(例如檢測的原始值或圖像像素值)從而在沒有人工干預的情況下直接預測輸出。這些映射由多層相互連接的非線性處理單元--人工“神經元”組成。就目前而言,深度學習技術仍然需要專家來設計最優的模型結構。
應用挑戰
目前,深度學習在醫學上最成功的應用是醫學圖像分析。目前已有的研究驗證了深度學習算法能夠從例如視網膜基底部和皮膚圖像中自動、準確地檢測糖尿病視網膜病變和皮膚癌。深度學習的潛力主要體現在能夠發掘復雜的,微妙的特征模式來區別不同的圖像類別,這表明深度學習技術在其他類型的醫學數據分析中仍舊可以大有可為。然而,在更廣泛地在醫學中應用深度學習之前,我們需要知道并理解如下挑戰。
數據量
像人類大腦一樣,深度學習模型由多層互聯的計算“神經元”組成,非常復雜,因此設計最佳架構是很困難的。實際上,深度學習模型的復雜程度與問題的復雜性緊密相關,而模型越復雜,參數越多,需要的訓練樣本量就越大。
例如,在前述的眼科和皮膚科的案例中,作者用了128175張視網膜圖像來訓練深度學習模型進行分類糖尿病視網膜病變,129450張皮膚圖像來訓練分類皮膚癌的深度學習模型;而在慢性心臟或腎衰竭這樣更為復雜和異質性的疾病狀態下,則可能需要數量更多的樣本以及更異質的數據(例如,文本輸入、成像、實驗室值、生命體征)來建立可靠的診斷模型。對于許多復雜的臨床情形來說,所需要的可靠數據的數量并不那么容易獲得。
數據質量
大部分健康數據的組織化和標準化程度都不如醫學影像數據,例如,電子病歷包含高度異質的結構化患者信息,包括人口學、診斷、過程、檢驗結果以及藥物,還有非結構化文本形式的醫囑。這些結構化和非結構化的信息經常出現不一致的情況。從分散的和有噪聲的信息中識別可靠的模式即便對人腦而言也是很難的,因此對于深度學習模型來說就更為困難。
對于社會經濟地位較低的患者而言,由于他們更可能訪問一些條件不是太好的診所,其健康數據可靠性更容易因電子病歷信息缺失或有誤、多機構間分散存儲等原因降低,這是深度學習面臨的重大挑戰之一。由此很大可能造成深度學習算法對這類患者的診斷可能并不夠準確,從而加劇現有的醫療健康差異。
模型的可解釋性
深度學習模型端到端的學習設計模式看起來很像黑盒子:它能夠吸收數據、生成輸出并得出結論(例如,“該患者患黑色素瘤的概率為0.8”),但對如何得出結論卻沒有明確的解釋。常規的皮膚科醫生在考慮病變是否為黑色素瘤時,會根據一系列主要和次要的標準對皮膚鏡圖像進行評估,為提出的診斷結果提供明確依據。相比較而言,深度學習模型只給出結果的決策模式并不能讓人信服。雖然近年來有很多研究工作在試圖為深度學習模型的結果提供解釋,但它們還是主要集中在圖像分析上,因此,解釋復雜臨床情況模型的結果仍然是一項艱巨的挑戰。
模型的通用性和互操作性
兩個常見問題限制了深度學習模型的通用性:
模型偏差。例如,基于主要是白人患者的數據進行訓練的模型可能在其他種族患者中效果不佳;在美國接受培訓的模式在亞洲可能表現不佳。
模型互操作性。如果兩個衛生系統使用不同的電子病歷系統,那么很難建立一個能夠在兩個系統中使用的深度學習模型。
模型安全
數據是深度學習模型學習的資源,但某些數據也會干擾模型的決策。有研究表明,即便是訓練有素的圖像處理模型,也非常有可能被人類無法察覺的輸入圖像的擾動所“愚弄”,這也就是所謂的對抗性攻擊。例如,在類似自動駕駛這樣安全性至關重要的應用中,當深度學習模型被用于道路交通標志的自動識別時,若在停車標志上疊加精心設計的噪音(例如粘貼膠帶),就可以徹底改變系統的決策。最近作者的一項研究表明,輕微改變患者電子病歷數據中的實驗檢測值就能夠對模型在住院死亡率預測方面產生極大影響。
應對方法
在發展深度學習面臨的挑戰中,諸如數據質量、模型通用性和模型安全性都是機器學習算法面臨的通常性問題,而諸如數據量、模型可解釋性等,則對于深度學習而言更具有針對性。要解決這兩種類型的挑戰,并建立可廣泛影響臨床實踐的可靠的深度學習模型,需要如下一些考慮。
收集大規模和多樣化的健康數據
要使深度學習模型更易于推廣、不易受到數據偏倚的影響,需要加強多機構乃至國際合作來廣泛的收集多方面數據(包括來自不同種族、民族、語言和社會經濟地位的患者的數據),并更進一步標準化和集成這些來自不同來源的數據。觀察性健康數據科學和信息學(OHDSI)項目就是一項國際性的、合作的、開放的科學努力,目前該項目已經收集了來自17個參與國家的12.6億份患者記錄,所有記錄都使用一種名為觀察性醫療結果伙伴關系的通用數據模型。
提高數據質量
深度學習模型高度依賴于數據,但卻對數據提供過程沒有足夠深入的了解,因此如何提供可靠、高質量的輸入至關重要。同樣重要的是,我們要開發工具來提高數據收集的質量,如:錯誤糾正、關于缺失數據的警告和差異的協調。 IBM Watson Imaging Clinical Review就是一個很好的例子,該工具分析臨床影像報告中的信息,并將其與病患的電子病歷記錄中的信息進行比較,以識別不完整或不正確的內容,并提示輸入更準確和最新的信息,有效協調了不同來源的病患信息之間的差異。
融入臨床工作流程
深度學習應與現有的電子病歷系統相結合,提高臨床醫生的工作效率。例如,開發由于語音輸入功能的電子病歷系統,自動生成臨床記錄、推斷診斷代碼,并自動將數據輸入到深度學習算法中。對于半結構化的放射學報告而言,其部分內容可以通過深度學習模型進行醫學圖像分析自動生成。目前,胸透報告已經能夠通過深度學習技術分析胸透圖像實現半自動創建,其中包括了結果、發現物和醫學文本索引標記,幫助放射科醫生提高胸透報告質量和準確性。這些工具不應該以黑匣子的形式出現,反而更應該作為臨床醫生探索診斷提供建議并進一步為系統提供反饋。
全面規范化
計算機黑客可以修改數據從而更改深度學習模型的結果,在這些技術得到更廣泛使用的情況下,制定全面規范來確保更好的模型安全性尤為重要。此外,在現有法規關注醫療數據隱私的同時,新法規也應該保護分析模型。
結語
總之,盡管深度學習有潛力改善醫療健康,但在更廣泛和更有效的使用方面仍然存在實質性障礙。認識到深度學習的局限性,明確所有挑戰,并努力解決,才能讓醫學深度學習取得更快速的進步。
隨著《“健康中國2030”規劃綱要》的發布和醫改政策縱深發展,我國醫療服務行業也正迎來一個新的升級階段,即是從“規?!毕颉皟r值”的變革。醫療產業與新技術逐漸融合,單純“走量”的醫療項目不再是投資首選,大量“偽需求”將在消費者“用腳投票”下出局……如何能夠轉危為安,借力打力,最終在資本寒冬后的2019脫穎而出?