0
隱私計算,能否讓醫療數據釋放應有的價值?
4月12日-15日,雷峰網《醫健AI掘金志》以《隱私計算,讓AI釋放醫療數據的價值》為話題,邀請了四位隱私計算企業CXO,以線上云峰會的形式,討論隱私計算的技術路線和在醫療場景下的實際應用前景,以及推演該產業的未來趨勢。
此次醫療隱私計算云峰會中,同盾科技合伙人,中科院醫學所首席科學家兼知識聯邦產學研聯盟理事長李曉林教授,做了首期分享。
他以《可信AI賦能醫療:讓數據流通,讓知識共享》為題,依次分享了可信AI平臺建設的背景、可信AI平臺架構,理論及實踐、可信AI平臺產品、可信AI平臺在醫藥場景下的應用等四個方面。
他表示,數據已經成為醫療數字化轉型升級的核心要素,但在隱私計算的商業化落地中,由于不同廠商技術方案和平臺產品的差異,數據呈現出類似“聯盟A”和“聯盟B”的分裂,原本的“數據孤島”成為了新的“數據群島”。
目前,不同行業和領域都亟需一個通用的可信AI平臺,在保護數據隱私、合法合規、保護數據價值的前提下,打通一個個數據群島。
以下為李曉林的分享內容,雷峰網(公眾號:雷峰網)&《醫健AI掘金志》作了不改變原意的編輯及整理。
醫療領域有各種各樣的場景,不同場景下的醫療數據應運而生。
具體來看,醫療數據可分為組學數據庫、藥物化學數據庫、疾病數據庫,電子病歷數據庫、醫學影像數據庫,穿戴設備數據庫等六類。
這些醫療數據被很多平臺收集和使用,但在價值產生的過程中,它們也需要被嚴格保護。如今,數據隱私保護已經成為法律、政策文件的關注重點。從去年開始,數據安全法,個人信息保護法相繼出臺,數據隱私保護逐漸被社會所重視。
與此同時,數據隱私保護也加劇了醫療行業數據共享難、數據分析難的困境。
如今,我們一方面要保護數據隱私,另一方面也要打破數據屏障,尤其在以深入學習所引領的新一代人工智能的背景下,數據已經成為醫療數字化轉型升級的核心要素。
但問題是,醫療數據不僅面臨數據隱私難題,同時也面臨門檻高、數據異構、類型復雜等問題。我們要將每一個醫療領域積累多年的組學、基因、 DNA、影像等數據集合起來,難度非常大。
此外,在整合過程中,不同病人、不同醫院之間涉及到多方數據權益和多重數據標準,也讓數據共享變得更具挑戰。
那么隱私計算如何解決數據共享和數據流通的問題?
為了保護數據隱私,還要發揮數據價值,實現數據的安全合規流通,70年代開始,業界已經推出了一系列的隱私計算技術手段,比如同態加密、秘密分享等一系列數據“可用不可見”的思想。80年代,則衍生出多方安全計算、MPC等思想。
而在近幾年,又出現了三種新思想,比如可信執行環境(TEE,Trusted Execution Environment),聯邦學習(FL,Federated Learning),知識聯邦(KF,Knowledge Federation)。它們共同把隱私計算推到了下一代可信AI的高度。
但與此同時,在隱私計算的商業化落地中,因為不同廠商技術方案和平臺產品的差異,數據呈現出類似“聯盟A”和“聯盟B”的分裂,原本的“數據孤島”又成為了新的“數據群島”。
因此,各行各業亟需建設一個可信AI平臺。在保護數據隱私、合法合規、保護數據價值的前提下,連通數據群島。
目前,市場中的開源框架、主流研究聚焦在聯邦算法層級的研發,并不能徹底解決“群島”割裂的瓶頸。
想要充分地共享數據,共享知識,保持數據流通,首要問題是要有“一致性的保障”。
即聯邦中的多個成員節點,在約定協議的保障下,對一系列操作的處理結果達成“某種程度”的認同。比如連接上保持任務、節點、狀態一致;流通上保持參數、算法、模型、加密、應用、監管日志一致。
為解決不同聯邦系統的互聯互通問題,以及在更大范圍內建立聯邦生態網絡,同盾科技打造了基于隱私計算的開放AI平臺。
首先是這個平臺的架構。
為充分發揮數據流通的價值,同盾科技打造了一套基于隱私計算的開放共享智能平臺,其核心是智邦平臺iBond,底層是智邦的內核iCore。
此外,同盾科技還打造了全面互聯互通參考模型FIRM模型(open Federated system Interconnection/ReferenceModel,即圖右框架)。
這是一個多層次的互聯互通參考模型,把互聯互通分為四個層次,包括通信層(Ionic)、數據交換層(FLEX)、算法層(Caffeine)、應用層(SAFE)。其中,通信層、數據交換層,是參與方進行安全數據交換的基礎。
理論上,FIRM中每一層都建立在它的下層之上,向它的上一層提供一定的服務,并把如何實現這一服務的細節對上一層加以屏蔽。
為此,需要針對每一層定義標準化的協議規范,并在協議中詳細描述該層所提供的服務和動作,以保證提供有效的服務。
而且,每層的功能定義與實現細節相區分,從而使得模型具有普遍的適應能力。
其次是這個平臺的理論--知識聯邦。
知識聯邦的理論框架包括4個層次:
底層是信息層,從數據提煉成信息,可以通過一定的計算或者查詢,甚至是一些密文的相對簡單的統計信息;
模型層可以做一些聯合建模,做一些相對復雜的一些機器學習模型,或者深度學習的模型;
認知層是一個中間狀態的集合層,可以支持遷移學習,集成學習,知識蒸餾等等;
知識層可以做一些知識推理和知識的發現表達。
這四層全方位融合了多方安全計算(MPC)、聯邦學習(FL)、可信執行環境(TEE)等多種技術,實現了數據可用不可見、知識共創可共享,并首次將認知和知識引入隱私計算范疇,目標是實現下一代可信、可解釋、可推理、可決策的人工智能。
目前,知識聯邦支持安全多方查詢、計算、學習、推理等多種功能。從技術上看,知識聯邦在借鑒一些相關技術的同時,也具有一定的獨創性,尤其是認知層和知識層聯邦都屬于國內自主創新,超越了國外的初級聯邦學習。
最后是該平臺的實踐--數據安全交換協議FLEX。
數據安全交換協議的FLEX(Federated Learning Exchange)是一套開源的標準化聯邦協議。
FLEX協議約定了聯邦過程中參與方之間數據交換順序,以及在交換前后采用的數據加解密方法。就像HTTP協議承載了我們今天看到的極度豐富的互聯網應用一樣,聯邦協議也是建立聯邦學習應用所必不可少的基礎協議。
有了這個協議才能使得聯邦學習應用得以標準化,使得聯邦學習過程中的數據安全、模型性能得到有效的保障。
它的實現方式是通過約定聯邦過程中參與方之間數據交換順序,以及在交換前后采用地數據加解密方法,從而打破平臺孤島。
目前我們已發布《知識聯邦數據安全交換(FLEX)白皮書》,體現了兩層協議:
一是應用協議,面向聯邦算法的,為聯邦算法提供多方數據交換的應用支撐。聯邦過程中采用的通信協議也會被封裝在這里。
二是公共組件,是上層應用協議所依賴的基礎密碼算法和安全協議,比如同態加密、秘密分享等。
首先,為了讓知識聯邦得到更好地應用,我們基于知識聯邦理論框架和FLEX交換協議,打造了平臺產品--智邦iBond。
它包括一系列的工業界應用場景,都以數據可用不可見的方式執行,比如發起聯邦和MPC、調度任務、注冊數據等。
對于用戶來說,既可以從算法庫里面直接調用簡單算法,也可以自己定制。接下來,用戶可以把任務遞交給智邦平臺做調度和執行,并對輸出的結果做出評測,比如性能評測,功能評測,日志檢查等。
此外,用戶也可以遞交應用、數據、算法、通訊協議到我們的數據要素市場,用于替換我們的底層數據通信層。
其次,基于合規的互聯互通,我們進一步打造出數據的要素市場,即智邦iData。
各方數據可以在這個統一平臺上,以安全合規的方式做交換、交易,共享。
以數據交易舉例,智邦iData將不用的用戶劃分為數據提供方、數據使用方;應用開發者、應用提供方、使用方。各方將數據、應用發布在iData上,按照貢獻度、使用量或者市場機制給予數據定價,從而實現數據價值變現。
比如在國內醫罕見病的治療上,就可以將全國各地醫院和科研小組的罕見病數據都放到iData數據要素市場,從而極大提高某一罕見病的醫療數據,從而進一步提高疾病診療模型。
在這些工作的基礎上,我們希望能夠建成一個真正的醫療可信AI平臺:國內各種醫療機構能夠安全、合法合規地共享醫療數據,最大化生產資料的潛力,促進新的診斷算法和新的醫療生態誕生。
在智慧醫療、普惠醫療和藥物創新領域,可信AI平臺能夠提供哪些幫助?
第一個應用案例是用密文計算做醫療輔助診斷。
對人工智能輔助診療來說,根本上是以大數據作為訓練基礎,不僅需要豐富多元的醫療大數據,還需要打上大量的數據標注。對小型醫療機構或者偏遠地區的醫療機構來說,它們并不具備模型訓練能力。
但對于很多大型醫療機構,它們既有能力采購高精設備,還擁有豐富的患者病例,從而沉淀出高質量標記數據和AI輔助診斷模型。
小型醫院就可以通過智邦平臺將加密數據提供給大型醫療機構,利用大型醫療機構的數據優勢提升AI模型的診斷能力。
無論是通過同態加密、MPC、聯邦學習,還是大模型的共享模型做數據共享,小型醫療結構都可以獲得相當高的數據精度,而不會受限于小數據或者小模型的難題。
第二個應用案例是通過安全SQL來查詢,做健康險風險等級評估。
在對投保人的健康做風險評估中,查詢方為保險機構,被查詢方是持有投保意向用戶的ID信息醫療的大數據機構。
當評估風險時,一般需要在保護用戶隱私且保證數據安全的前提下綜合分析BMI和年齡。當“投保人BMI ≤25且年齡<50歲”,則被認為是具有較高信用的投保人。
在實際操作中,我們就可以用到隱私計算,通過SQL語句和PSI對投保人進行風險評估。這樣既不會泄露用戶隱私,又能夠得到精確評估結果,是一舉雙得的結果。
同樣,也可以通過聯邦建模對某種疾病患者的社會行為做出風險評估。比如公安局或者衛健委,通過多方聯合建模實現對重性酒精依賴疾病患者肇事肇禍動態風險評估,從而分級分類監管,精準預判,提升居民公共安全等級。
第三個案例是通過聯邦建模,實現個性化智能診療。
比如很多有基礎病的老年人確診新冠,這時候他們會出現什么并發癥,每種并發癥出現的可能性有多大?
現如今,通過機器學習對患者手術前后做出個性化的并發癥預測,是一種顯著提高患者可救性的一種方式。通過對真實臨床大數據進行聯邦建模,在數據清洗、臨床特征提取和結構化數據基礎上構建預測模型,具有強大的風險預測能力,且能夠準確分類不同風險級的患者,幫助醫生科學決策。
此外,隱私計算也能適應于罕見病的治療上。
比如每個醫院在一些罕見病數據上有一定的保密,病人信息也會涉及到個人隱私,那么我們可以通過多家醫院協同共創一個隱私計算大模型來共享數據,從而提高罕見病的治療能力。
目前我們已經推出醫生專家與可信AI平臺協同互補(人機協同,human in the loop)的診斷模式,醫生專家可以在輔助診斷的基礎上對病人做出一些判斷,同時提升可信AI平臺上的算法或者模型的預測精度。
第四個案例是認知層的聯邦學習,通過知識蒸餾,協作藥物發現。
制藥領域也通常面臨非常復雜的知識產權和經濟利益問題,使得制藥機構之間進行數據直接共享和合作幾乎不可能。但同時,基于神經網絡的藥物發現模型所需的參數量較大,在進行參數聚合時,模型訓練時間隨著數據量成指數倍增。
因此,藥物發現過程的數據變得極為珍貴和稀缺。
那么有什么方式能夠共享藥物發現數據?
一是通過聯邦學習,解決多個制藥機構利用NN模型進行協作藥物發現的問題,效果顯著優于單機構僅使用私有數據本地NN建模;
二是通過蒸餾學習,解決參與聚合的模型參數量過大的問題,并獲得與直接整合各機構藥物分子結構數據進行NN建模相同/近似的模型效果;
三是采用認知層聯邦,對各參與方的知識進行遷移學習,可在保護藥物分子結構隱私的前提條件下,解決領域適應和數據集偏移問題。
而且,針對一些藥物失敗的案例,這部分數據也能做資源共享,從而避免廣譜地、隨機地選擇藥物試驗病人。
整體來講,通過可信AI的平臺能夠解決多個制藥機構、藥物研發機構,研究院所或者研究小組的數據問題,幫助各方提升自己本地的藥物發現的精度和成功率,甚至提高藥物臨床表現。
第五個案例是通過FPGA,高效隱私保護機器學習。
多方聯合建模時,往往通過同態加密技術對傳輸/聚合的參數進行保護。但密文加解密及基于密文上的運算,計算速度常常是建模的瓶頸問題之一。
如果采用軟件+硬件(如: FPGA、 GPU、加密卡等)復合技術,構建基于加解密芯片的聚合器,把FPGA嵌入到聯邦學習系統,則能夠顯著提高加密算法(如Paillier) 的執行速度和并行度,從而提高數據加密和解密的效率,減少訓練的迭代時間。
這一方法可用于可信AI平臺在醫療領域的使用,比如醫療影像的數據非常龐大,如果能夠通過硬件加速來全方位提升運算效率,那么將很大程度地推進醫療隱私計算和數據安全交換等應用。
以上就是我的分享,謝謝大家。
此外,醫健AI掘金志也上線了李曉林教授的演講視頻,感興趣的朋友可以關注公眾號 醫健AI掘金志,對話框回復關鍵詞“李曉林”,即可回看。
雷峰網雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。