24小時服務熱線:19103801095
NEWS CENTER
Recommend case
contact us
測評技術研究工作組
測評技術研究工作組由中國信息通信研究院牽頭組建,并作為組長單位組織開展人工智能醫療器械數據質控和產品驗證等方面測評工作,研究數據質量要求及產品測評方法。
測評技術研究工作組基于人工智能醫療器械產品的發展現狀、技術特性,提出了一套測評體系,包括可落地實施的測評方法,以及全面指標體系和指標計算方式,能夠在一定程度上證明產品安全有效性,同時具有以下三點優勢。
一是第三方數據庫具有樣本量豐富、信息量大、多維度等特點,能夠更好評估算法的泛化性。
二是人工智能技術具有數據驅動、更新迭代快等特點,在產品發生數據驅動型更新后,可以基于第三方測試數據庫驗證其算法性能是否發生顯著性變化。
三是可支持企業或第三方測評機構明晰網絡安全漏洞掃描過程及掃描方法。
融合人工智能等技術的醫療器械作為新興產品,具有數據驅動、快速迭代、高流通性等特點,傳統的基于軟件質量模型的測試方法不能實現對其安全有效性的全面驗證,急需建立面向智能化醫療器械的專有技術測評體系,規范技術標準。人工智能醫療器械創新合作平臺測評技術研究工作組(以下簡稱工作組)牽頭研究建設了一套包含測試公共服務平臺、產品性能標準、網絡安全漏洞掃描等在內的安全、權威、可追溯的測評體系,為監管提供依據,推動智能化醫療器械產業持續健康發展。
建立算法測評公共服務平臺
工作組建立了人工智能醫療器械算法測評公共服務平臺。目前,該平臺已與北京協和醫院建設的“糖尿病視網膜病變常規眼底彩色照相AI標準數據庫”對接,具備針對糖網AI輔助決策產品開展測評工作的能力,支持是否需要轉診、有無糖尿病視網膜病變(DR)、國際分期DR、是否合并其他病變、圖像質量等檢測需求。平臺能夠動態接入第三方測試數據庫,為不同的醫療AI產品提供測試環境,實現對醫療AI產品算法性能自動化測試并輸出測試報告。
該平臺采取分布式建庫模式,可靈活對接多個測評數據庫,通過整合第三方機構資源,充分保障數據庫來源的可信性和可靠性。分布式建庫將數據庫建設工作委托給第三方機構,能夠保障測評數據庫具有產權清晰、高質量、大規模、多元化、動態更新、擴展靈活、可持續發展等特點。平臺對接的“糖尿病視網膜病變常規眼底彩色照相AI標準數據庫”,在建庫過程中的各階段參與人員均完成了相應培訓并考核合格。該數據庫收集了來自全國8個省份共14個地區的真實世界數據,共1.5萬張糖尿病患者眼底彩照,涵蓋目前市場上主要眼底照相機型;經倫理審查和數據脫敏,數據標注和建庫流程均符合平臺相關質控要求,已于2020年7月17日作為人工智能醫療器械創新合作平臺成果發布。
人工智能醫療器械算法測評公共服務平臺與第三方測試數據庫間的數據交互、待測產品在平臺上的部署,均采用專用加密VPN通道,以保障數據庫和待測產品安全性。用于待測產品部署的VPN通道,設置了時效性限制,且遵循“只進不出”原則。整個測試過程在封閉的沙箱環境中完成,沙箱環境實現物理隔離;測試全流程實現自動化和加密化,遵循“無人工干預”原則。
該平臺可自動記錄每次檢測的完整過程及測試數據的元屬性,流經檢測節點的所有關鍵數據記錄均可查,以保證測試可追溯。
起草產品性能指標和測試方法
工作組組織相關單位共同起草了《基于眼底彩照的糖尿病視網膜病變輔助決策產品性能指標和測試方法》和《基于胸部CT的肺結節影像輔助決策產品性能指標和測試方法》兩個技術文稿,目前已在人工智能醫療器械創新合作平臺上發布。文稿內容包括范圍、規范性引用文件、術語和定義、性能指標和測試方法五部分,用以指導人工智能醫療器械算法測評公共服務平臺開展相關產品的性能評測工作。兩個文稿均提出,人工智能醫療器械產品的性能指標分為兩部分,分別是臨床性能指標與其他性能指標。
其中,臨床性能指標分不同技術場景制定。全部場景可分為四類,分別是判別分類、目標檢測、圖像分割與定量計算,不同類型的產品有其中的一類或多類技術場景。例如,糖網輔助診斷類產品的技術場景為判別分類;大多數肺結節輔助診斷類產品的技術場景為目標檢測、圖像分割與定量計算,部分產品還包括判別分類。
其他性能指標分為三部分,分別是魯棒性、泛化性與可再現性。
魯棒性指系統在一定(結構、大小)的參數攝動下維持某些性能的特性。測試方式為:抽取部分測試數據進行隨機的基本變換,來進行產品魯棒性的測試。其中,基本變換包括原圖邊長5%的裁剪、左右翻轉、上下翻轉、增加對比度(5%)、減少對比度(5%)、增加亮度(5%)、減少亮度(5%)、增加一定信號幅度的高斯白噪聲(5%)。實際測試過程中應至少包括其中三種變換,具體采取何種變換由產品聲稱選擇。進行基本變換的數據應占所有測試樣本量的10%。用變換后的測試數據及剩余未變換的數據灌入封閉沙箱,計算得到臨床性能指標結果,分析是否有統計學差異。
泛化性指算法對訓練集之外的樣本類別的預測能力。測試方式為:基于臨床性能測試,根據不同維度的數據屬性統計測試結果,分別計算不同屬性下的臨床性能指標,分析是否有統計學差異。例如,統計維度為不同地區,則每一類數據屬性為中部地區、北部地區、南部地區等。具體統計維度可包括不同地區、不同采集設備廠商等。
可再現性指在算法測試環境和初始條件相同的情況下,算法對于相同或相似的數據集的不同測試結果之間的一致性。測試方式為:基于上次臨床性能測試使用的相同數據集進行第二次測試,所得到的臨床性能指標應不劣于上次測試結果。
編制網絡漏洞識別與評估方法文件
2022年11月,工作組編制的《醫療器械網絡安全漏洞識別與評估方法(征求意見稿)》在人工智能醫療器械創新合作平臺向社會征求意見。該文件旨在規范醫療器械網絡安全漏洞的評估過程和方法,指導相關單位開展網絡安全漏洞檢測工作,提升醫療器械網絡安全防護能力。
征求意見稿將網絡安全漏洞評估分為五個過程:
一是評估范圍分析。對于醫療器械網絡安全漏洞的評估,不僅針對醫療器械產品本身,還應綜合考慮產品實際使用時所處的運行環境,包括產品技術要求中所描述的必備軟硬件、運行環境等。
二是確定漏洞掃描策略。在進行網絡安全漏洞掃描之前,需要確定產品的結構和組成,根據不同的產品結構特點和組成類型,確定相應掃描檢測評估方法。
三是執行漏洞掃描。通過發現目標網絡或主機,進一步搜集目標信息,包括操作系統類型、開放的端口、運行的服務、使用的協議類型等。根據搜集到的信息,由漏洞掃描工具向搜尋到的目標發送請求信息,分析返回信息,最終確定是否存在安全漏洞。
四是漏洞掃描檢測結果評估。在對醫療器械產品完成掃描檢測后,對掃描檢測的情況進行描述,記錄檢測過程中的信息,說明漏洞分布情況,輸出漏洞信息。
五是已知剩余漏洞的維護。根據掃描后已知的剩余漏洞及漏洞分布情況,注冊申請人針對剩余漏洞的具體信息、漏洞風險等級、漏洞出現的位置、漏洞修復的難易程度、漏洞修復的緊迫性等,綜合分析剩余漏洞對產品安全性方面的影響,確定網絡安全策略,制定漏洞維護方案。
推動研究成果落地應用
人工智能醫療器械算法測評公共服務平臺、醫療器械網絡安全漏洞檢測方法已支撐多款產品完成訓練優化及測試驗證工作,為產品上市過程中的安全有效性評價提供有力支撐。
人工智能醫療器械算法測評公共服務平臺在應用過程中,根據產品類型與檢測需求提交檢測任務,測試數據庫根據檢測任務進行測試數據集準備,將抽取出來的測試數據分為影像數據與金標準數據標簽兩部分。影像數據與被測產品一同灌入封閉安全的測試環境,運行產品,產品輸出預測數據標簽,通過與金標準數據標簽進行對比,依據指標體系,計算各項性能指標。
對于醫療器械網絡安全漏洞檢測方法,現階段,工作組對網絡安全的研究工作主要集中在輔助治療、醫學影像處理等人工智能醫療器械軟件,以及有源類醫療器械,例如手術機器人、基因測序系統、持續葡萄糖監測系統、病人監護儀等。
以腹腔內窺鏡手術系統為例,其結構組成主要包括醫生控制臺、患者手術平臺、三維腹腔內窺鏡、影像處理平臺等,各個組成部分都是一個獨立的功能模塊,均含有各自的控制系統,通過網絡連接進行協同工作。在產品設計上,醫生控制臺、三維腹腔內窺鏡、影像處理平臺多采用通用計算平臺,使用Windows或Linux系統;患者手術平臺因其對實時性、可靠性、小型化等要求較高,通常采用嵌入式系統,如嵌入式Linux、Vxworks、QNX等。在進行網絡安全漏洞掃描時,對于不同的結構單元,使用不同的掃描策略。如上述情形,在對醫生控制臺、三維腹腔內窺鏡、影像處理平臺進行掃描時,采用基于網絡的掃描方式,將檢測工具接入其內部網絡中進行掃描,以探測發現操作系統、組件、協議、數據庫、網絡系統等的漏洞;患者手術平臺采用嵌入式系統,對其固件進行靜態掃描檢測,以逆向工程的方式發現二進制固件中存在的漏洞。
(作者單位:中國信息通信研究院)
站點聲明:
本網站所提供的信息僅供參考之用,并不代表本網贊同其觀點,也不代表本網對其真實性負責。圖片版權歸原作者所有,如有侵權請聯系我們,我們立刻刪除。如有關于作品內容、版權或其它問題請于作品發表后的30日內與本站聯系,本網將迅速給您回應并做相關處理。
北京飛速度醫療科技有限公司專注于醫療器械、診斷試劑產品政策與法規規事務服務,提供產品注冊申報代理、臨床合同(CRO)研究、產品研發、GMP質量輔導等方面的技術外包服務。