基于數據挖掘技術的心血管疾病患者虛弱癥分級方法與流程

文檔序號:18172345發布日期:2019-07-13 09:54
基于數據挖掘技術的心血管疾病患者虛弱癥分級方法與流程

本發明涉及數據挖掘、機器學習、人工智能等計算機專業領域和醫療數據應用領域,具體為一種輔助確定心血管疾病患者當前所處虛弱狀態的方法。



背景技術:

隨著醫療行業信息化建設的不斷完善,各個業務系統生成大量的患者健康相關的檢查和檢驗數據?;跀祿诰蚝腿斯ぶ悄艿燃夹g,提取這些數據中隱藏的,而又具有一定潛在價值的信息和知識,可以構建一個大的數據知識庫。通過對此知識庫進行學習,可以得到一個具有決策能力的“大腦”,用以輔助醫生對患者身體狀態的把握,從而在進行醫療治療過程可以選擇更佳的臨床決策,對醫療質量的提高有促進與推動的作用。在國內,相關的研究最早可追溯到1978年北京中醫醫院與計算機專家合作開展的“關幼波肝病診療程序”項目。這各也是國內首個將醫學專家系統與中國傳統醫學相結合的醫療系統。其它的系統還有,1986年福建中醫學院與省計算中心合作開發的“林如高骨傷計算機診療系統”;1992年,中國中醫研究院和中國科學院共同研發“中國中醫治療專家系統”。

現有技術的缺點:方法簡單,分類精確度和準確度低,相同虛弱癥數目,但不同癥狀患者的區分度低。



技術實現要素:

本發明所要解決的技術問題總的來說是提供一種基于數據挖掘技術的心血管疾病患者虛弱癥分級方法;面對需住院或手術治療的突發、重癥心血管疾病患者,為了更準確、更迅速的得出具有數據意義的虛弱指數,發明一套虛弱癥分級方法和算法。通過機器學習技術對門診數據進行數據挖掘和分析等處理,可以獲得更精確的患者虛弱指數,從而輔助醫生實現對患者的個性化、精準治療決策。詳細解決的技術問題以及取得有益效果在后述內容以及結合具體實施方式中內容具體描述。

為解決上述問題,本發明所采取的技術方案是:

本發明利用高斯混合聚類的方法,對一個無標簽患者數據先進行一個隨機的預分類,如將數據a歸為B類,通過其為B類的概率求出屬于B類的參數,可用于確定為B類數據的劃分規則,但由于數據a劃分為A類的概率大于為B類的概率,會造成數據a在迭代的過程中回歸到A類,各分類的參數也會逐步收斂,最終對所有數據完成分類。此方法打破了先有雞還是先有蛋的局面,對于無法得知患者虛弱程度的真實分類,可以依據此方法,獲取患者的真實身體情況。本發明為解決心血管疾病患者在治療時,防止身體耐受力差而產生的生命危險問題。為使患者明確當前自己身體的虛弱程度,幫助醫生選擇更有效率的治療方案。根據累積型虛弱的定義,累積型虛弱指定義為在一個時間定點,個體所有健康程度測量中,取值為不健康的指標個數所占的比例為分級標準。比值越大虛弱程度越高,反之虛弱程度越低。累積型虛弱指數每增加0.1,虛弱患者相較于普通患者死亡風險增加44%。對于虛弱程度較高的患者可以選擇較為緩和的治療方式,同時輔以針對性的虛弱恢復手段,以降低由于身體耐受不住治療導致的負面影響,從而提升對患者的治療安全性與治療效率。同時,虛弱程度對于預測手術風險,促進圍術期優化有著重要的意義。因此,精準的患者虛弱程度分級有極高的研究價值。本發明即為一種提高輔助檢測虛弱程度精確度的系統,相比傳統的虛弱測試系統更加符合患者身體狀況的真實性。

本發明的有益效果不限于此描述,為了更好的便于理解,在具體實施方式部分進行了更加詳細的描述。

附圖說明

圖1是本發明的流程示意圖。

具體實施方式

如圖1,本發明借助于數據軟件平臺;該平臺包括

用戶檔案的數據庫,其記載有患者的數據,數據庫為存儲于計算機的電子數據庫;數據庫數據信息的建立基于《國家基本公共衛生服務規范》,其包括身體特征信息、身體檢查信息、癥狀信息、以及診斷信息;當輸入患者的數據時,數據軟件平臺設置有提示模塊與幫助模塊;

數據云處理器,用來對患者的數據進行存儲與預處理,并將預處理后的信息作為分類模型的訓練數據項;其中數據項包含姓名、證件號碼、性別、年齡、癥狀主訴、體征、病史、以及檢驗檢查;每行數據為某患者當次診斷的文本數據。

脫敏化模塊,用來與數據云處理器連接,對數據項中的數據進行脫敏化處理;脫敏化處理對患者的姓名、證件號碼、家庭住址等私密信息刪去,保留患者的身體狀態數據、癥狀診斷數據、以及標識碼,標識碼用于找到反饋信息給本條數據的用戶;

正則化預處理模塊,將脫敏化處理后的文本數據進行數字化;

對照表模塊,建立數據名稱、字段名稱對照表并將數字化后數據導入;

分組模塊,設定分組的模,并根據分組的模將對照表模塊分組并導入;

判定模塊,接收分組模塊的數據,

主成分分析模塊,若該分組含有數據的條數等于分組的模,接收批處理導入分組的數據;對數據進行主成分分析;

權重模塊,將主成分分析模塊的數據進行求取數據權重值;

高斯聚類模塊,權重模塊處理后的數據進行混合聚類計算;

數據模型模塊,若該分組數據量小于分組的模,接收并處理一次該分組數據導入的數據,接收高斯聚類模塊導入的數據;

具體步驟如下:

步驟一,在平臺上建立用于對患者信息進行管理與使用的患者用戶檔案,用戶對應患者一一映射;

步驟二,首先,患者的數據信息通過患者或醫生填入數據庫;然后,平臺并生成數據并進行存儲到硬盤或內存中;

步驟三,首先,用戶或醫生將患者就診時自訴的癥狀信息與醫生對患者的診斷信息通過平臺登入窗口上報至數據云處理器;然后,數據云處理器對癥狀信息與診斷信息存儲與預處理;其次,將預處理后的信息作為分類模型的訓練的數據項;

步驟四,首先,將數據項的數據從數據云處理器導入脫敏化模塊中;然后,脫敏化模塊對數據進行脫敏化處理;

步驟五,將脫敏化處理數據導入正則化預處理模塊,正則化預處理模塊將數據項的文本數據進行數值化;獲取更直觀的數據項。

正則化預處理模塊的數值化,首先,從文本數據癥狀主訴、體征、病史、檢查檢驗報告、以及疾病診斷結果中匹配正則表達式;然后,通過正則表達式識別出患者數據包括性別、年齡、頭暈、胸悶、乏力、口干、咳嗽、血壓高、血糖高、心慌、心悸、收縮壓、舒張壓、心率值、四肢肌力、心律齊、高血壓病、糖尿病、冠心病、腦梗、腎臟病、以及心力衰竭;其次,根據文本數據的特征,將性別、頭暈、胸悶、乏力、口干、咳嗽、血壓高、血糖高、心慌、心悸、心率、四肢肌力、心律齊、高血壓病、糖尿病、冠心病、腦梗死、腎臟病、以及心力衰竭作為狀態數據,并對相應字段賦1,否則賦0;再次,對性別置男為0女為1;再后來,將檢驗檢查數值類數據轉換為設定的對應的等級值,如對收縮壓、舒張壓對應的中國高血壓等級規范置1、2、3,并對其進行歸一化處理;緊接著,根據研究報告得出的年齡與虛弱呈正相關,將年齡數據作為目標數據的一個維度,并本系統不考慮100歲以上的老人,將數據中100歲以上的數據剔除,對年齡數據直接做歸一化處理,并將數據保存,作為最終模型的一個標度;

步驟六,建立對照表模塊,然后將數值化后的患者數據導入;

步驟七,首先,根據平臺處理能力和數據量情況,選取合理的值作為標準,為方便描述,將此處用來分組的這個值稱作分組的模;然后,將對照表模塊得到的數據分成若干組,并導入分組模塊中;其次,將每組數據導入判定模塊中;

步驟八,判定模塊判定分組模塊傳入的數據量,進行判定:

若該組含有數據的條數等于分組的模,則進行批處理導入主成分分析模塊;

若數據量小于分組的模,首先,先將此部分數據導入數據模型模塊處理一次,經過目前訓練的模型得出此患者的虛弱值;然后,將獲得的虛弱值隨數據模型模塊數據一起向下導入,同時將此分組數據存入此判定模塊的數據棧中;

其次,統計數據棧中的數據量并進行判定:

如果統計數據棧中的數據量超過分組的模,則取出時間序列中前分組的模的數據,分成一組,導入主成分分析模塊,剩下的數據繼續等待合并新的數據集;

如果未超過分組的模,則合并后繼續等待新的數據;

步驟九,主成分分析模塊對從步驟八傳入的數據進行主成分分析;

首先,對數據進行降維因子分析,當對于第一次進行分析時,先對所有數據項進行Person關聯分析法,去除相關程度低的數據項,本數據集中最終選取10項數據項作為提取因子,為fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag所表示的數據項,將KMO值提升到0.7以上,達到主成分分析法適用的標準;然后,通過計算得到解釋總方差,選取累計表達超過90%的初始特征、提取平方和載入,并獲取成分矩陣;其次,將獲取的數據與患者數據導入權重模塊;(此處根據數據特征會有所調整,如果有新數據項加入,且相關程度較高,并能提高KMO值即可加入進行優化處理,此處是因為所擁有數據集特征而選擇的10項數據項。)

步驟十,將主成分分析模塊的數據進行求取數據權重值;

首先,用得到的矩陣成分E與對應初始特征值t求商Q,即公式(1):

然后,將上一結果Q與方差S代入下一公式計算H,即公式(2):

即求出主成分的方差貢獻度;

其次,對整體進行平移,使所有值為正數,獲得H’,即公式(3):

H'=H+MIN(H) (3)

再次,對指標權重進行歸一化,得出的結果為數據項fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag的權重值;最后,將患者數據與得出的權重值導入下一模塊。

步驟十一,對權重模塊的值進行權重值的應用,首先,更新目前的權重,對第一次使用時初始值為0.1,直接更新;之后,按每組的權重與目前的權重求均值進行更新;其次,與權重相對應的數據項進行求積的和,獲得一個1以內的數值,將其作為不健康度B,即公式(4):

表示患者的身體狀況,與利用患者年齡生成的數據指標,該指標定為年齡度A;再次,組成一個2維數組,將每個數據表示成一個2維坐標中的點;最后,此數據為最終處理數據,并導入下一模塊;

步驟十二,首先,將處理后的數據中年齡度A與不健康度B兩項,按組輸入高斯聚類模塊,即公式(5):

其中μ是n維均值向量,∑是n*n的協方差矩陣,l為n維樣本空間中的隨機向量l,α為混合系數,將目標期望值分為三類:早期虛弱,中期虛弱,晚期虛弱,即將混合成分k設定為3,其次,計算每個數據對應各個混合成分的后驗概率,即公式(6):

根據后驗概率生成新的均值向量μ`、新的協方差矩陣∑`、新的混合系數α`,對模型中的均值向量、協方差矩陣和混合系數進行迭代更新,直到收斂為止;再次,對數據進行確定分類的簇標記,即公式(7):

γj=argmaxχji,i∈{1,2,...,k} (7)

通過極大似然函數獲得新混合成分;最后,將結果導入數據模型模塊;

步驟十三,首先,在數據模型模塊訓練好之后,按組進行對比優化,并獲取患者的虛弱值,如果患者的虛弱值已有則進行更新,否則對患者進行添加此數據項;然后,進行交叉驗證進行優化提升正確率,調整數據的權重和均值向量、協方差矩陣、混合系數;最后,獲取新的系統模型;,為系統模型提升更廣的適應度,并將獲取的數據導入下一模塊。

步驟十四,從新的系統模型獲得的數據即為最終數據,可以反饋回患者和醫生,輔助患者的診療。

系統根據模型處理數據所獲取一個二維值,二維值處于系統訓練模型的某類別區域中,此區域即為此人的虛弱程度,相比于傳統癥狀累積型虛弱診斷,將單純根據癥狀數量的累加判斷一個人的虛弱程度更改為加入由數據分析求得每個數據的權重占比,通過影響程度大的數據項對患者影響效果強的數據意義,來獲取患者的虛弱程度,要更加反應真實的患者身體狀況。

使用本發明時,

本發明設計合理、成本低廉、結實耐用、安全可靠、操作簡單、省時省力、節約資金、結構緊湊且使用方便。

本發明充分描述是為了更加清楚的公開,而對于現有技術就不再一一例舉。

最后應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;作為本領域技術人員對本發明的多個技術方案進行組合是顯而易見的。而這些修改或者替換,并不使相應技術方案的本質脫離本發明實施例技術方案的精神和范圍。

再多了解一些
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
做爱视频