'薛萬國:搭建醫療大數據平臺需要量體裁衣'

""薛萬國:搭建醫療大數據平臺需要量體裁衣

醫療大數據平臺建成什麼模樣,不是“一刀切”的,要根據醫院開展數據服務的範圍和類型,去選擇符合自己需要的各種功能應用,類似搭積木,也需要量體裁衣。

Hadoop不是醫療大數據平臺的“標配”

醫療行業大數據的特點並不見得是“大”。實際工作中,真正圍繞某一病種做數據研究時,一般樣本數只有幾千例,能達到一萬例就不得了,有時還有幾百例的。

醫療行業大數據的特點,首先是“寬”,數據的種類多,即便是同一種類型的數據也有很多種細分,結構不一樣;其次,醫療大數據的質量很重要,要追求數據的質量和完整性。

技術是為應用和需求服務的,什麼樣的應用決定什麼樣的技術。要圍繞技術特點去構建技術平臺,而不是單純追求“潮流時尚”。醫院在構建大數據平臺時,一定要因地制宜地選用技術。

我們真正在用數據的時候就會發現,醫療行業大數據其實大多是“小數據”,數據需要清洗、整理、增刪改,而Hadoop恰恰在這方面是弱點。傳統技術的生態環境非常好,各種各樣的工具非常齊全,而且都能互相連接起來。而大數據技術的生態沒有傳統技術那麼成熟,如果採用它,這時候不但得不到好處,反而把用戶自己的手腳捆住了。所以在選用技術的時候,不能簡單地把Hadoop搬過來就行,更不要一窩蜂地盲從。一說大數據就必須是Hadoop,這也是誤解。

當然,也不能簡單地否定Hadoop,它有自己的用武之地。Hadoop適合用在哪些地方呢?比如:科研檢索的隨機性很大,不是按照預設好的路徑,而傳統的關係型數據庫是通過索引的辦法來提高性能,不可能提前設定所有檢索條件。針對這種隨機的檢索,關係型數據庫的性能就沒有那麼好,可以用大數據技術。

但是,即使在隨機檢索這種情況下,也不一定非要用Hadoop。因為還有其他辦法可以很好地解決問題,比如ES(Elastic Search,分佈式全文搜索引擎)、列數據庫等,都能非常好地滿足需求。

我們中心到現在還沒有用到Hadoop,還沒有覺得必須要用它。一般情況下,在不追求性能的時候,我們用關係型數據庫也能做得很好。因為很多搜索對時效性的要求並不高,我們更關注的是對建模、處理等其他工具能否支撐得很好。

根據所要開展的大數據服務來選用技術

搭建大數據平臺,要根據所開展的數據服務的範圍、類別來選用技術。

比如,如果醫院只是開展一般的臨床病例的檢索、分析、日常查詢、統計分析,那就需要檢索系統、專病庫系統,再加上SPSS分析建模的軟件就夠了。如果醫院想做人工智能,那就需要GPU,需要深度學習的框架和工具。如果醫院想做深度的結構化,要用病歷文本訓練模型,也需要深度學習的框架。如果醫院要做組學處理、精準醫學,就需要相應的組學平臺和工具。

如果盲目使用大數據技術,可能一上來就把自己綁死了。大數據應用與傳統醫院信息化不一樣,它在數據分析階段,不追求數據唯一,數據可以有不同的副本,以多種形式存在。在檢索系統裡,是一種存在方式;在分析的時候,有另外一種存在方式。當然,原始數據是統一的,出自同一個源頭,然後在不同的場景下以不同的形式組織起來。就像不同的場合穿不同的衣服一樣,正裝、睡衣、運動裝都有,各取所需,而不是隻有一套。

"

相關推薦

推薦中...