對於醫院的工作人員而言,其實想要發表文章的話,有時候並不是一定需要去做實驗的。利用醫院的一些患者的臨牀數據,對這些數據進行相關的分析。同樣也是可以進行科學研究的。例如今天要介紹的這篇:
文章主要內容
對於這篇文章而言,作者主要是通過不同的機器學習模型來構建了幽門螺桿菌治療後(HP)發生胃癌風險的模型。對於這類的構建模型的人羣樣本的文章。常規來說也就是三步:
- 收集符合標準的樣本
- 基於不同的方法來構建模型
- 模型評價
收集符合標準的樣本
人羣分析的文章,肯定是要基於自己的研究目的收集符合研究目的的人羣樣本信息。拿這篇文章來說,這個文章主要收集的還是在HP感染後進行了根治治療的人羣。經過篩選,作者獲得了89538個樣本
在這些人羣當中,收集他們的的個體信息基於這些信息來預測胃癌的發生。對於基本信息的收集,往往都需要展示這些數據的基線數據。所以在這個文章當中,作者就展示了他們收集到的這些樣本的信息基線數據。
基於不同的算法構建模型
目前對於模型構建而言,有很多的算法都可以用於模型的構建。這篇文章而言,作者就使用了多個算法來構建不同的模型(SVM、 SGB、XGBoost、RF、 Lasso)。
在基於不同的算法構建模型之後,最後通過ROC曲線來評價不同算法得到的模型的好壞。最後選擇一個更好的模型。
以上基本上就是這個文獻的主要內容了。後面作者針對於特別好的模型來進行了具體的分析。同時也評價了不同模型對於內鏡誤診率的不同。
總的來說
對於這類臨牀樣本性的文章的話,主要的創新點主要還是對於分析的切入點。至於什麼切入點好。那就是臨牀醫生在日常看病的過程中哪個方面是急需需要解決的問題。這個是臨牀醫生比其他基礎或者數據分析人員的優勢。基於一個好的切入點,收集數據。至於說後續的數據分析,有能力的臨牀醫生可以自己分析。要是臨牀比較忙的話。那可以合作的嘛