SEER資料庫的資料構成

SEER資料庫的資料構成

小編在之前的一期中向大家簡單地介紹過如何安裝SEER資料庫,以及如何從SEER資料庫中下載資料。

教你輕鬆下載癌症資料——SEER資料庫的註冊和資料下載

這一期我們將一起來學習SEER資料庫的資料構成。

SEER資料庫從基於人群的癌症登記處收集癌症發病率資料,覆蓋約34。6%的美國人口。

該SEER登記處收集病人的人口統計資料,原發腫瘤部位,腫瘤形態,階段在診斷和治療的第一療程資料,他們也跟蹤了患者的生存和死亡的情況。

SEER資料庫主要由

腫瘤發病率資料

人口資料

資料字典

構成。

1。 腫瘤發病率資料

2019年SEER資料庫軟體更新到了SEER*Stat 8。3。6,本地資料庫也已經更新到了2016年。

本地資料庫包含了兩個版本:SEER18和SEER21。

從2018年11月的提交開始,SEER研究資料包括從1975年而不是1973年開始診斷的病例,並且在SEER 21資料庫中添加了三個新的註冊機構。

SEER資料庫的資料構成

SEER資料庫的資料構成

2。人口資料分年齡段的統計情況(Population)

以5年為一個年齡段跨度,共劃分為18個、19個和22個年齡段組。

以一年為一個年齡段跨度,從0歲至100歲以上,共劃分為101個年齡段組。

目錄中的資料檔案與腫瘤發病率的資料檔案相對應,分別收集了相應年份跨度和地區的基本的人口統計資料情況。

SEER資料庫的資料構成

SEER資料庫的資料構成

3。資料字典(Data dictionaries)

所謂資料字典,可以看作是資料庫中所有成分的定義和解釋的文字集合,描述了資料庫中每條記錄所包含的屬性意義和取值說明。對於不熟悉SEER資料庫的使用者就需要對資料的含義進行詳細的解讀,從而選擇出最需要的變數進行後期的分析。

因此,在資料字典中建立起嚴密一致的定義非常有助於使用者對於資料庫的理解和使用。

這個檔案非常重要,尤其是對於用Python或者R軟體提取資料的使用者,因為轉換二進位制成可以識別的文字無時無刻不用到這個。

注意

:下載資料字典不需要註冊。

SEER資料庫的資料構成

SEER資料庫的資料構成