R語言｜連續性變數轉為分類變數，界值可為均數、中位數、上下四分位數，非常方便

做資料分析時，經常會遇到需要把連續性變數轉為分類變數。

一讀入資料

讀入TCGA的表達量資料，擷取部分資料進行示範

#TCGA的表達量資料#setwd（）data <- read。csv（“Expr_median。csv”，header=TRUE，row。names=1，check。names=FALSE）data <- as。data。frame（t（data））data［1：4，1：4］

row。names=1 ：讀入資料的第一列作為行名

check。names=FALSE：標題保持原樣

可以自行試一下，分別去掉這兩個引數，然後比較下資料的差異

二批次轉化

1 ifelse轉化單一列

#將TCGA-97-7938-01A根據medain轉為高低data1 <- datadata1［，“ENSG00000000003。13”］ <- ifelse（data1［，“ENSG00000000003。13”］ > median（data1［，“ENSG00000000003。13”］），“High”，“Low”）data1［1：4，1：4］

可以看到ENSG00000000003。13基因的表達量已經轉為高低二分類了。

分段閾值：還可以是均值，四分衛，10%，或者具體數值

#按照均值分data1［，“ENSG00000000460。15”］ <- ifelse（data1［，“ENSG00000000460。15”］ > mean（data1［，“ENSG00000000460。15”］），“High”，“Low”）#按照75%分data1［，“ENSG00000000419。11”］ <- ifelse（data1［，“ENSG00000000419。11”］ > quantile（data1［，“ENSG00000000419。11”］，0。75），“High”，“Low”）#按照具體數值分data1［，“ENSG00000000457。12”］ <- ifelse（data1［，“ENSG00000000457。12”］ > 10，“High”，“Low”）data1［1：4，1：4］