Nonparametric independence feature screening for ultrahigh-dimensional survival data

Pan, Jing; Yu, Yuan; Zhou, Yong

doi:10.1007/s00184-018-0660-5

Nonparametric independence feature screening for ultrahigh-dimensional survival data

Published: 25 April 2018

Volume 81, pages 821–847, (2018)
Cite this article

Metrika Aims and scope Submit manuscript

Jing Pan¹,
Yuan Yu¹ &
Yong Zhou²

489 Accesses
1 Citation
Explore all metrics

Abstract

With the explosion of digital information, high-dimensional data is frequently collected in prevalent domains, in which the dimension of covariates can be much larger than the sample size. Many effective methods have been developed to reduce the dimension of such data recently, however, few methods might perform well for survival data with censoring. In this article, we develop a novel nonparametric feature screening procedure based on ultrahigh-dimensional survival data by incorporating the inverse probability weighting scheme to tackle the issue of censoring. The proposed method is model-free and hence can be implemented for extensive survival models. Moreover, it is robust to heterogeneity and invariant to monotone increasing transformations of the response. The sure screening property and ranking consistency property are also established under mild conditions. The competence and robustness of our method is further confirmed through comprehensive simulation studies and an analysis of a real data example.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Feature screening based on distance correlation for ultrahigh-dimensional censored data with covariate measurement error

Article 12 October 2020

Feature Screening for Ultrahigh-dimensional Censored Data with Varying Coefficient Single-index Model

Article 01 September 2019

Feature Screening for High-Dimensional Survival Data via Censored Quantile Correlation

Article 07 November 2020

References

Bair E, Tibshirani R (2004) Semi-supervised methods to predict patient survival from gene expression data. PLoS Biol 2:511–522
Article Google Scholar
Barut E, Fan J, Verhasselt A (2016) Conditional sure independence screening. J Am Stat Assoc 111:1266–1277
Article MathSciNet Google Scholar
Bitouzé D, Laurent B, Massart P (1999) A Dvoretzky–Kiefer–Wolfowitz type inequality for the Kaplan–Meier estimator. Annales de I’Institut Henri Poincaré 35:735–763
Article MathSciNet MATH Google Scholar
Cox DR (1972) Regression models and life-tables (with discussion). J R Stat Soci Ser B 34:187–220
MATH Google Scholar
Dabrowska DM, Doksum KA (1988) Estimation and testing in a two-sample generalized odds-rate model. J Am Stat Assoc 83:744–749
Article MathSciNet MATH Google Scholar
Fan J, Li R (2002) Variable selection for Cox’s proportional hazards model and frailty model. Ann Stat 30:74–99
Article MathSciNet MATH Google Scholar
Fan J, Lv J (2008) Sure independence screening for ultrahigh dimensional feature space (with disscussion). J R Stat Soc Ser B 70:849–911
Article MathSciNet Google Scholar
Fan J, Song R (2010) Sure Independence screening for in generalized linear models with NP-dimensionality. Ann Stat 38:3567–3604
Article MathSciNet MATH Google Scholar
Fan J, Samworth R, Wu Y (2009) Ultrahigh dimensional feature selection: beyond the linear model. J Mach Learn Res 10:2013–2038
MathSciNet MATH Google Scholar
Fan J, Feng Y, Wu Y (2010) High-dimensional variable selection for Cox’s proportional hazards. Borrow Strength Theory Power Appl A Festschr Lawrence D. Brown 6:70–86
Google Scholar
Fan J, Feng Y, Song R (2011) Nonparametric independence screening in sparse ultra-high dimensional additive models. J Am Stat Assoc 106:544–557
Article MathSciNet MATH Google Scholar
Fan J, Ma Y, Dai W (2014) Nonparametric independence screening in sparse ultra-high dimensional varying coefficient models. J Am Stat Assoc 109:1270–1284
Article MathSciNet MATH Google Scholar
Gorst-Rasmussen A, Scheike T (2013) Independent screening for single-index hazard rate models with ultra-high-dimensional dimensional features. J R Stat Soc Ser B 75:217–245
Article MathSciNet Google Scholar
He X, Wang L, Hong HG (2013) Quantile-adaptive model-free variable screening for high-dimensional heterogeneous data. Ann Stat 41:342–369
Article MathSciNet MATH Google Scholar
Hong HG, Kang J, Li Y (2018) Conditional screening for ultra-high dimensional covariates with survival outcomes. Lifetime data analysis 24:45–71
Article MathSciNet MATH Google Scholar
Huang J, Horowitz JL, Ma S (2008) Asymptotic properties of bridge estimators in sparse high-dimensional regression models. Ann Stat 36:587–613
Article MathSciNet MATH Google Scholar
Jin J, Zhang CH, Zhang Q (2014) Optimality of graphlet screening in high dimensional variable selection. J Mach Learn Res 15:2723–2772
MathSciNet MATH Google Scholar
Kendall MG (1962) Rank correlation methods, 3rd edn. Griffin & Co, London
Google Scholar
Li R, Zhong W, Zhu LP (2012) Feature screening via distance correlation learning. J Am Stat Assoc 107:1129–1139
Article MathSciNet MATH Google Scholar
Lin HZ, Peng H (2013) Smoothed rank correlation of the linear transformation regression model. Comput Stat Data Anal 57:615–630
Article MathSciNet MATH Google Scholar
Li G, Peng H, Zhang J, Zhu LX (2012) Robust rank correlation based screening. Ann Stat 40:1846–1877
Article MathSciNet MATH Google Scholar
Lu W, Zhang HH (2007) Variable selection for proportional odds model. Stat Med 26:3771–3781
Article MathSciNet Google Scholar
Ma S, Li R, Tsai CL (2017) Variable screening via quantile partial correlation. J Am Stat Assoc 112:650–663
Article MathSciNet Google Scholar
Peng L, Fine J (2009) Competing risks quantile regression. J Am Stat Assoc 104:1440–1453
Article MathSciNet MATH Google Scholar
Rosenwald A, Wright G, Chan WC, Connors JM, Hermelink HK, Smeland EB, Staudt LM (2002) The use of molecular profiling to predict survival after chemotherapy for diffuse large-B-cell lymphoma. N Engl J Med 346:1937–1947
Article Google Scholar
Serfling RJ (1980) Approximation theorems of mathematical statistics. Wiley, New York
Book MATH Google Scholar
Shi P, Qu A (2017) Weak signal identification and inference in penalized model selection. Ann Stat 45:1214–1253
Article MathSciNet MATH Google Scholar
Song R, Lu W, Ma S, Jeng XJ (2014) Censored rank independence screening for high-dimensional survival data. Biometrika 101:799–814
Article MathSciNet MATH Google Scholar
Tibshirani RJ (1997) The lasso method for variable selection in the Cox model. Stat Med 16:385–395
Article Google Scholar
Uno H, Cai T, Pencina MJ, D’Agostino RB, Wei LJ (2011) On the Cstatistics for evaluating overall adequacy of risk prediction procedures with censored survival data. Stat Med 30:1105–1117
MathSciNet Google Scholar
Wu Y, Yin G (2015) Conditional quantile screening in ultrahigh-dimensional heterogeneous data. Biometrika 102:65–76
Article MathSciNet MATH Google Scholar
Zeng D, Lin DY (2007) Maximum likelihood estimation in semiparametric regression models with censored data. J R Stat Soc Ser B 69:507–564
Article MathSciNet Google Scholar
Zhang J, Liu Y, Wu Y (2017) Correlation rank screening for ultrahigh-dimensional survival data. Comput Stat Data Anal 2017:121–132
Article MathSciNet MATH Google Scholar
Zhao SD, Li Y (2012) Principled sure independence screening for Cox models with ultra-high-dimensional covariates. J Multivar Anal 105:397–4114
Article MathSciNet MATH Google Scholar
Zhou T, Zhu LP (2017) Model-free feature screening for ultrahigh dimensional censored regression. Stat Comput 27:947–961
Article MathSciNet MATH Google Scholar
Zhu LP, Li L, Li R, Zhu LX (2011) Model-free feature screening for ultrahigh dimensional data. J Am Stat Assoc 106:1464–1475
Article MathSciNet MATH Google Scholar

Download references

Acknowledgements

The authors thank the Editor, an Associate Editor and the anonymous reviewers for their constructive suggestions, which have helped greatly improve our paper. Pan’s work was supported by Graduate Innovation Foundation of Shanghai University of Finance and Economics of China (CXJJ-2015-448). Zhou’s work was supported by the State Key Program of National Natural Science Foundation of China (71331006), the State Key Program in the Major Research Plan of National Natural Science Foundation of China (91546202).

Author information

Authors and Affiliations

School of Statistics and Management, Shanghai University of Finance and Economics, Shanghai, China
Jing Pan & Yuan Yu
School of Statistics, East China Normal University, Shanghai, China
Yong Zhou

Authors

Jing Pan
View author publications
You can also search for this author in PubMed Google Scholar
Yuan Yu
View author publications
You can also search for this author in PubMed Google Scholar
Yong Zhou
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Jing Pan.

Appendices

Appendix A

Lemma 1

(Bitouzé et al. 1999, Theorem 1) Let $\{X_i\}_{i=1}^n$ and $\{Y_i\}_{i=1}^n$ be independent sequences of independent identically distributed nonnegative random variables with distribution functions $F(\cdot )$ and $G(\cdot )$. Let $\widehat{F}_{n}$ be the Kaplan–Meier estimator of $F(\cdot )$. There exists a constant $M>0$, for any $\lambda >0$, such that

$$\begin{aligned} Pr\left( \sqrt{n}\Vert (1-G)(\widehat{F}_n-F)\Vert _{\infty }>\lambda \right) \le 2.5\exp \{-2\lambda ^2+M\lambda \}. \end{aligned}$$

Lemma 2

(Serfling 1980, P201, Theorem B) Let $h = h(X_1,X_2,\ldots ,X_m)$ be the kernel of the U-statistic, $\theta = \theta (F)$, with $E\exp \left\{ sh(X_1,X_2,\ldots ,X_m)\right\} <\infty $, $0<s<s_0$. For any $\varepsilon >o$, when $n>m$, there exist $c_1>0$ and $0<\rho <1$ such that

$$\begin{aligned} Pr(U_n-\theta \ge \varepsilon )\le c_1\rho ^n. \end{aligned}$$

Lemma 3

Under Condition (C1), for any $c_2 >0$, when $n \ge M^2c_3^{-1}$, where $\delta >0$ and $c_3 = \frac{1}{9}(\frac{c_2}{1+c_2})^2\delta ^8$,

$$\begin{aligned} Pr\left( \max _{i,j,l}\left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \ge c_2\right) \le 2.5n^3\exp \left\{ -c_3n\right\} . \end{aligned}$$

Proof of Lemma 3

For any x, $y>0$, taking $a_1=\frac{c_2}{1+c_2}$, i.e., $a_1\in (0,1)$, it is easy to show that

$$\begin{aligned} |x^{-1}-y^{-1}|\ge c_2y^{-1} \Rightarrow |x-y|\ge a_1y. \end{aligned}$$

Let $S(t)= 1- F(t)= Pr(T> t)$. Condition (C1) implies that there exist a constant $\delta >0$, such that $\delta \le S(Y_i) \le 1$, $\delta \le K(Y_i) \le 1$ and $0\le \widehat{K}(Y_i)\le 1$ for $i = 1, 2, \ldots , n$, therefore by Lemma 1, it follows that

$$\begin{aligned}&Pr\left( \left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \ge c_2\right) \\&\quad \le Pr\left( |\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)-K(Y_i)K(Y_j)K(Y_l)|\ge a_1K(Y_i)K(Y_j)K(Y_l)\right) \\&\quad \le Pr\left( \widehat{K}(Y_i)\widehat{K}(Y_j)|\widehat{K}(Y_l)-K(Y_l)|+ \widehat{K}(Y_i)K(Y_l)|\widehat{K}(Y_j)-K(Y_j)|\right. \\&\qquad \left. + \, K(Y_j)K(Y_l)|\widehat{K}(Y_i)-K(Y_i)|\ge a_1\delta ^3\right) \\&\quad \le Pr\left( 3\Vert \widehat{K}-K\Vert _{\infty }\ge a_1\delta ^3\right) \le Pr\left( \sqrt{n}\Vert (1-F)(\widehat{K}-K)\Vert _{\infty }\ge \sqrt{n}\frac{a_1\delta ^4}{3}\right) \\&\quad \le 2.5 \exp \left\{ -2n\left( \frac{a_1\delta ^4}{3}\right) ^2+M\sqrt{n}\frac{a_1\delta ^4}{3}\right\} , \end{aligned}$$

where $\Vert \cdot \Vert _{\infty }$ is the $L_{\infty }$ norm. When $n(\frac{a_1\delta ^4}{3})^2 \ge M\sqrt{n}\frac{a_1\delta ^4}{3}$, i.e. $n\ge M^2(\frac{a_1\delta ^4}{3})^{-2}$, taking $c_3 = (\frac{a_1\delta ^4}{3})^{2}=\frac{1}{9}(\frac{c_2}{c_2+1})^2\delta ^8$, we have

$$\begin{aligned} Pr\left( \max _{i,j,l}\left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \ge c_2\right) \le 2.5n^3\exp \left\{ -c_3n\right\} . \end{aligned}$$

$\square $

Lemma 4

Under Condition (C1), for any $c_4 >0$, when $n \ge M^2c_5^{-1}$, where $c_5 = \frac{1}{9}(\frac{c_4}{1+c_4})^2\delta ^8$,

$$\begin{aligned} Pr\left( \max _{i,j}\left| \frac{K^2(Y_i)K(Y_j)}{\widehat{K}^2(Y_i)\widehat{K}(Y_j)}-1\right| \ge c_4\right) \le 2.5n^2\exp \left\{ -c_5n\right\} . \end{aligned}$$

Proof of Lemma 4

Similar to Lemma 3, taking $a_2=c_4/(1+c_4)$, i.e., $a_2\in (0,1)$, it follows that

$$\begin{aligned}&Pr\left( \left| \frac{K^2(Y_i)K(Y_j)}{\widehat{K}^2(Y_i)\widehat{K}(Y_j)}-1\right| \ge c_4\right) \\&\quad \le Pr\left( \left| \widehat{K}^2(Y_i)\widehat{K}(Y_j) - K^2(Y_i)K(Y_j)\right| \ge a_2K^2(Y_i)K(Y_j)\right) \\&\quad \le Pr\left( \widehat{K}(Y_j)|\widehat{K}^2(Y_i)-K^2(Y_i)|+ K^2(Y_i)|\widehat{K}(Y_j)-K(Y_j)|\ge a_2\delta ^3\right) \\&\quad \le Pr\left( 3\Vert \widehat{K} - K\Vert _{\infty }\ge a_2\delta ^3\right) \le Pr\left( \sqrt{n}\Vert (1-F)(\widehat{K} - K)\Vert _{\infty }\ge \sqrt{n}\frac{a_2\delta ^4}{3} \right) \\&\quad \le 2.5 \exp \left\{ -2n\left( \frac{a_2\delta ^4}{3}\right) ^2+M\sqrt{n}\frac{a_2\delta ^4}{3}\right\} . \end{aligned}$$

When $n(\frac{a_2\delta ^4}{3})^2 \ge M\sqrt{n}\frac{a_2\delta ^4}{3}$, i.e. $n\ge M^2(\frac{a_2\delta ^4}{3})^{-2}$, taking $c_5 = (\frac{a_2\delta ^4}{3})^{2}=\frac{1}{9}(\frac{c_4}{c_4+1})^2\delta ^8$, we have

$$\begin{aligned} Pr\left( \max _{i,j}\left| \frac{K^2(Y_i)K(Y_j)}{\widehat{K}^2(Y_i)\widehat{K}(Y_j)}-1\right| \ge c_4\right) \le 2.5n^2\exp \left\{ -c_5n\right\} . \end{aligned}$$

$\square $

Proof of Theorem 1

We now proof the first statement. To start with, rewrite

$$\begin{aligned} \widehat{\omega }_k&= \frac{2}{n(n-1)(n-2)}\sum _{j< i< l}^{n}\frac{\varDelta _i\varDelta _j\varDelta _l}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}\left\{ X_{jk}X_{ik}I(Y_j<Y_l)I(Y_i<Y_l) \right. \\&\quad +\,\left. X_{lk}X_{ik}I(Y_l<Y_j)I(Y_i<Y_j)+ X_{jk}X_{lk}I(Y_j<Y_i)I(Y_l<Y_i)\right\} \\&\quad +\,\frac{1}{n(n-1)(n-2)}\sum _{i\ne j}^{n}\frac{\varDelta _i\varDelta _j}{\widehat{K}^2(Y_i)\widehat{K}(Y_j)}X_{ik}^2I(Y_i<Y_j) \\&\triangleq \widehat{\omega }_{k1} + \frac{1}{n-2}\widehat{\omega }_{k2}. \end{aligned}$$

Thus,

$$\begin{aligned} \left| \widehat{\omega }_k - \omega _k \right| \le \left| \widehat{\omega }_{k1} - \omega _k\right| + \left| \frac{1}{n-2}\widehat{\omega }_{k2}\right| \triangleq |I_{k1}| + |I_{k2}|. \end{aligned}$$

(9)

For $I_{k1}$, denote

$$\begin{aligned} \widehat{\omega }_{k1} = U_n\left[ \frac{\varDelta _i\varDelta _j\varDelta _l}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}X_{ik}X_{jk}I(Y_i<Y_l)I(Y_j<Y_l)\right] \triangleq U_nf_1(W_i,W_j,W_l), \end{aligned}$$

where

$$\begin{aligned}&U_nf_1(W_i,W_j,W_l)\\&\quad = \left( C_{n}^{3}\right) ^{-1}\sum _{i<j<l}\frac{1}{3}\left[ f_1(W_i,W_j,W_l)+f_1(W_i,W_l,W_j)+f_1(W_l,W_j,W_i)\right] . \end{aligned}$$

We can prove that

$$\begin{aligned}&E\left[ \frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}X_{ik}X_{jk}I(Y_i<Y_l)I(Y_j<Y_l)\right] \\&\quad = E\left\{ E\left[ \frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}X_{ik}X_{jk}I(Y_i<Y_l)I(Y_j<Y_l)|T_i,T_j,T_l\right] \right\} \\&\quad = E\left[ X_{ik}X_{jk}I(T_i<T_l)I(T_j<T_l)\right] =E\left\{ E\left[ X_{ik}X_{jk}I(T_i<T_l)I(T_j<T_l)|T_l\right] \right\} \\&\quad = E\left\{ E^2\left[ X_{ik}I(T_i<T_l)|T_l\right] \right\} = \omega _k. \end{aligned}$$

Then,

$$\begin{aligned}&\widehat{\omega }_{k1}-\omega _{k} \\&\quad = U_n\left[ \left( \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right) \right. \\&\qquad \times \,\left. \frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}X_{ik}X_{jk}I(Y_i<Y_l)I(Y_j<Y_l)\right] \\&\qquad +\,(U_n-E)\left[ \frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}X_{ik}X_{jk}I(Y_i<Y_l)I(Y_j<Y_l)\right] \\&\quad \triangleq J_{k1}+J_{k2}. \end{aligned}$$

For $J_{k1}$,

$$\begin{aligned} |J_{k1}|\le & {} \max _{i,j,l}\left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \\&\times \, U_n\left[ \frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}|X_{ik}||X_{jk}|I(Y_i<Y_l)I(Y_j<Y_l)\right] \\\le & {} \max _{i,j,l}\left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \\&\times \, \left| (U_n-E)\left[ \frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}|X_{ik}X_{jk}|I(Y_i<Y_l)I(Y_j<Y_l)\right] \right| \\&+\,\max _{i,j,l}\left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \\&\times \, \left| E\left[ \frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}|X_{ik}X_{jk}|I(Y_i<Y_l)I(Y_j<Y_l)\right] \right| \\&\triangleq J_{k11}+J_{k12}. \end{aligned}$$

Let

$$\begin{aligned} f_2(W_i,W_j,W_l)=\frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}|X_{ik}||X_{jk}|I(Y_i<Y_l)I(Y_j<Y_l), \end{aligned}$$

with Conditions (C1) and (C2), it follows that $E\exp \{sf_2(W_i,W_j,W_l)\} < \infty $. Thus by Lemma 2, when $n > 3$, we have

$$\begin{aligned} Pr\left( |U_n-E|f_2(W_i,W_j,W_l)\ge \frac{1}{4}cn^{-\kappa }\right) \le 2c_1\rho ^n. \end{aligned}$$

(10)

By Lemma 3 , let $c_2 = 1$, then $c_3 = \delta ^8/{36}$, when $n\ge 36M^2\delta ^{-8}$, we have

$$\begin{aligned} Pr\left( \max _{i,j,l}\left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \ge 1\right) \le 2.5n^3\exp \left\{ -c_3n\right\} . \end{aligned}$$

(11)

Therefore, by Eqs. (10) and (11),

$$\begin{aligned}&Pr\left( \left| J_{k11}\right| \ge \frac{1}{4}cn^{-\kappa }\right) \nonumber \\&\quad \le Pr\left( \max _{i,j,l}\left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \ge 1\right) \nonumber \\&\qquad +\,Pr\left( |U_n-E|f_2(W_i,W_j,W_l)\ge \frac{1}{4}cn^{-\kappa }\right) \nonumber \\&\quad \le 2.5n^{3}\exp \left\{ -c_3n\right\} +2c_1\rho ^n. \end{aligned}$$

(12)

Since $Ef_2(W_i,W_j,W_l)\le \frac{1}{\delta ^3}\sup _{k}E^2|X_{k}|$, by Lemma 3 , when $\frac{\delta ^3cn^{-\kappa }}{4\sup _kE^2|X_k|} \le 1$ and $n\ge 36M^2\delta ^{-8}$,

$$\begin{aligned} Pr\left( |J_{k12}|\ge \frac{1}{4}cn^{-\kappa }\right)\le & {} Pr\left( \frac{\sup _kE^2|X_k|}{\delta ^3}\max _{i,j,l}\left| \frac{K(Y_i)K(Y_j)K(Y_l)}{\widehat{K}(Y_i)\widehat{K}(Y_j)\widehat{K}(Y_l)}-1\right| \ge \frac{1}{4}cn^{-\kappa }\right) \nonumber \\\le & {} 2.5n^3\exp \left\{ -c_3n\right\} . \end{aligned}$$

(13)

For $J_{k2}$, denote

$$\begin{aligned} f_3(W_i,W_j,W_l)=\frac{\varDelta _i\varDelta _j\varDelta _l}{K(Y_i)K(Y_j)K(Y_l)}X_{ik}X_{jk}I(Y_i<Y_l)I(Y_j<Y_l), \end{aligned}$$

it is verified that $E\exp \{sf_3(W_i,W_j,W_l)\} < \infty $, then by Lemma 2,

$$\begin{aligned} Pr\left( |J_{k2}|\ge \frac{1}{4}cn^{-\kappa }\right) =Pr\left( |U_n-E|f_3(W_i,W_j,W_l)\ge \frac{1}{4}cn^{-\kappa }\right) \le 2c_1\rho ^n. \end{aligned}$$

(14)

Using triangle inequality and Eqs. (12)–(14), when $n\ge m_0$, where $m_0 = \max \{3, 36M^2\delta ^{-8}, [\frac{c\delta ^3}{4\sup _kE^2|X_k|}]^{\frac{1}{\kappa }}\}$, it follows that

$$\begin{aligned}&Pr\left( |I_{k1}|\ge \frac{3}{4}cn^{-\kappa }\right) \nonumber \\&\quad \le Pr\left( |J_{k11}|\ge \frac{1}{4}cn^{-\kappa }\right) + Pr\left( |J_{k12}|\ge \frac{1}{4}cn^{-\kappa }\right) + Pr\left( |J_{k2}|\ge \frac{1}{4}cn^{-\kappa }\right) \nonumber \\&\quad \le 5n^3\exp \left\{ -c_3n\right\} +4c_1\rho ^n. \end{aligned}$$

(15)

For $I_{k2}$, under Condition (C1), it follows that

$$\begin{aligned} |\widehat{\omega }_{k2}|= & {} \left| \frac{1}{n(n-1)}\sum _{i\ne j}^n\frac{\varDelta _i\varDelta _j}{\widehat{K}^2(Y_i)\widehat{K}(Y_j)}X_{ik}^2I(Y_i<Y_j)\right| \\\le & {} \frac{1}{n(n-1)}\sum _{i\ne j}^n\left| \frac{K^2(Y_i)K(Y_j)}{\widehat{K}^2(Y_i)\widehat{K}(Y_j)}-1\right| \frac{\varDelta _i\varDelta _j}{K^2(Y_i)K(Y_j)}X_{ik}^2I(Y_i<Y_j) \\&+\, \frac{1}{n(n-1)}\sum _{i\ne j}^n\frac{\varDelta _i\varDelta _j}{K^2(Y_i)K(Y_j)}X_{ik}^2I(Y_i<Y_j)\\\le & {} \max _{i,j}\left| \frac{K^2(Y_i)K(Y_j)}{\widehat{K}^2(Y_i)\widehat{K}(Y_j)}-1\right| \frac{1}{n\delta ^3}\sum _{i=1}^nX_{ik}^2 +\frac{1}{n\delta ^3}\sum _{i=1}^nX_{ik}^2. \end{aligned}$$

Then taking $c_4 = 1$ and $c_5 = \delta ^8/36$, when $n \ge 36M^2\delta ^{-8}$, with Condition (C2) and Lemma 4, we have

$$\begin{aligned}&Pr\left( \left| I_{k2}\right| \ge \frac{c}{4}n^{-\kappa }\right) \nonumber \\&\quad \le Pr\left( \max _{i,j}\left| \frac{K^2(Y_i)K(Y_j)}{\widehat{K}^2(Y_i)\widehat{K}(Y_j)}-1\right| \ge 1\right) +2Pr\left( \frac{1}{n\delta ^3}\sum _{i=1}^{n}X_{ik}^2\ge \frac{c}{8}(n-2)n^{-\kappa }\right) \nonumber \\&\quad \le 2.5n^2\exp \left\{ -c_5n\right\} +2\exp \left\{ -\frac{c}{8}\delta ^3n^{-\kappa }(n-2)\right\} E\exp \left\{ \frac{1}{n}\sum _{i=1}^{n} X_{ik}^2\right\} \nonumber \\&\quad \le 2.5n^2\exp \left\{ -c_5n\right\} +2M_0\exp \left\{ -\frac{c\delta ^3}{8}n^{-\kappa }(n-2)\right\} . \end{aligned}$$

(16)

Therefore, by Eqs. (9), (15) and (16), when $n > m_0$, it follows that

$$\begin{aligned}&Pr\left( \max _{1\le k\le p}|\widehat{\omega }_k-\omega _k|\ge cn^{-\kappa } \right) \le p\left\{ Pr\left( \left| I_{k1}\right| + |I_{k2}|\ge cn^{-\kappa }\right) \right\} \\&\quad \le p\left\{ 4c_1\rho ^n+5n^3\exp \left( -c_3n\right) +2.5n^2\exp \left( -c_5n\right) + 2M_0\exp \left[ -c_6n^{-\kappa }(n-2)\right] \right\} , \end{aligned}$$

where $c_6 = c\delta ^3/8$.

For the second statement, take $\gamma _n = c_0n^{-\kappa }$, where $c_0\le c$, then $\gamma _n\le cn^{-\kappa }$, therefore,

$$\begin{aligned} \widehat{\mathscr {A}}=\{k:\widehat{\omega }_k\ge \gamma _n\}\supset \left\{ k:\widehat{\omega }_k\ge cn^{-\kappa }\right\} , \end{aligned}$$

let $\mathscr {A}_n = \left\{ \max _{k\in \mathscr {A}}|\widehat{\omega }_k-\omega _k|\le cn^{-\kappa }\right\} $, if $\mathscr {A}\nsubseteq \widehat{\mathscr {A}}$, there exist some $k\in \mathscr {A}$, such that $\widehat{\omega }_k<cn^{-\kappa }$, by Assumption (C3),

$$\begin{aligned} |\widehat{\omega }_k-\omega _k|> cn^{-\kappa }\Rightarrow & {} \{\mathscr {A}\nsubseteq \widehat{\mathscr {A}}\}\subset \{|\widehat{\omega }_k-\omega _k|> cn^{-\kappa }, \exists k\in \mathscr {A}\} \\\Rightarrow & {} \mathscr {A}_n\subseteq \{\mathscr {A}\subseteq \widehat{\mathscr {A}}\}. \end{aligned}$$

Therefore,

$$\begin{aligned}&Pr(\mathscr {A}\subseteq \widehat{\mathscr {A}})\\&\quad \ge 1-Pr\left( \max _{k\in \mathscr {A} }|\widehat{\omega }_k-\omega _k|> cn^{-\kappa }\right) \ge 1-sPr\left( |\widehat{\omega }_k-\omega _k|> cn^{-\kappa }\right) \\&\quad \ge 1-s\left\{ 4c_1\rho ^n+5n^3\exp \left( -c_3n\right) +2.5n^2\exp \left( -c_5n\right) + 2M_0\exp \left[ -c_6n^{-\kappa }(n-2)\right] \right\} , \end{aligned}$$

where s is the cardinality of $\mathscr {A}$, here we complete the proof of Theorem 1. $\square $

Proof of Theorem 2

Recall $w_k(t)$, by Condition (C4), for $k\in \mathscr {I}$ and $t \in \varPsi _T$, we can prove that,

$$\begin{aligned} w_k(t)= & {} E\left\{ E\left[ \frac{\varDelta }{K(Y)}X_kI(Y<t)|\mathbf {X}\right] \right\} = E\{X_kE[I(T<t)|\mathbf {X}]\}\\= & {} E\{X_kE[I(T<t)|\mathbf {X}_\mathscr {A}]\} = 0, \end{aligned}$$

and thus $\omega _k = 0$. It follows from Condition (C3) that $\min _{k\in \mathscr {A}} \omega _k - \max _{k\in \mathscr {I}} \omega _k > 2cn^{-\kappa }$. Thus,

$$\begin{aligned}&Pr\left( \min _{k\in \mathscr {A}} \widehat{\omega }_{k} \le \max _{k\in \mathscr {I}}\widehat{\omega }_{k} \right) \\&\quad = Pr\left( \min _{k\in \mathscr {A}}\widehat{\omega }_{k} - \min _{k\in \mathscr {A}}\omega _{k} + 2cn^{-\kappa } \le \max _{k\in \mathscr {I}} \widehat{\omega }_{k} - \max _{k\in \mathscr {I}}\omega _{k}\right) \\&\quad \le Pr\left( \sup _{k\in \mathscr {A}}|\widehat{\omega }_k - \omega _k| \ge cn^{-\kappa }\right) + Pr\left( \sup _{k\in \mathscr {I}}|\widehat{\omega }_k - \omega _k| \ge cn^{-\kappa }\right) \\&\quad \le 2p\left\{ 4c_1\rho ^n+5n^3\exp \left( -c_3n\right) +2.5n^2\exp \left( -c_5n\right) + 2M_0\exp \left[ -c_6n^{-\kappa }(n-2)\right] \right\} , \end{aligned}$$

here we complete the proof of Theorem 2.$\square $

Appendix B

See Table 12.

Table 12 Simulation results for Example 3: $P_{all}$ and $P_k$ corresponding to $X_{1}-X_{p_1}$

Full size table

Rights and permissions

Reprints and permissions

About this article

Cite this article

Pan, J., Yu, Y. & Zhou, Y. Nonparametric independence feature screening for ultrahigh-dimensional survival data. Metrika 81, 821–847 (2018). https://doi.org/10.1007/s00184-018-0660-5

Download citation

Received: 27 August 2017
Published: 25 April 2018
Issue Date: October 2018
DOI: https://doi.org/10.1007/s00184-018-0660-5

Keywords

Access this article

Log in via an institution

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Nonparametric independence feature screening for ultrahigh-dimensional survival data

Abstract

Access this article

Similar content being viewed by others

Feature screening based on distance correlation for ultrahigh-dimensional censored data with covariate measurement error

Feature Screening for Ultrahigh-dimensional Censored Data with Varying Coefficient Single-index Model

Feature Screening for High-Dimensional Survival Data via Censored Quantile Correlation

References

Acknowledgements

Author information

Authors and Affiliations

Corresponding author

Appendices

Appendix A

Lemma 1

Lemma 2

Lemma 3

Proof of Lemma 3

Lemma 4

Proof of Lemma 4

Proof of Theorem 1

Proof of Theorem 2

Appendix B

Rights and permissions

About this article

Cite this article

Keywords

Navigation

Nonparametric independence feature screening for ultrahigh-dimensional survival data

Abstract

Access this article

Similar content being viewed by others

Feature screening based on distance correlation for ultrahigh-dimensional censored data with covariate measurement error

Feature Screening for Ultrahigh-dimensional Censored Data with Varying Coefficient Single-index Model

Feature Screening for High-Dimensional Survival Data via Censored Quantile Correlation

References

Acknowledgements

Author information

Authors and Affiliations

Corresponding author

Appendices

Appendix A

Lemma 1

Lemma 2

Lemma 3

Proof of Lemma 3

Lemma 4

Proof of Lemma 4

Proof of Theorem 1

Proof of Theorem 2

Appendix B

Rights and permissions

About this article

Cite this article

Share this article

Keywords

Search

Navigation