• search hit 68 of 990
Back to Result List

Modifications and extensions of the logistic regression and Cox model

Modifikationen und Erweiterungen des logistischen Regressionsmodells und des Cox-Modells

  • In many statistical applications, the aim is to model the relationship between covariates and some outcomes. A choice of the appropriate model depends on the outcome and the research objectives, such as linear models for continuous outcomes, logistic models for binary outcomes and the Cox model for time-to-event data. In epidemiological, medical, biological, societal and economic studies, the logistic regression is widely used to describe the relationship between a response variable as binary outcome and explanatory variables as a set of covariates. However, epidemiologic cohort studies are quite expensive regarding data management since following up a large number of individuals takes long time. Therefore, the case-cohort design is applied to reduce cost and time for data collection. The case-cohort sampling collects a small random sample from the entire cohort, which is called subcohort. The advantage of this design is that the covariate and follow-up data are recorded only on the subcohort and all cases (all members of the cohortIn many statistical applications, the aim is to model the relationship between covariates and some outcomes. A choice of the appropriate model depends on the outcome and the research objectives, such as linear models for continuous outcomes, logistic models for binary outcomes and the Cox model for time-to-event data. In epidemiological, medical, biological, societal and economic studies, the logistic regression is widely used to describe the relationship between a response variable as binary outcome and explanatory variables as a set of covariates. However, epidemiologic cohort studies are quite expensive regarding data management since following up a large number of individuals takes long time. Therefore, the case-cohort design is applied to reduce cost and time for data collection. The case-cohort sampling collects a small random sample from the entire cohort, which is called subcohort. The advantage of this design is that the covariate and follow-up data are recorded only on the subcohort and all cases (all members of the cohort who develop the event of interest during the follow-up process). In this thesis, we investigate the estimation in the logistic model for case-cohort design. First, a model with a binary response and a binary covariate is considered. The maximum likelihood estimator (MLE) is described and its asymptotic properties are established. An estimator for the asymptotic variance of the estimator based on the maximum likelihood approach is proposed; this estimator differs slightly from the estimator introduced by Prentice (1986). Simulation results for several proportions of the subcohort show that the proposed estimator gives lower empirical bias and empirical variance than Prentice's estimator. Then the MLE in the logistic regression with discrete covariate under case-cohort design is studied. Here the approach of the binary covariate model is extended. Proving asymptotic normality of estimators, standard errors for the estimators can be derived. The simulation study demonstrates the estimation procedure of the logistic regression model with a one-dimensional discrete covariate. Simulation results for several proportions of the subcohort and different choices of the underlying parameters indicate that the estimator developed here performs reasonably well. Moreover, the comparison between theoretical values and simulation results of the asymptotic variance of estimator is presented. Clearly, the logistic regression is sufficient for the binary outcome refers to be available for all subjects and for a fixed time interval. Nevertheless, in practice, the observations in clinical trials are frequently collected for different time periods and subjects may drop out or relapse from other causes during follow-up. Hence, the logistic regression is not appropriate for incomplete follow-up data; for example, an individual drops out of the study before the end of data collection or an individual has not occurred the event of interest for the duration of the study. These observations are called censored observations. The survival analysis is necessary to solve these problems. Moreover, the time to the occurence of the event of interest is taken into account. The Cox model has been widely used in survival analysis, which can effectively handle the censored data. Cox (1972) proposed the model which is focused on the hazard function. The Cox model is assumed to be λ(t|x) = λ0(t) exp(β^Tx) where λ0(t) is an unspecified baseline hazard at time t and X is the vector of covariates, β is a p-dimensional vector of coefficient. In this thesis, the Cox model is considered under the view point of experimental design. The estimability of the parameter β0 in the Cox model, where β0 denotes the true value of β, and the choice of optimal covariates are investigated. We give new representations of the observed information matrix In(β) and extend results for the Cox model of Andersen and Gill (1982). In this way conditions for the estimability of β0 are formulated. Under some regularity conditions, ∑ is the inverse of the asymptotic variance matrix of the MPLE of β0 in the Cox model and then some properties of the asymptotic variance matrix of the MPLE are highlighted. Based on the results of asymptotic estimability, the calculation of local optimal covariates is considered and shown in examples. In a sensitivity analysis, the efficiency of given covariates is calculated. For neighborhoods of the exponential models, the efficiencies have then been found. It is appeared that for fixed parameters β0, the efficiencies do not change very much for different baseline hazard functions. Some proposals for applicable optimal covariates and a calculation procedure for finding optimal covariates are discussed. Furthermore, the extension of the Cox model where time-dependent coefficient are allowed, is investigated. In this situation, the maximum local partial likelihood estimator for estimating the coefficient function β(·) is described. Based on this estimator, we formulate a new test procedure for testing, whether a one-dimensional coefficient function β(·) has a prespecified parametric form, say β(·; ϑ). The score function derived from the local constant partial likelihood function at d distinct grid points is considered. It is shown that the distribution of the properly standardized quadratic form of this d-dimensional vector under the null hypothesis tends to a Chi-squared distribution. Moreover, the limit statement remains true when replacing the unknown ϑ0 by the MPLE in the hypothetical model and an asymptotic α-test is given by the quantiles or p-values of the limiting Chi-squared distribution. Finally, we propose a bootstrap version of this test. The bootstrap test is only defined for the special case of testing whether the coefficient function is constant. A simulation study illustrates the behavior of the bootstrap test under the null hypothesis and a special alternative. It gives quite good results for the chosen underlying model. References P. K. Andersen and R. D. Gill. Cox's regression model for counting processes: a large samplestudy. Ann. Statist., 10(4):1100{1120, 1982. D. R. Cox. Regression models and life-tables. J. Roy. Statist. Soc. Ser. B, 34:187{220, 1972. R. L. Prentice. A case-cohort design for epidemiologic cohort studies and disease prevention trials. Biometrika, 73(1):1{11, 1986.show moreshow less
  • In vielen statistischen Anwendungen besteht die Aufgabe darin, die Beziehung zwischen Einflussgrößen und einer Zielgröße zu modellieren. Die Wahl eines geeigneten Modells hängt vom Typ der Zielgröße und vom Ziel der Untersuchung ab - während lineare Modelle für die Beschreibung des Zusammenhanges stetiger Outputs und Einflussgrößen genutzt werden, dienen logistische Regressionsmodelle zur Modellierung binärer Zielgrößen und das Cox-Modell zur Modellierung von Lebendauer-Daten. In epidemiologischen, medizinischen, biologischen, sozialen und ökonomischen Studien wird oftmals die logistische Regression angewendet, um den Zusammenhang zwischen einer binären Zielgröße und den erklärenden Variablen, den Kovariaten, zu modellieren. In epidemiologischen Studien muss häufig eine große Anzahl von Individuen für eine lange Zeit beobachtet werden. Um hierbei Kosten zu reduzieren, wird ein "Case-Cohort-Design" angewendet. Hierbei werden die Einflussgrößen nur für die Individuen erfasst, für die das interessierende Ereignis eintritt, und für eineIn vielen statistischen Anwendungen besteht die Aufgabe darin, die Beziehung zwischen Einflussgrößen und einer Zielgröße zu modellieren. Die Wahl eines geeigneten Modells hängt vom Typ der Zielgröße und vom Ziel der Untersuchung ab - während lineare Modelle für die Beschreibung des Zusammenhanges stetiger Outputs und Einflussgrößen genutzt werden, dienen logistische Regressionsmodelle zur Modellierung binärer Zielgrößen und das Cox-Modell zur Modellierung von Lebendauer-Daten. In epidemiologischen, medizinischen, biologischen, sozialen und ökonomischen Studien wird oftmals die logistische Regression angewendet, um den Zusammenhang zwischen einer binären Zielgröße und den erklärenden Variablen, den Kovariaten, zu modellieren. In epidemiologischen Studien muss häufig eine große Anzahl von Individuen für eine lange Zeit beobachtet werden. Um hierbei Kosten zu reduzieren, wird ein "Case-Cohort-Design" angewendet. Hierbei werden die Einflussgrößen nur für die Individuen erfasst, für die das interessierende Ereignis eintritt, und für eine zufällig gewählte kleine Teilmenge von Individuen, die Subkohorte. In der vorliegenden Arbeit wird das Schätzen im logistischen Regressionsmodell unter Case-Cohort-Design betrachtet. Für den Fall, dass auch die Kovariate binär ist, wurde bereits von Prentice (1986) die asymptotische Normalität des Maximum-Likelihood-Schätzers für den Logarithmus des "odds ratio", einen Parameter, der den Effekt der Kovariate charakterisiert, angegeben. In dieser Arbeit wird über einen Maximum-Likelihood-Zugang ein Schätzer für die Varianz der Grenzverteilung hergeleitet, für den durch empirische Untersuchungen gezeigt wird, dass er dem von Prentice überlegen ist. Ausgehend von dem binärem Kovariate-Modell werden Maximum-Likelihood-Schätzer für logistische Regressionsmodelle mit diskreten Kovariaten unter Case-Cohort-Design hergeleitet. Die asymptotische Normalität wird gezeigt; darauf aufbauend können Formeln für die Standardfehler angegeben werden. Simulationsstudien ergänzen diesen Abschnitt. Sie zeigen den Einfluss des Umfanges der Subkohorte auf die Varianz der Schätzer. Logistische Regression ist geeignet, wenn man das interessierende Ereignis für alle Individuen beobachten kann und wenn man ein festes Zeitintervall betrachtet. Will man die Zeit bis zum Eintreten eines Ereignisses bei der Untersuchung der Wirkung der Kovariate berücksichtigen, so sind Lebensdauermodelle angemessen. Hierbei können auch zensierte Daten behandelt werden. Ein sehr häufig angewendetes Regressionsmodell ist das von Cox (1972) vorgeschlagene, bei dem die Hazardrate durch λ(t|x) = λ0(t) exp(β^Tx) definiert ist. Hierbei ist λ0(t) eine unspezifizierte Baseline-Hazardrate und X ist ein Kovariat-Vektor, β ist ein p-dimensionaler Koeffizientenvektor. Nachdem ein Überblick über das Schätzen und Testen im Cox-Modell und seinen Erweiterungen gegeben wird, werden Aussagen zur Schätzbarkeit des Parameters β durch die "partiallikelihood"- Methode hergeleitet. Grundlage hierzu sind neue Darstellungen der beobachteten Fisher-Information, die die Ergebnisse von Andersen and Gill (1982) erweitern. Unter Regularitätsbedingungen ist der Schätzer asymptotisch normal; die Inverse der Grenzmatrix der Fisher-Information ist die Varianzmatrix der Grenzverteilung. Bedingungen für die Nichtsingularität dieser Grenzmatrix führen zum Begriff der asymptotischen Schätzbarkeit, der in der vorliegenden Arbeit ausführlich untersucht wird. Darüber hinaus ist diese Matrix Grundlage für die Herleitung lokal optimaler Kovariate. In einer Sensitivitätsanalyse wird die Effizienz gewählter Kovariate berechnet. Die Berechnungen zeigen, dass die Baseline-Verteilung nur wenig Einfluss auf die Effizienz hat. Entscheidend ist die Wahl der Kovariate. Es werden einige Vorschläge für anwendbare optimale Kovariate und Berechnungsverfahren für das Auffinden optimaler Kovariate diskutiert. Eine Erweiterung des Cox-Modells besteht darin, zeitabhängige Koeffizienten zuzulassen. Da diese Koeffizientenfunktionen nicht näher spezifiziert sind, werden sie nichtparametrisch geschätzt. Eine mögliche Methode ist die "local-linear-partial-likelihood"-Methode, deren Eigenschaften beispielsweise in der Arbeit von Cai and Sun (2003) untersucht wurden. In der vorliegenden Arbeit werden Simulationen zu dieser Methode durchgeführt. Hauptaspekt ist das Testen der Koeffizientenfunktion. Getestet wird, ob diese Funktion eine bestimmte parametrische Form besitzt. Betrachtet wird der Score-Vektor, der von der "localconstant-partial-likelihood"-Funktion abgeleitet wird. Ausgehend von der asymptotischen Normalität dieses Vektors an verschiedenen Gitterpunkten kann gezeigt werden, dass die Verteilung der geeignet standardisierten quadratischen Form unter der Nullhypothese gegen eine Chi-Quadrat-Verteilung konvergiert. Die Eigenschaften des auf dieser Grenzverteilungsaussage aufbauenden Tests hängen nicht nur vom Stichprobenumfang, sondern auch vom verwendeten Glättungsparameter ab. Deshalb ist es sinnvoll, auch einen Bootstrap-Test zu betrachten. In der vorliegenden Arbeit wird ein Bootstrap-Test zum Testen der Hypothese, dass die Koeffizienten-Funktion konstant ist, d.h. dass das klassische Cox-Modell vorliegt, vorgeschlagen. Der Algorithmus wird angegeben. Simulationen zum Verhalten dieses Tests unter der Nullhypothese und einer speziellen Alternative werden durchgeführt. Literatur P. K. Andersen and R. D. Gill. Cox's regression model for counting processes: a large sample study. Ann. Statist., 10(4):1100{1120, 1982. Z. Cai and Y. Sun. Local linear estimation for time-dependent coefficients in Cox's regression models. Scand. J. Statist., 30(1):93-111, 2003. D. R. Cox. Regression models and life-tables. J. Roy. Statist. Soc. Ser. B, 34:187-220, 1972. R. L. Prentice. A case-cohort design for epidemiologic cohort studies and disease prevention trials. Biometrika, 73(1):1-11, 1986.show moreshow less

Download full text files

Export metadata

Metadaten
Author:Korakot Wichitsa-nguan
URN:urn:nbn:de:kobv:517-opus4-90033
Advisor:Hannelore Liero
Document Type:Doctoral Thesis
Language:English
Year of Completion:2016
Publishing Institution:Universität Potsdam
Granting Institution:Universität Potsdam
Date of final exam:2016/04/19
Release Date:2016/04/25
Tag:Case-Cohort-Design; Cox-Modell; logistische Regression
Cox model; logistic regression analysis; survival analysis
Pagenumber:x, 131
RVK - Regensburg Classification:SK 840
Organizational units:Mathematisch-Naturwissenschaftliche Fakultät / Institut für Mathematik
CCS Classification:G. Mathematics of Computing
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 51 Mathematik / 510 Mathematik
MSC Classification:62-XX STATISTICS
Licence (German):License LogoKeine Nutzungslizenz vergeben - es gilt das deutsche Urheberrecht