Regressionsanalysen mit R by Rainer Schlittgen


8558f5838e5c40e-261x361.jpeg Author Rainer Schlittgen
Isbn 9783486717013
File size 4.1MB
Year 2013
Pages 358
Language German
File format PDF
Category mathematics



 

Lehr- und Handbücher der Statistik Herausgegeben von Prof. Dr. Rainer Schlittgen Bisher erschienene Titel: Bock, Bestimmung des Stichprobenumfangs- für biologische Experimente und kontrollierte klinische Studien Böhning, Allgemeine Epidemiologie und ihre methodischen Grundlagen Brunner, Langer, Nichtparametrische Analyse longitudinaler Daten Caspary, Wichmann, Lineare Modelle- Algebraische Grundlagen und statistische Anwendungen Chatterjee, Price, Praxis der Regressionsanalyse Degen, Lohrscheid, Statistik-Aufgabensammlung mit ausführlichen Lösungen Hartung, Elpelt, Voet, Modellkatalog Varianzanalyse Harvey, Ökonometrische Analyse von Zeitreihen Harvey, Zeitreihenmodelle Heiler, Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller, Grundlagen der Angewandten Statistik Naeve, Stochastik für Informatiker Oerthel, Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer, Heine, Hartung, Deskriptive Statistik Pflaumer, Heine, Hartung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse Rasch, Herrendörfer u. a., Verfahrenbibliothek, Band I und II Riedwyl, Ambühl, Statistische Auswertungen mit Regressionsprogrammen Rinne, Statistische Analyse multivariater Daten Rinne, Wirtschafts- und Bevölkerungsstatistik Rüger, Induktive Statistik- Einführung für Wirtschafts- und Sozialwissenschaftler Rüger, Test- und Schätztheorie, Band I und II Schendera, Datenmanagement und Datenanalyse mit dem SAS-System Schlittgen, Angewandte Zeitreihenanalyse mit R Schlittgen, Einführung in die Statistik- Analyse und Modellierung von Daten Schlittgen, GAUSS für statistische Berechnungen Schlittgen, Multivariate Statistik Schlittgen, Regressionsanalysen mit R Schlittgen, Statistische Auswertungen- Standardmethoden und Alternativen mit ihrer Durchführung in R Schlittgen, Statistische Inferenz Schlittgen, Statistik-Trainer- Aufgaben zur Analyse und Modellierung von Daten Schlittgen, Streitberg, Zeitreihenanalyse Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten- Anwendungsorientierte Einführung in LogitModellierung und kategoriale Regression Regressionsanalysen mit R von Prof. Dr. Rainer Schlittgen Universität Hamburg Oldenbourg Verlag München Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2013 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 143, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Dr. Stefan Giesen Herstellung: Tina Bonertz Einbandgestaltung: hauser lacour Gesamtherstellung: Grafik + Druck GmbH, München Dieses Papier ist alterungsbeständig nach DIN/ISO 9706. ISBN 978-3-486-71701-3 eISBN 978-3-486-73967-1 Vorwort Die Begriff Regression (lat.: regressio für Rückkehr) wurde von Francis Galton (1822 – 1911) im Rahmen der Untersuchung der Vererbung von Merkmalen von Vätern und Söhnen geprägt. In seiner berühmten Veröffentlichung aus dem Jahre 1886 untersuchte Galton die Beziehung der Größe der Väter und der ihrer Söhne. Er fand, dass die Söhne größerer bzw. kleinerer Väter tendenziell wieder näher beim Durchschnitt liegen. Dies bezeichnete er zunächst als ‚reversion‘ und später als ‚regression toward mediocrity‘. Im Rahmen der Regression wird die Abhängigkeit einer Variablen von (einer) anderen betrachtet. Zunächst untersuchte man lineare Abhängigkeiten, Regression war lineare Regression. In einem breiteren Sinn geht es in der Regression darum, eine Variable durch eine oder einige andere ‚zu erklären‘. Formal gesprochen sieht man allgemein das Ziel der Regression darin, Rückschlüsse über die bedingte Verteilung einer (univariaten) Responsevariablen Y bei gegebenem (1, p )-Vektor von Prädiktoren oder Regressoren x = (X 1 , . . . , X p ) zu machen. Wie ändert sich die bedingte Verteilung von Y bei gegebenem x , bezeichnet mit Y |x , mit den Werten von x ? Viele unterschiedliche statistische Konzepte sind dazu entwickelt worden. Die Bedeutung der Fragestellung wird auch daran deutlich, dass Regressionsmethoden den wohl wichtigsten Anwendungsbereich der Statistik darstellen. Unterschiedliche Datensituationen erforderten verschiedene Ansätze, um der formulierten Zielvorstellung gerecht zu werden. Das Skalenniveau der abhängigen Variablen führt zu unterschiedlichen Modellierungsansätzen für stetige und kategoriale zu erklärende Variablen. Bei kategorialen ist dann weiter zu unterteilen, ob binäre, multinomiale, ordinale oder solche mit absoluten Anzahlen von möglichen Werten betrachtet werden. Bei stetigen kann die Datensituation einmal dahingehend unterteilt werden, dass die Zielvariable vollständig beobachtet wird oder dass sie zensiert ist, dass also von einigen Beobachtungen nur bekannt ist, dass sie einen Schwellenwert nicht über- oder unterschreiten. Für den ersteren Fall können ganz unterschiedliche Formen der Tendenz unterstellt werden, wie die Prädiktoren auf die Zielgröße wirken. Regressionsmodelle sind oft von datenspezifischen Problemen heimgesucht, welche die Standardauswertung erschweren oder gar unmöglich machen. Dazu gehören die sogenannte Multikollinearität, extreme Beobachtungen, unterschiedliches Streuverhalten der Störungen und Korrelationen aufeinanderfolgender Beobachtungen. Dies hat zu eigenen Methoden geführt, die den einzelnen Problempunkten jeweils Rechnung tragen. Diese Gegebenheiten haben zur Gliederung des Buches nach den unterschiedlichen Datensituationen geführt. Die lineare Regression ist die am besten ausgearbeitete. Dementsprechend ist dieser Teil am stärksten in einzelne Kapitel aufgefächert. Da einige der weiteren Methoden in Spezialgebiete der Statistik hineinreichen, sind dafür knappe Überblicke der zugehörigen Grundlagen vorangestellt worden. Dies gilt speziell für die Hauptkomponentenanalyse, die Survival- und die Zeitreihenanalyse. VI Vorwort Es wird in diesem Buch eine große Anzahl von Regressionsansätzen präsentiert. Das kann nur geschehen, indem die Darstellung sich auf den Kern der Methoden beschränkt. Dass dies unabdingbar ist, lässt sich schon daran erkennen, dass es zu jeder der vorgestellten Methoden bzw. zu fast jedem vorgestellten Modell eigene Monographien gibt. Auf weitergehende Literatur wird jeweils zu Beginn der Literaturverzeichnisse der einzelnen Kapitel verwiesen. Eine zusätzliche Einschränkung bei der Auswahl der darzustellenden Ansätze besteht darin, dass nur Ansätze mit festen oder doch als fest angesehenen Werten der Regressoren aufgenommen sind, Das Buch richtet sich an alle, die mit der Anwendung von Statistik konfrontiert sind. Grundkenntnisse in Statistik werden vorausgesetzt. Die zahlreichen Beispiele werden mit der freien statistischen Programmierumgebung R durchgerechnet. R ist inzwischen weit verbreitet; die zugehörige URL lautet: http://www.r-project.org/ Dort findet man das Programm zum Herunterladen, viele Zusatzpakete, die den Umfang der Auswertungsmöglichkeiten enorm erweitern, und eine Liste von Büchern, die als Basis für das Arbeiten mit R geeignet sind. Einführungen in R gibt es nunmehr zahlreich auch im WWW; man braucht bloß „Einführung R“ in eine Suchmaschine einzugeben. Daher werden hier die Grundlagen von R nicht zusätzlich dargestellt. Die überwältigende Anzahl von Funktionen in R erlaubt es, die Vielfalt der hier besprochenen Methoden mit R allein und (fast) ohne eigene Programmierung umzusetzen. Zu den Beispielen wird der R-Kode angegeben. Diese Kodes und Daten zu den Beispielen sind auch auf der Webseite des Verlages unter Materialien zu dem Buch zu finden. In den Erklärungen zu den R-Kodes wird auch auf verschiedene Spezifika von R hingewiesen. Mit diesen Kodes als Muster sind nicht zu komplexe Auswertungen auf der Basis dieses Textes leicht möglich. Berlin, im Februar 2013 Rainer Schlittgen Inhaltsverzeichnis I Lineare Regression 1 1 Einfache lineare Regression 3 1.1 1.1.1 1.1.2 Regression als Deskription. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bestimmung der Regressionsgeraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Bestimmtheitsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 5 1.2 Das einfache lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 1.3.1 1.3.2 1.3.3 Schätzen und Testen im einfachen linearen Regressionsmodell . . . . . . . . . . . . . . . . . 8 Die Kleinste-Quadrate-Schätzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Konfidenzintervalle und Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Prognoseintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.4 Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.5 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 Multiple lineare Regression 19 2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 Das klassische lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests, Konfidenz- und Prognoseintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variablenselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stochastische Regressoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 24 35 40 44 47 2.2 2.2.1 2.2.2 2.2.3 Das allgemeine lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . KQ- und GKQ-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Heteroskedastische Störungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Clusterweise Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 50 51 56 2.3 2.3.1 2.3.2 2.3.3 Multivariate multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das multivariate lineare Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung im multivariaten Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das multivariate Modell mit normalverteilten Fehlern . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 61 63 2.4 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 VIII Inhaltsverzeichnis 3 Robuste Regression 67 3.1 Ausreißer und Einflusspunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2 3.2.1 3.2.2 3.2.3 3.2.4 Robuste Schätzer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erfassung der Robustheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . M-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . REWLS-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regressionsschätzer mit hohem Bruchpunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 3.3.1 3.3.2 Regressionsanalyse auf der Basis von Rängen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Transformation nur der Zielvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 R-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.4 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4 Lineare Regression mit vielen Regressoren 4.1 4.1.1 4.1.2 Hauptkomponentenregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Hauptkomponentenregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.2 4.2.1 4.2.2 Partial Least Squares-Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Univariate Responsevariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Multivariate Responses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.3 Beziehung zwischen Hauptkomponenten- und PLS-Regression . . . . . . . . . . . . . . . . 108 4.4 Reduzierte Rang-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.5 4.5.1 4.5.2 Regularisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Ridge-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 4.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 II Nichtlineare, nicht- und semiparametrische Regression 123 5 Nichtlineare Regression 125 5.1 5.1.1 5.1.2 5.1.3 Formen nichtlinearer Abhängigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linearisierbare Zusammenhänge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Polynomiale Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eigentlich nichtlineare Zusammenhänge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 125 128 131 5.2 5.2.1 5.2.2 5.2.3 Inferenzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kleinste-Quadrate Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistische Inferenz auf Basis der linearen Approximation . . . . . . . . . . . . . . . . . . . . . . Likelihoodquotienten-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 133 135 138 5.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 72 72 73 77 79 95 Inhaltsverzeichnis IX 6 Nichtparametrische Regression 6.1 6.1.1 6.1.2 Kernregression und Nächste-Nachbarn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Lokale Lageschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Biasreduktion durch gewichtete Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 6.2 Lokale polynomiale Glättung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 6.3 6.3.1 6.3.2 Spline-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Penalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 6.4 Additive Modelle (AM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 6.5 6.5.1 6.5.2 6.5.3 6.5.4 Regressionsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bestimmung eines Regressionsbaumes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spezielle Aspekte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eigenschaften von Regressionsbäumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 7 Semiparametrische Regression 7.1 Projection Pursuit Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 7.2 7.2.1 7.2.2 7.2.3 Suffiziente Reduktion der Dimension des Prädiktorraumes. . . . . . . . . . . . . . . . . . . . . . Sliced Inverse Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sliced Average Variance Estimation (SAVE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Haupt-Hesse-Richtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 8 Quantilsregression 8.1 8.1.1 8.1.2 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Quantilsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Regressionsquantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 8.2 8.2.1 8.2.2 Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Die Schätzprozedur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Eigenschaften der QR-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 8.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 III Kategoriale Zielvariablen 9 Logistische Regression 9.1 9.1.1 9.1.2 Binomialverteilte Zielgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Modellformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 143 168 168 171 177 179 183 187 188 193 194 199 213 215 X Inhaltsverzeichnis 9.1.3 9.1.4 Überprüfung der Modellanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 9.2 9.2.1 9.2.2 9.2.3 9.2.4 Logitmodelle für mehrkategorielle Zielgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Multinomiales Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kumulatives Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sequentielles Logitmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schätzen und Testen für mehrkategorielle Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 10 Generalisierte lineare Modelle 10.1 10.1.1 10.1.2 Das allgemeine Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Formulierung des Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 Parameterschätzung und Modellanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 10.2 10.2.1 10.2.2 10.2.3 Poisson-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Das Modell und seine Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testen im Poisson-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 IV Regressionsmodelle für zensierte Daten 11 Grundlagen der Analyse zensierter Daten 11.1 Survivor- und Hazardfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 11.2 Zensierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 11.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 12 Accelerated Failure Time- und Tobit-Modelle 12.1 12.1.1 12.1.2 Accelerated Failure Time-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Schätzen und Testen in AFT-Modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Überprüfung der Eignung eines AFT-Regressionsmodells. . . . . . . . . . . . . . . . . . . . . . . . 272 12.2 12.2.1 12.2.2 12.2.3 Tobit-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erweiterungen des Tobit-Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 13 Das Proportional-Hazards-Modell 13.1 Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 13.2 Partial-Likelihood-Inferenz für das PH-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 225 225 228 230 232 235 241 241 244 247 251 253 265 275 277 283 286 289 Inhaltsverzeichnis XI 13.2.1 13.2.2 Inferenz bzgl. β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 Schätzen der Survivorfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 13.3 Zeitabhängige Regressoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 13.4 13.4.1 13.4.2 Modell-Check . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 Maßzahlen zur Beurteilung einer Anpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 13.5 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 V Zeitreihen mit Regressoren 14 Grundlagen der Zeitreihenanalyse 14.1 Grundlegende Begriffsbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 14.2 ARIMA-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 14.3 Mehrdimensionale Zeitreihen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 14.4 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 15 Regressionsmodelle für Zeitreihen 15.1 Regression mit autokorrelierten Störungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 15.2 Interventionsanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 15.3 Transferfunktionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 15.4 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 307 309 315 Die verwendeten R-Pakete 337 Abkürzungen, Nomenklatur und Symbole 339 Sachindex 343 Teil I Lineare Regression 1 Einfache lineare Regression Im einfachsten Fall kann man davon ausgehen, dass eine metrisch skalierte Variable Y von einer anderen Variablen X linear abhängt. Beispiele dafür sind die Sparquote, die mit der Höhe des Einkommens steigt, der Bremsweg eines Kraftfahrzeuges, der mit höherer Geschwindigkeit länger wird, und die Miethöhe, die mit der Größe und der Ausstattung der Wohnung steigt. Dann ist die lineare Beziehung zu ermitteln. 1.1 Regression als Deskription Zunächst wird die Fragestellung als rein deskriptive Beschreibungsaufgabe betrachtet. Das bedeutet dann, dass durch die Punkte (x i , y i ), i = 1, . . . , n , eine Ausgleichsgerade gelegt werden soll, die diese Punkte im Wesentlichen beschreibt. 1.1.1 Bestimmung der Regressionsgeraden Eine Ausgleichsgerade hat die Form y = b 0 + b 1 x . Bezüglich der Ausgangspunkte (x i , y i ) gilt dann die Beziehung (i = 1, . . . , n ) . yi = b 0 + b 1 · x i + e i 5 Es ist plausibel, von den Abweichungen oder Fehlern e i , also von den Differenzen zwischen den tatsächlichen Werten y i und den zugehörigen, auf der Gerade liegenden Werten b 0 + b 1 x i auszugehen. Dies ist in der Abbildung 1.1 skizziert. Y 3 4 b1 2 b0 + b1x1 y1 − (b0 + b1x1) 0 1 y1 b0 0 2 4 6 8 X Abb. 1.1: Zur Bestimmung einer Ausgleichsgeraden Möglichst gut beschreibt eine Gerade die Punkte dann, wenn die Fehler insgesamt klein 4 1 Einfache lineare Regression sind. Allgemein verbreitet ist die Bestimmung der Ausgleichsgeraden nach der Kleinste-Quaˆ 1 als Minimalstellen der Summe ˆ 0, b drate-Methode (KQ-Methode), bei der die Koeffizienten b der quadrierten Abweichungen bestimmt werden: ˆ 1 ) = argmin ˆ 0, b (b  b 0 ,b 1  n   (y i − (b 0 + b 1 x i )) 2 . (1.1) i =1 Dadurch werden also die beiden Koeffizienten b 0 und b 1 der Ausgleichsgeraden festgelegt. Die resultierende Ausgleichsgerade wird als Regressionsgerade bezeichnet; dafür wird ˆ0 +b ˆ 1x yˆ = b (1.2) ˆ 0 gibt dabei den Achsenabschnitt auf der y -Achse an und b ˆ 1 die Steigung der geschrieben. b ˆ Geraden. b 1 wird auch Regressionskoeffizient genannt. Zu x i gehört nun nicht nur ein empirischer Wert y i , sondern auch ein ‚angepasster‘, nämlich ˆ 1 x i . Die zugehörige Differenz ˆ0 +b yˆi = b ˆ0 +b ˆ 1x i ) ; eˆi = y i − yˆ = y i − (b (1.3) wird als Residuum bezeichnet. ˆ 0, b ˆ 1 der RegressiDie Kleinste-Quadrate-Methode ergibt folgende Werte der Koeffizienten b ˆ ˆ onsgeraden yˆ = b 0 + b 1 x bei einem gegebenen Datensatz (x i , y i ), i = 1, . . . , n : ¯ ¯ ˆ 1 = x y − x · y = sXY . (1.4) b 2 s X2 x − x¯ 2 n Dabei ist x¯ das übliche arithmetische Mittel, x¯ = i =1 x i , entsprechend y¯ und x y das der n Produkte x i y i . Weiter ist s X2 die empirische Varianz s X2 = i =1 (x i − x¯ )2 /(n − 1). Die Summe 2 der quadrierten Abweichungen wird auch n angegeben als SS(x ), so dass s X = SS(x )/(n − 1). Schließlich ist s X Y die Kovarianz, s X Y = i =1 (x i − x¯ )(y i − y¯ )/(n − 1). ˆ 1 x¯ , ˆ 0 = y¯ − b b ˆ 0 zeigt, dass die nach der Kleinste-Quadrate-Methode erDie Bestimmungsgleichung für b mittelte Gerade stets durch (x¯ , y¯ ), den Schwerpunkt des Datensatzes, verläuft. (Diese Aussage hängt offensichtlich daran, dass ein konstanter Term b 0 berücksichtigt wird!) Beispiel 1.1 Internetnutzung in der EU In einer Erhebung wurde für 2011 der Einsatz von Computer und Internet untersucht, siehe Czajka & Jechová (2012). Einmal ist angegeben, wie stark Schüler, Schülerinnen und Studierenden das Internet am Ort der Bildung in allen Ländern der Europäischen Union nutzen (Variable ISU). Durch das Internet ist es weiter möglich, mit Behörden online in Kontakt zu treten und das Internet für private Behördengänge zu nutzen. Unter E-Government geführte Kontakte zu Behörden oder öffentlichen Einrichtungen werden folgende Aktivitäten zusammengefasst: die Informationssuche auf Webseiten, das Herunterladen von amtlichen Formularen und die Rücksendung ausgefüllter Formulare über das Internet (Variable EGov). Da mit einer erhöhten Nutzung des Internet an 1.1 Regression als Deskription 5 Bildungseinrichtungen die Bereitschaft für E-Government steigen dürfte, wird hier die Abhängigkeit von EGov von ISU betrachtet. Das Streudiagramm mit der Ausgleichsgeraden ist in der Abbildung 1.2 dargestellt. Man sieht eine leicht steigende Tendenz. Die mit der Kleinste-Quadrate-Methode ermittelten Koeffizienten sind: ISU 0.4895 60 20 40 EGov 80 Coefficients: (Intercept) 19.2190 50 60 70 80 90 ISU Abb. 1.2: Internetnutzung an Bildungseinrichtungen und E-Government R-Kode: 1 2 3 4 5 6 7 dat<-read.table("interneteu.dat",header=T) dat <- na.omit(dat) attach(dat) out <- lm(EGov~ISU) out plot(ISU,EGov) abline(out) Die Daten werden eingelesen, die Fälle mit fehlenden Werten werden eliminiert und die Variablen im Suchpfad zugänglich gemacht. Mit der Funktion lm werden die KQ-Regressionskoeffizienten ermittelt. Die Konstante ist per Voreinstel- 1.1.2 lung im Modell enthalten. Die Ausgabe der ermittelten Koeffizienten geschieht mit der Anforderung auf Zeile 4. Die Ausgleichsgerade wird mit dem Befehl auf Zeile 6 dem Streudiagramm hinzugefügt. Das Bestimmtheitsmaß Unter der Voraussetzung, dass die Beschreibung der Punkte (x i , y i ) durch eine Gerade überhaupt sinnvoll ist, stellt sich die Frage, wie gut sie dies tut. Das wird mit einer Maßzahl erfasst, die bei ‚guter Beschreibung‘ einen großen Wert annimmt und bei ‚schlechter‘ einen 6 1 Einfache lineare Regression kleinen. Ausgangspunkt bildet die folgende Beziehung für die nach der Kleinste-QuadrateMethode bestimmten angepassten Regressionspunkte, die Streuungszerlegung SS Total = SS Modell + SS Fehler . (1.5) Dabei sind die Quadratsummen (Sums of Squares): SS Total = n  (y i − y¯ )2 , SS Modell = i =1 n  (yˆi − yˆ¯ )2 und SS Fehler = i =1 n  (yˆi − y i )2 . i =1 Der Streuungsteil SS Modell geht darauf zurück, dass die Regressionsfunktion nicht konstant ist. SS Fehler = RSS gibt an, wie stark die Werte der abhängigen Variablen um die Regressionsfunktion schwanken. Die Zerlegung zeigt, dass die Fehlerquadratsumme SS Fehler umso kleiner ausfällt, je größer SS Modell ist. Die Beziehung (1.5) wird auch als Varianzzerlegung der Regressionsrechnung bezeichnet. ^ Y Y ^ Y Y ^ Y Y y s2Y = s2Y^ s2Y > s2Y^ und s2Y^ > 0 s2Y^ = 0 und s2Y = s2U^ Abb. 1.3: Zur Varianzzerlegung bei der Regressionsgeraden Das Bestimmtheitsmaß R 2 ist definiert als Anteil der erklärten Summe an der gesamten Summe der Abweichungsquadrate: R2 = SS Modell SS Fehler =1− . SS Total SS Total (1.6) Aufgrund von (1.5) gilt 0 ≤ R 2 ≤ 1 und R 2 = 1 genau dann, wenn yˆi = y i , d. h. wenn alle beobachteten Punkte auf einer Geraden liegen. Zwischen den Variablen besteht dann ein n perfekter linearer Zusammenhang. Das Bestimmtheitsmaß ist andererseits null, wenn ˆ ¯ 2 = 0 gilt. Dies ist nur dann der Fall, wenn alle yˆi gleich sind, wenn also die Gei =1 (y i − y ) rade die Steigung 0 hat. In diesem Fall erklärt die Regressionsgerade nichts, zwischen den Merkmalen besteht keinerlei linearer Zusammenhang. R 2 ist eine relative Größe. Daher kann es auch groß sein, wenn die Punkte relativ stark um die Gerade streuen, sofern nur die Steigung groß ist. Insgesamt kann von einem Wert des Bestimmtheitsmaßes nicht auf die Form zurückgeschlossen werden. Man kann das Bestimmtheitsmaß deshalb nur in Verbindung mit dem Streudiagramm interpretieren. 1.2 Das einfache lineare Regressionsmodell 7 Die große Bedeutung des Bestimmtheitsmaßes liegt darin, dass das zugrunde liegende Prinzip generell, z. B. auch bei der multiplen Regression, bei der mehrere unabhängige Variablen zugelassen sind, anwendbar ist. Genauer formuliert kann die Eignung vieler Modelle aufgrund des Verhältnisses der erklärten Varianz zur gesamten Varianz eingeschätzt werden. Beispiel 1.2 Internetnutzung in der EU – Fortsetzung von Seite 4 Für den Datensatz der Internetnutzung erhält man: R 2 = 0.1969 . Der Wert ist niedrig; es wird nur knapp 20% der Varianz erklärt. R-Kode: 1 summary(out) Neben vielen anderen, später zu besprechenden Kenngrößen wird das Bestimmtheitsmaß ausgegeben, wenn 1.2 summary auf das Ergebnis der Funktion lm angewendet wird. Hier ist es die Angabe Multiple R-squared. Das einfache lineare Regressionsmodell Es gibt zahlreiche Fragestellungen, die über eine einfache Beschreibung der Abhängigkeit hinausgehen. Einmal kann es sein, dass die Ergebnisse von einer Stichprobe auf eine Grundgesamtheit verallgemeinert werden sollen. Dann möchte man bisweilen die Abhängigkeit zur Prognose ausnutzen. Beides ist nur möglich, wenn geeignete Annahmen über die Beziehungen der Variablen auch für nicht beobachtete Wertepaare unterstellt werden. Will man weitergehende Aussagen über die Abhängigkeit der zu erklärenden Variablen Y von der erklärenden X machen, ist ein Modell zu unterstellen. Um diese neue Sichtweise hervorzuheben, werden die Koeffizienten der Modellgeraden nun mit β0 und β1 bezeichnet. Zunächst braucht man keine explizite Verteilungsannahme. Da eine solche aber später wesentlich wird, sei diese Situation schon hier hervorgehoben. Definition 1.3 Modell der (einfachen) linearen Regression Im Modell der (einfachen) linearen Regression hängen die Zufallsvariablen Yi , die die potentiellen Beobachtungen der abhängigen Variablen Y an den fest vorgegebenen Werten x i der unabhängigen Variablen X erfassen, linear von diesen Werten ab: Yi = β0 + β1 x i + i i = 1, . . . , n . (1.7) Für die Störgrößen i gilt dabei: (i) 1 , . . . , n sind identisch verteilt mit E(i ) = 0 und Var(i ) = σ2 . (ii) 1 , . . . , n sind unabhängig. Wird zusätzlich gefordert, dass die Störungen i normalverteilt sind, i ∼  (0, σ2 ), so spricht man von einem Regressionsmodell mit normalverteilten Störungen. 8 1 Einfache lineare Regression y = β0 + β1x Abb. 1.4: Das einfache lineare Regressionsmodell Die Abbildung 1.4 verdeutlicht das einfache Regressionsmodell. Die Forderung der Unabhängigkeit und identischen Verteilung von Zufallsvariablen wird häufig mit iid (von independent identically distributed) abgekürzt. Die identische Verteilung der i bewirkt, dass die Verteilungen der Yi bis auf eine Verschiebung gleich sind. Insbesondere gilt: E(Yi ) = E(β0 + β1 x i + i ) = β0 + β1 x i , Var(Yi ) = Var(β0 + β1 x i + i ) = σ2 . Yi stellt die Beobachtung der Variablen Y für den Wert x i der unabhängigen Variablen X dar. Dies wird auch durch die Schreibweise E(Y |X = x i ) oder einfach E(Y |x i ) gekennzeichnet. E(Y |X = x i ) heißt der bedingte Erwartungswert von Y bei gegebenem Wert x von X . Im Rahmen eines Modells ist auch die Interpretation der beiden Koeffizienten von Interesse. β0 ist der Achsenabschnitt. Sofern der Wertebereich der erklärenden Variablen X den Nullpunkt nicht einschließt, sollte er i. d. R. nicht interpretiert werden. β1 ist der Steigungskoeffizient; er gibt an um wie viel die Gerade steigt, wenn auf der Abszisse eine Einheit weitergegangen wird. 1.3 Schätzen und Testen im einfachen linearen Regressionsmodell 1.3.1 Die Kleinste-Quadrate-Schätzfunktion Die Bestimmung der empirischen Regressionsgeraden nach der Kleinste-Quadrate-Methode ergibt im Rahmen des Regressionsmodells eine Schätzmethode. Die Interpretation der empirisch ermittelten Parameter βˆ0 und βˆ1 als Schätzwerte der Modellparameter macht dabei den eigentlichen Unterschied zum deskriptiven Ansatz aus. Da die Werte x 1 , . . . , x n als fest vorgegeben betrachtet werden, sind βˆ0 und βˆ1 jetzt Realisationen von Funktionen der Zufallsvariablen Y1 , . . . , Yn .

Author Rainer Schlittgen Isbn 9783486717013 File size 4.1MB Year 2013 Pages 358 Language German File format PDF Category Mathematics Book Description: FacebookTwitterGoogle+TumblrDiggMySpaceShare Das Buch vereinigt die zahlreichen Ansätze zur Erklärung einer Menge von Variablen mittels einer anderen Variablenmenge. Die Ansätze werden in ihren Grundstrukturen dargestellt. Die Beschränkung darauf ist notwendig, gibt es doch zu jeder der vorgestellten Methoden eigene Monographien. Auf diese Spezialliteratur wird für weitergehende Aspekte verwiesen. Die zahlreichen Beispiele werden mit der freien statistischen Programmierumgebung R durchgerechnet; dazu wird der R-Code angegeben. Die überwältigende Anzahl von Funktionen in R erlaubt es, die Vielfalt der hier besprochenen Methoden mit R allein und ohne Programmierung umzusetzen. So sind nicht zu komplexe Auswertungen auf der Basis dieses Textes leicht möglich.     Download (4.1MB) Programmieren mit MATLAB: Programmiersprache, Grafische Benutzeroberflächen, Anwendungen Wahrscheinlichkeitsrechnung und schließende Statistik Leitidee Daten und Zufall Übungsbuch Mathematik Für Fachschule Technik Und Berufskolleg (auflage: 2) Die Mathematik Des Daseins: Eine Kurze Geschichte Der Spieltheorie Load more posts

Leave a Reply

Your email address will not be published. Required fields are marked *