Sunday 16 July 2017

Autoregressive Moving Average Time Series Modell


Es gibt eine Reihe von Ansätzen zur Modellierung von Zeitreihen. Wir skizzieren einige der häufigsten Ansätze unten. Trend, saisonal, Restzersetzungen Ein Ansatz ist es, die Zeitreihen in einen Trend-, Saison - und Restbestandteil zu zerlegen. Eine dreifache Exponentialglättung ist ein Beispiel für diesen Ansatz. Ein anderes Beispiel, das saisonale Löß genannt wird, basiert auf lokal gewichteten kleinsten Quadraten und wird von Cleveland (1993) diskutiert. Wir behandeln nicht saisonale Löss in diesem Handbuch. Frequenzbasierte Methoden Ein weiterer Ansatz, der in der wissenschaftlichen und technischen Anwendung häufig verwendet wird, besteht darin, die Serie im Frequenzbereich zu analysieren. Ein Beispiel für diesen Ansatz bei der Modellierung eines sinusförmigen Datensatzes wird in der Strahlablenkungsfallstudie gezeigt. Das Spektraldiagramm ist das Hauptinstrument für die Frequenzanalyse von Zeitreihen. Autoregressive (AR) Modelle Ein allgemeiner Ansatz für die Modellierung univariater Zeitreihen ist das autoregressive (AR) Modell: Xt delta phi1 X phi2 X cdots phip X At, wobei (Xt) die Zeitreihe, (At) das weiße Rauschen und delta ist Links (1 - sum p phii rechts) mu. Mit (mu) das Prozeßmittel. Ein autoregressives Modell ist einfach eine lineare Regression des aktuellen Wertes der Serie gegen einen oder mehrere vorherige Werte der Serie. Der Wert von (p) wird als Ordnung des AR-Modells bezeichnet. AR-Modelle können mit einer von verschiedenen Methoden analysiert werden, einschließlich Standard-linearen Methoden der kleinsten Quadrate. Sie haben auch eine einfache Interpretation. Moving Average (MA) Modelle Ein weiteres gemeinsames Konzept für die Modellierung von univariaten Zeitreihenmodellen ist das gleitende Durchschnittsmodell (MA): Xt mu At - theta1 A - theta2 A - cdots - thetaq A, wobei (Xt) die Zeitreihe (mu ) Ist der Mittelwert der Reihe, (A) sind weiße Rauschterme, und (theta1,, ldots,, thetaq) sind die Parameter des Modells. Der Wert von (q) wird als Ordnung des MA-Modells bezeichnet. Das heißt, ein gleitendes Durchschnittsmodell ist konzeptionell eine lineare Regression des aktuellen Wertes der Reihe gegen das weiße Rauschen oder zufällige Schocks eines oder mehrerer früherer Werte der Reihe. Es wird angenommen, daß die zufälligen Schocks an jedem Punkt von der gleichen Verteilung, typischerweise einer Normalverteilung, mit einer Stelle bei Null und einer konstanten Skala kommen. Die Unterscheidung in diesem Modell ist, dass diese zufälligen Schocks propagiert werden, um zukünftige Werte der Zeitreihe. Das Anpassen der MA-Schätzungen ist komplizierter als bei AR-Modellen, da die Fehlerterme nicht beobachtbar sind. Dies bedeutet, dass iterative nicht-lineare Anpassungsverfahren anstelle von linearen kleinsten Quadraten verwendet werden müssen. MA-Modelle haben auch eine weniger offensichtliche Interpretation als AR-Modelle. Manchmal schlagen die ACF und PACF vor, dass ein MA-Modell eine bessere Modellwahl wäre und manchmal beide AR - und MA-Begriffe in demselben Modell verwendet werden sollten (siehe Abschnitt 6.4.4.5). Beachten Sie jedoch, dass die Fehlerterme nach dem Modell unabhängig sein sollten und den Standardannahmen für einen univariaten Prozess folgen. Box und Jenkins einen Ansatz, der den gleitenden Durchschnitt und die autoregressiven Ansätze in dem Buch Time Series Analysis: Forecasting and Control (Box, Jenkins und Reinsel, 1994) kombiniert. Obwohl sowohl autoregressive als auch gleitende Durchschnittsansätze bereits bekannt waren (und ursprünglich von Yule untersucht wurden) bestand der Beitrag von Box und Jenkins darin, eine systematische Methodik zur Identifizierung und Schätzung von Modellen zu entwickeln, die beide Ansätze berücksichtigen könnten. Dies macht Box-Jenkins Modelle eine leistungsfähige Klasse von Modellen. Die beiden folgenden Abschnitte behandeln diese Modelle im Detail. Autoregressive Moving Average ARMA (p, q) Modelle für die Zeitreihenanalyse - Teil 2 Im Teil 1 betrachteten wir das autoregressive Modell der Ordnung p, auch als AR (p) - Modell bekannt. Wir führten es als eine Erweiterung des Zufallsmodells ein, um eine weitere serielle Korrelation in finanziellen Zeitreihen zu erläutern. Schließlich erkannten wir, dass es nicht genügend flexibel war, um alle Autokorrelationen in den Schlusskursen der Amazon Inc. (AMZN) und des SampP500 US Equity Index wirklich zu erfassen. Der Hauptgrund dafür ist, dass beide Vermögenswerte bedingt heteroskedastisch sind. Was bedeutet, dass sie nicht-stationär sind und Perioden variierender Varianz oder Volatilitäts-Clustering aufweisen, was von dem AR (p) - Modell nicht berücksichtigt wird. In künftigen Artikeln werden wir schließlich die Autoregressive Integrated Moving Average (ARIMA) Modelle sowie die bedingt heteroskedastischen Modelle der ARCH - und GARCH-Familien aufbauen. Diese Modelle werden uns unsere ersten realistischen Versuche zur Prognose von Vermögenspreisen bieten. In diesem Artikel werden wir jedoch die Moving Average der Ordnung q-Modell, bekannt als MA (q) einzuführen. Dies ist ein Teil des allgemeineren ARMA-Modells und als solches müssen wir es verstehen, bevor wir weitergehen. Ich empfehle Ihnen, lesen Sie die vorherigen Artikel in der Zeitreihe Analyse-Sammlung, wenn Sie dies nicht getan haben. Sie können alle hier gefunden werden. Moving Average (MA) Modelle der Ordnung q Ein Moving Average-Modell ähnelt einem autoregressiven Modell, mit der Ausnahme, dass es sich nicht um eine lineare Kombination von vergangenen Zeitreihenwerten handelt, sondern um eine lineare Kombination der vergangenen weißen Rauschterme. Intuitiv bedeutet dies, dass das MA-Modell solche zufälligen weißen Rauschschocks direkt bei jedem aktuellen Wert des Modells sieht. Dies steht im Gegensatz zu einem AR (p) - Modell, wo die weißen Rauschschocks nur indirekt gesehen werden. Über Regression auf frühere Ausdrücke der Reihe. Ein wesentlicher Unterschied besteht darin, dass das MA-Modell nur die letzten q-Schocks für ein bestimmtes MA (q) - Modell sehen wird, während das AR (p) - Modell alle vorherigen Schocks berücksichtigt, wenn auch in einer abnehmend schwachen Weise. Definition Mathematisch ist das MA (q) ein lineares Regressionsmodell und ist ähnlich strukturiert nach AR (p): Moving Average Modell der Ordnung q Ein Zeitreihenmodell ist ein gleitendes Durchschnittsmodell der Ordnung q. MA (q), wenn: Anfang xt wt beta1 w ldots betaq w end Wo ist weißes Rauschen mit E (wt) 0 und Varianz sigma2. Wenn wir den Backward Shift Operator betrachten. (Siehe vorhergehender Artikel), so können wir die obigen Funktionen als Funktion phi folgendermaßen umschreiben: begin xt (1 beta1 beta2 2 ldots betaq q) wt phiq () wt end Wir werden in späteren Artikeln die phi-Funktion nutzen. Eigenschaften der zweiten Ordnung Wie bei AR (p) ist der Mittelwert eines MA (q) - Verfahrens gleich Null. Dies ist leicht zu sehen, da der Mittelwert einfach eine Summe von Mitteln von weißen Rauschtermen ist, die alle selbst Null sind. Start Text enspace mux E (xt) Summe E (wi) 0 Ende Anfang Text enspace sigma2w (1 beta21 ldots beta2q) Ende Text enspace rhok links 1 Text enspace k 0 Summe Beta Beta Summe Beta2i Text enspace k 1, ldots, q 0 Text Enspace k gt q Ende rechts. Wo beta0 1. Wurden jetzt einige simulierte Daten generieren und verwenden, um correlograms zu erstellen. Dies wird die obige Formel für rhok etwas konkreter machen. Simulationen und Correlogramme Beginnen wir mit einem MA (1) - Prozess. Wenn wir beta1 0.6 setzen, erhalten wir das folgende Modell: Wie bei den AR (p) - Modellen im vorherigen Artikel können wir R verwenden, um eine solche Reihe zu simulieren und dann das Korrelogramm zu zeichnen. Da wir in der vorigen Zeitreihenanalyse eine Reihe von Übungen durchführen, werde ich den R-Code vollständig schreiben, anstatt ihn aufzuteilen: Die Ausgabe ist wie folgt: Wie wir oben in der Formel für rhok gesehen haben , Für k gt q sollten alle Autokorrelationen Null sein. Da q 1 ist, sollten wir einen signifikanten Peak bei k1 und dann danach signifikante Peaks sehen. Aufgrund der Stichprobenvorhersage sollten wir jedoch erwarten, dass 5 (marginal) signifikante Peaks auf einer Stichproben-Autokorrelationskurve zu sehen sind. Genau das zeigt uns das Korrelogramm. Wir haben einen signifikanten Peak bei k1 und dann unbedeutende Peaks für k gt 1, mit Ausnahme von k4, wo wir einen marginell signifikanten Peak haben. Tatsächlich ist dies eine nützliche Möglichkeit, zu sehen, ob ein MA (q) - Modell geeignet ist. Durch Betrachten des Korrelogramms einer bestimmten Reihe können wir sehen, wie viele sequenzielle Nicht-Null-Verzögerungen existieren. Wenn q solche Lags existieren, dann können wir legitimerweise versuchen, ein MA (q) - Modell an eine bestimmte Serie anzupassen. Da wir Beweise aus unseren simulierten Daten eines MA (1) - Prozesses haben, sollten wir nun versuchen, ein MA (1) - Modell an unsere simulierten Daten anzupassen. Leider gibt es keinen äquivalenten ma Befehl zum autoregressiven Modell ar Befehl in R. Stattdessen müssen wir den allgemeineren arima Befehl benutzen und die autoregressiven und integrierten Komponenten auf Null setzen. Dazu erstellen wir einen 3-Vektor und setzen die ersten beiden Komponenten (die autogressiven und integrierten Parameter) auf Null: Wir erhalten eine nützliche Ausgabe aus dem Befehl arima. Erstens können wir sehen, dass der Parameter als Hut 0.602 geschätzt wurde, der sehr nahe am wahren Wert von beta1 0,6 liegt. Zweitens sind die Standardfehler bereits für uns berechnet, so dass es einfach ist, Konfidenzintervalle zu berechnen. Drittens erhalten wir eine geschätzte Varianz, Log-Likelihood und Akaike Information Criterion (notwendig für Modellvergleich). Der Hauptunterschied zwischen arima und ar ist, dass arima einen Intercept-Term schätzt, da er den Mittelwert der Serie nicht subtrahiert. Daher müssen wir vorsichtig sein, wenn wir Vorhersagen mit dem Befehl arima durchführen. Nun wieder auf diesen Punkt später. Wie ein schneller Check wurden, um Konfidenzintervalle für Hut zu berechnen: Wir können sehen, dass die 95 Konfidenzintervall den wahren Parameterwert von beta1 0,6 enthält und so können wir beurteilen, das Modell eine gute Passform. Offensichtlich sollte das erwartet werden, da wir die Daten an erster Stelle simuliert haben. Wie ändern sich die Dinge, wenn wir das Vorzeichen von beta1 auf -0.6 ändern, können wir die gleiche Analyse durchführen: Die Ausgabe ist wie folgt: Wir können sehen, dass wir bei k1 einen signifikanten Wert haben Peak im Korrelogramm, mit der Ausnahme, dass es eine negative Korrelation zeigt, wie es ein MA (1) - Modell mit negativem ersten Koeffizienten erwartet. Wiederum sind alle Peaks jenseits von k1 unbedeutend. Ermöglicht ein MA (1) - Modell und schätzen den Parameter: Hut -0.730, was eine kleine Unterbewertung von beta1 -0.6 ist. Schließlich lässt sich das Konfidenzintervall berechnen: Wir können sehen, dass der wahre Parameterwert von beta1-0.6 innerhalb des 95 Konfidenzintervalls enthalten ist, was uns den Beweis für ein gutes Modell passt. Lass uns das gleiche Verfahren für einen MA (3) Prozess durchlaufen. Diesmal sollten signifikante Peaks bei k in und unbedeutende Peaks für kgt 3 erwartet werden. Wir verwenden die folgenden Koeffizienten: beta1 0,6, beta2 0,4 und beta3 0,2. Wir können einen MA (3) Prozess von diesem Modell simulieren. Ive erhöhte die Anzahl der zufälligen Proben auf 1000 in dieser Simulation, was es leichter macht, die wahre Autokorrelationsstruktur zu sehen, und zwar auf Kosten der Herstellung der Originalreihe schwerer zu interpretieren: Die Ausgabe ist wie folgt: Wie erwartet sind die ersten drei Spitzen signifikant . Jedoch ist so das vierte. Aber wir können legitim vorschlagen, dass dies auf eine Stichprobe zurückzuführen ist, da wir erwarten, dass 5 der Peaks signifikant über kq liegen. Nun kann ein MA (3) - Modell an die Daten angepasst werden, um die Parameter zu probieren und zu schätzen: Die Schätzwerte Hut 0,544, Hut 0,345 und Hut 0,228 liegen nahe bei den wahren Werten von beta10,6, beta20,4 bzw. beta30,3. Wir können auch Konfidenzintervalle mit den jeweiligen Standardfehlern erzeugen: In jedem Fall enthalten die 95 Konfidenzintervalle den wahren Parameterwert und wir können schließen, dass wir, wie zu erwarten, gut mit unserem MA (3) - Modell übereinstimmen. Finanzdaten In Teil 1 betrachteten wir Amazon Inc. (AMZN) und den SampP500 US Equity Index. Wir passten das AR (p) - Modell an beide an und fanden, dass das Modell nicht in der Lage war, die Komplexität der seriellen Korrelation effektiv zu erfassen, vor allem im Guss des SampP500, wo Langzeitgedächtniseffekte zu sein scheinen. Ich wont plot die Diagramme wieder für die Preise und Autokorrelation, statt Ill weisen Sie auf die vorherige Post. Amazon Inc. (AMZN) Beginnen wir mit dem Versuch, eine Auswahl von MA (q) - Modellen an AMZN, nämlich mit q in passen. Wie in Teil 1, verwenden Sie quantmod, um die Tagespreise für AMZN herunterzuladen und sie dann in ein Protokoll umzuwandeln, um den Strom von Schlusskursen zurückzugeben: Jetzt können wir den Befehl arima verwenden, um MA (1), MA zu passen (2) und MA (3) - Modellen und schätzen dann die Parameter von jedem. Für MA (1) haben wir: Wir können die Residuen der täglichen Logarithmen und des angepassten Modells darstellen: Beachten Sie, dass wir einige signifikante Peaks bei den Lags k2, k11, k16 und k18 haben, was anzeigt, dass das MA (1) - Modell ist Unwahrscheinlich, dass eine gute Passform für das Verhalten der AMZN-Log-Rückkehr, da dies nicht aussehen wie eine Verwirklichung von weißem Rauschen. Lets try ein MA (2) - Modell: Beide Schätzungen für die Beta-Koeffizienten sind negativ. Wir können die Residuen wieder zeichnen: Wir können sehen, dass es fast Null Autokorrelation in den ersten paar Verzögerungen. Allerdings haben wir fünf marginale signifikante Peaks bei den Verzögerungen k12, k16, k19, k25 und k27. Dies ist naheliegend, dass das MA (2) - Modell viel von der Autokorrelation erfasst, aber nicht alle Langzeitspeicher-Effekte. Wie sieht es mit einem MA (3) - Modell aus? Wiederum können die Residuen geplottet werden: Das MA (3) Residualplot sieht fast identisch mit dem MA (2) - Modell aus. Dies ist nicht verwunderlich, wie das Hinzufügen eines neuen Parameters zu einem Modell, scheinbar erklärt hat viel von den Korrelationen bei kürzeren Verzögerungen, aber das hat nicht viel Einfluss auf die längerfristigen Verzögerungen. Alle diese Beweise deuten darauf hin, dass ein MA (q) - Modell ist unwahrscheinlich, dass es nützlich sein, zu erklären, alle der seriellen Korrelation in Isolation. Zumindest für AMZN. SampP500 Wenn Sie sich erinnern, in Teil 1 sahen wir, dass die erste Reihenfolge differenzierte tägliche Log Rückkehr Struktur des SampP500 besaß viele signifikante Peaks bei verschiedenen Lags, sowohl kurz als auch lang. Dies zeigte sowohl die bedingte Heteroskedastizität (d. H. Die Volatilitäts-Clusterbildung) als auch die Langzeitspeicher-Effekte. Es führte zu dem Schluss, dass das AR (p) - Modell nicht ausreicht, um die gesamte vorhandene Autokorrelation zu erfassen. Wie wir oben gesehen haben, reicht das MA (q) - Modell nicht aus, um zusätzliche Serienkorrelationen in den Resten des eingebauten Modells auf die differenzierten täglichen Log-Preisreihen erster Ordnung zu erfassen. Wir werden nun versuchen, das MA (q) - Modell an den SampP500 anzupassen. Man könnte fragen, warum wir dies tun, wenn wir wissen, dass es unwahrscheinlich, dass eine gute Passform ist. Das ist eine gute Frage. Die Antwort ist, dass wir genau sehen müssen, wie es nicht eine gute Passform ist, denn dies ist der ultimative Prozess, dem wir folgen werden, wenn wir auf sehr viel anspruchsvollere Modelle stoßen, die möglicherweise schwerer zu interpretieren sind. Lets beginnen mit dem Erhalten der Daten und die Umwandlung in eine erste Reihenfolge differenzierte Reihe von logarithmisch umgewandelt täglichen Schlusskurse wie im vorherigen Artikel: Wir werden jetzt ein MA (1), MA (2) und MA (3) - Modell zu passen Die Serie, wie wir oben für AMZN. Beginnen wir mit MA (1): Machen wir eine Auftragung der Residuen dieses angepassten Modells: Der erste signifikante Peak tritt bei k2 auf, aber es gibt viel mehr bei k in. Dies ist eindeutig keine Verwirklichung von weißem Rauschen und deshalb müssen wir das MA (1) - Modell als eine für den SampP500 geeignete Potenz ablehnen. (2) Wiederum lassen sich die Residuen dieses angepassten MA (2) - Modells machen: Während der Peak bei k2 verschwunden ist (wie wir es erwarten), bleiben wir mit den signifikanten Peaks bei Viele längere Verzögerungen in den Resten. Noch einmal, finden wir das MA (2) - Modell ist nicht eine gute Passform. Für das MA (3) - Modell ist zu erwarten, dass bei k3 weniger serielle Korrelation als bei der MA (2) zu sehen ist, doch sollten wir auch hier keine Reduzierung weiterer Verzögerungen erwarten. Schließlich lässt sich eine Auftragung der Residuen dieses angepassten MA (3) - Modells machen: Genau das sehen wir im Korrelogramm der Residuen. Daher ist die MA (3), wie bei den anderen Modellen oben, nicht gut für den SampP500 geeignet. Die nächsten Schritte Weve untersuchte nun zwei große Zeitreihenmodelle im Detail, nämlich das autogressive Modell der Ordnung p, AR (p) und dann den Moving Average der Ordnung q, MA (q). Wir haben gesehen, dass sie beide in der Lage sind, einige der Autokorrelation in den Resten der ersten Ordnung differenzierte tägliche Log-Preise von Aktien und Indizes weg zu erklären, aber Volatilitäts-Clustering und Lang-Speicher-Effekte bestehen. Es ist endlich Zeit, unsere Aufmerksamkeit auf die Kombination dieser beiden Modelle, nämlich der Autoregressive Moving Average der Ordnung p, q, ARMA (p, q) zu lenken, um zu sehen, ob es die Situation weiter verbessern wird. Allerdings müssen wir warten, bis der nächste Artikel für eine vollständige Diskussion Klicken Sie unten, um mehr darüber zu erfahren. Die Informationen auf dieser Website ist die Meinung der einzelnen Autoren auf der Grundlage ihrer persönlichen Beobachtung, Forschung und jahrelange Erfahrung. Der Herausgeber und seine Autoren sind nicht registrierte Anlageberater, Rechtsanwälte, CPAs oder andere Finanzdienstleister und machen keine Rechts-, Steuer-, Rechnungswesen, Anlageberatung oder andere professionelle Dienstleistungen. Die Informationen, die von dieser Web site angeboten werden, sind nur allgemeine Ausbildung. Weil jeder Einzelne sachliche Situation anders ist, sollte der Leser seinen persönlichen Berater suchen. Weder der Autor noch der Herausgeber übernehmen jegliche Haftung oder Verantwortung für Fehler oder Unterlassungen und haben weder eine Haftung noch Verantwortung gegenüber Personen oder Körperschaften in Bezug auf Schäden, die direkt oder indirekt durch die auf dieser Website enthaltenen Informationen verursacht oder vermutet werden. Benutzung auf eigene Gefahr. Darüber hinaus kann diese Website erhalten finanzielle Entschädigung von den Unternehmen erwähnt durch Werbung, Affiliate-Programme oder auf andere Weise. Preise und Angebote von Inserenten auf dieser Website ändern sich häufig, manchmal ohne Vorankündigung. Während wir uns bemühen, rechtzeitige und genaue Informationen aufrechtzuerhalten, können Angebot Details veraltet sein. Besucher sollten daher die Bedingungen dieser Angebote vor der Teilnahme an ihnen überprüfen. Der Autor und sein Herausgeber haften nicht für die Aktualisierung von Informationen und haften nicht für die Inhalte, Produkte und Dienstleistungen von Drittanbietern, auch wenn sie über Hyperlinks und Anzeigen auf dieser Website aufgerufen werden. Autoregressive Moving Average ARMA (p, q) Modelle für die Zeitreihenanalyse - Teil 3 Dies ist die dritte und letzte Post in der Mini-Serie auf autoregressive Moving Average (ARMA) Modelle für die Zeitreihe-Analyse. Weve eingeführt Autoregressive Modelle und Moving Average Modelle in den beiden vorherigen Artikeln. Jetzt ist es Zeit, sie zu einem anspruchsvolleren Modell zu kombinieren. Letztendlich wird dies zu den ARIMA - und GARCH-Modellen führen, die es uns ermöglichen, die Rentabilität und die Volatilität der Prognosen vorherzusagen. Diese Modelle bilden die Grundlage für Handelssignale und Risikomanagementtechniken. Wenn Sie Teil 1 und Teil 2 gelesen haben, haben Sie gesehen, dass wir dazu neigen, ein Muster für unsere Analyse eines Zeitreihenmodells zu folgen. Ich wiederhole es kurz hier: Grundlagen - Warum interessieren wir uns für dieses bestimmte Modell Definition - Eine mathematische Definition, um Mehrdeutigkeit zu reduzieren. Correlogram - Plotten eines Beispielkorrelogramms, um ein Modellverhalten zu visualisieren. Simulation und Montage - Anpassung des Modells an Simulationen, um sicherzustellen, dass wir das Modell richtig verstanden haben. Echte Finanzdaten - Anwenden des Modells auf reale historische Vermögenspreise. Vorhersage - Prognostieren Sie nachfolgende Werte, um Handelssignale oder Filter aufzubauen. Um diesem Artikel zu folgen, ist es ratsam, einen Blick auf die früheren Artikel zur Zeitreihenanalyse zu werfen. Sie können alle hier gefunden werden. Bayesian Information Criterion Im Teil 1 dieser Artikel-Serie haben wir das Akaike Information Criterion (AIC) als Mittel zur Unterstützung der Wahl zwischen den einzelnen besten Zeitreihenmodellen betrachtet. Ein eng verwandtes Tool ist das Bayesian Information Criterion (BIC). Im Wesentlichen hat es ein ähnliches Verhalten wie die AIC, dass es Modelle mit zu vielen Parametern bestraft. Dies kann zu Überbeanspruchungen führen. Der Unterschied zwischen der BIC und AIC ist, dass die BIC ist strenger mit seiner Bestrafung von zusätzlichen Parametern. Bayesian Information Criterion Wenn wir die Likelihood-Funktion für ein statistisches Modell mit k Parametern und L die Wahrscheinlichkeit maximieren. Dann ist das Bayessche Informationskriterium gegeben durch: wobei n die Anzahl der Datenpunkte in der Zeitreihe ist. Bei der Auswahl geeigneter ARMA (p, q) Modelle werden wir den AIC und den BIC verwenden. Ljung-Box Test In Teil 1 dieser Artikel-Serie Rajan erwähnt in der Disqus kommentiert, dass die Ljung-Box-Test war besser geeignet als mit dem Akaike Information Criterion des Bayesian Information Criterion bei der Entscheidung, ob ein ARMA-Modell war eine gute Passform zu einer Zeit Serie. Der Ljung-Box-Test ist ein klassischer Hypothesentest, der dazu dient, zu testen, ob sich ein Satz von Autokorrelationen eines eingebauten Zeitreihenmodells signifikant von Null unterscheidet. Der Test testet nicht jede einzelne Verzögerung nach Zufälligkeit, sondern testet die Zufälligkeit über eine Gruppe von Verzögerungen. Ljung-Box-Test Wir definieren die Nullhypothese als: Die Zeitreihendaten bei jeder Verzögerung sind i. i.d .. das heißt, die Korrelationen zwischen den Populationsreihenwerten sind Null. Wir definieren die alternative Hypothese als: Die Zeitreihendaten sind nicht i. i.d. Und besitzen serielle Korrelation. Wir berechnen die folgende Teststatistik. Q: Wenn n die Länge der Zeitreihenprobe ist, ist k die Stichprobe Autokorrelation bei der Verzögerung k und h die Anzahl der Verzögerungen unter dem Test. Die Entscheidungsregel, ob die Nullhypothese zurückgewiesen werden soll, besteht darin, zu überprüfen, ob Q gt chi2 für eine chi-quadrierte Verteilung mit h Freiheitsgraden am 100 (1-alpha) - ten Perzentil ist. Während die Details des Tests etwas kompliziert erscheinen können, können wir in der Tat R verwenden, um den Test für uns zu berechnen und das Verfahren etwas zu vereinfachen. Autogressive Moving Average (ARMA) Modelle der Ordnung p, q Nun, da wir über den BIC und den Ljung-Box-Test diskutierten, waren wir bereit, unser erstes gemischtes Modell, nämlich den autoregressiven Moving Average der Ordnung p, q oder ARMA (p, Q). Bisher haben wir autoregressive Prozesse und gleitende Durchschnittsprozesse betrachtet. Das frühere Modell betrachtet sein eigenes Verhalten in der Vergangenheit als Input für das Modell und als solche Versuche, Marktteilnehmer-Effekte, wie Impuls und Mittelwert-Reversion im Aktienhandel zu erfassen. Das letztere Modell wird verwendet, um Schock Informationen zu einer Serie zu charakterisieren, wie eine Überraschung Einkommen Ankündigung oder unerwartete Ereignis (wie die BP Deepwater Horizon Ölpest). Daher versucht ein ARMA-Modell, diese beiden Aspekte bei der Modellierung finanzieller Zeitreihen zu erfassen. Beachten Sie, dass ein ARMA-Modell nicht berücksichtigt Volatilität Clustering, ein wesentliches empirische Phänomene von vielen finanziellen Zeitreihen. Es ist kein bedingt heteroszendierendes Modell. Dafür müssen wir auf die ARCH - und GARCH-Modelle warten. Definition Das ARMA-Modell (p, q) ist eine lineare Kombination zweier linearer Modelle und somit selbst noch linear: Autoregressives Moving Average Modell der Ordnung p, q Ein Zeitreihenmodell ist ein autoregressives gleitendes Durchschnittsmodell der Ordnung p, q . ARMA (p, q), wenn: Anfang xt alpha1 x alpha2 x ldots wt beta1 w beta2 w ldots betaq w end Wo ist weißes Rauschen mit E (wt) 0 und Varianz sigma2. Wenn wir den Backward Shift Operator betrachten. (Siehe vorhergehender Artikel) können wir das obige als Funktion theta und phi folgendermaßen umschreiben: Wir können einfach erkennen, dass wir durch die Einstellung von p neq 0 und q0 das AR (p) - Modell erhalten. Wenn wir p 0 und q neq 0 setzen, erhalten wir das MA (q) - Modell. Eines der wichtigsten Merkmale des ARMA-Modells ist, dass es sparsam und redundant in seinen Parametern ist. Das heißt, ein ARMA-Modell erfordert oft weniger Parameter als ein AR (p) - oder MA (q) - Modell alleine. Darüber hinaus, wenn wir die Gleichung in Bezug auf die BSO umschreiben, dann die theta und phi Polynome können manchmal gemeinsam einen gemeinsamen Faktor, so dass ein einfacheres Modell. Simulationen und Correlogramme Wie bei den autoregressiven und gleitenden Durchschnittsmodellen simulieren wir nun verschiedene ARMA-Serien und versuchen dann, ARMA-Modelle an diese Realisierungen anzupassen. Wir führen dies aus, weil wir sicherstellen wollen, dass wir das Anpassungsverfahren verstehen, einschließlich der Berechnung von Konfidenzintervallen für die Modelle sowie sicherzustellen, dass das Verfahren tatsächlich vernünftige Schätzungen für die ursprünglichen ARMA-Parameter wiederherstellt. In Teil 1 und Teil 2 haben wir manuell die AR - und MA-Serie konstruiert, indem wir N Abtastwerte aus einer Normalverteilung ziehen und dann das spezifische Zeitreihenmodell unter Verwendung von Verzögerungen dieser Abtastwerte herstellen. Allerdings gibt es einen einfacheren Weg, um AR-, MA-, ARMA - und sogar ARIMA-Daten zu simulieren, einfach durch die Verwendung der arima. sim-Methode in R. Wir beginnen mit dem einfachsten nicht-trivialen ARMA-Modell, nämlich dem ARMA (1,1 ) - Modell. Das heißt, ein autoregressives Modell der Ordnung eins kombiniert mit einem gleitenden Durchschnittsmodell der Ordnung eins. Ein solches Modell hat nur zwei Koeffizienten, alpha und beta, die die ersten Verzögerungen der Zeitreihe selbst und die schockweißen Rauschterme darstellen. Ein solches Modell ist gegeben durch: Wir müssen die Koeffizienten vor der Simulation angeben. Lets take alpha 0.5 und beta -0.5: Die Ausgabe ist wie folgt: Lets auch das Korrektogramm zeichnen: Wir können sehen, dass es keine signifikante Autokorrelation, die von einem ARMA (1,1) - Modell erwartet wird. Schließlich können wir versuchen, die Koeffizienten und deren Standardfehler mit Hilfe der Arimafunktion zu bestimmen: Wir können die Konfidenzintervalle für jeden Parameter mit Hilfe der Standardfehler berechnen: Die Konfidenzintervalle enthalten die wahren Parameterwerte für beide Fälle 95 Konfidenzintervalle sehr breit sind (eine Folge der hinreichend großen Standardfehler). Jetzt versuchen wir ein ARMA (2,2) Modell. Das heißt, ein AR (2) - Modell kombiniert mit einem MA (2) - Modell. Für dieses Modell müssen wir vier Parameter angeben: alpha1, alpha2, beta1 und beta2. Nehmen wir alpha1 0.5, alpha2-0.25 beta10.5 und beta2-0.3: Die Ausgabe unseres ARMA (2,2) - Modells ist wie folgt: Und die entsprechende autocorelation: Wir können nun versuchen, ein ARMA (2,2) - Modell an Die Daten: Wir können auch die Konfidenzintervalle für jeden Parameter berechnen: Beachten Sie, dass die Konfidenzintervalle für die Koeffizienten für die gleitende Durchschnittskomponente (beta1 und beta2) nicht tatsächlich den ursprünglichen Parameterwert enthalten. Dies beschreibt die Gefahr des Versuchens, Modelle an Daten anzupassen, auch wenn wir die wahren Parameterwerte kennen. Für Handelszwecke benötigen wir jedoch nur eine Vorhersagekraft, die den Zufall übertrifft und genügend Gewinn über die Transaktionskosten erzeugt, um rentabel zu sein auf lange Sicht. Nun, da wir einige Beispiele für simulierte ARMA-Modelle gesehen haben, brauchen wir Mechanismus für die Auswahl der Werte von p und q bei der Anpassung an die Modelle zu echten Finanzdaten. Auswahl des besten ARMA-Modells (p, q) Um zu bestimmen, welche Ordnung p, q des ARMA-Modells für eine Reihe geeignet ist, müssen wir die AIC (oder BIC) über eine Teilmenge von Werten für p, q und verwenden Dann den Ljung-Box-Test anwenden, um zu bestimmen, ob eine gute Passung für bestimmte Werte von p, q erzielt worden ist. Um diese Methode zu zeigen, werden wir zunächst einen speziellen ARMA (p, q) Prozess simulieren. Wir werden dann alle paarweisen Werte von p in und qin durchschleifen und die AIC berechnen. Wir wählen das Modell mit dem niedrigsten AIC aus und führen dann einen Ljung-Box-Test auf die Residuen durch, um festzustellen, ob wir eine gute Passform erreicht haben. Zunächst wird eine ARMA (3,2) - Serie simuliert: Wir werden nun ein Objekt final erstellen, um den besten Modell-Fit und den niedrigsten AIC-Wert zu speichern. Wir schleifen über die verschiedenen p, q-Kombinationen und verwenden das aktuelle Objekt, um die Anpassung eines ARMA (i, j) - Modells für die Schleifenvariablen i und j zu speichern. Wenn der aktuelle AIC kleiner als irgendein vorher berechneter AIC ist, setzen wir die letzte AIC auf diesen aktuellen Wert und selektieren diese Reihenfolge. Nach Beendigung der Schleife haben wir die Reihenfolge der in final. order gespeicherten ARMA-Modelle, und die ARIMA (p, d, q) passen sich an (mit der integrierten d-Komponente auf 0 gesetzt), die als final. arma gespeichert ist , Ordnung und ARIMA-Koeffizienten: Wir können sehen, dass die ursprüngliche Ordnung des simulierten ARMA-Modells wiederhergestellt wurde, nämlich mit p3 und q2. Wir können das Corelogramm der Residuen des Modells darstellen, um zu sehen, ob sie wie eine Realisierung von diskreten weißen Rauschen (DWN) aussehen: Das Corelogramm sieht tatsächlich wie eine Realisierung von DWN aus. Schließlich führen wir den Ljung-Box-Test für 20 Verzögerungen durch, um dies zu bestätigen: Beachten Sie, dass der p-Wert größer als 0,05 ist, was besagt, dass die Residuen auf dem 95-Level unabhängig sind und somit ein ARMA-Modell (3,2) Gutes Modell passend. Offensichtlich sollte dies der Fall sein, da wir die Daten selbst simuliert haben. Dies ist jedoch genau das Verfahren, das wir verwenden werden, wenn wir ARMA (p, q) - Modelle im folgenden Abschnitt zum SampP500-Index passen. Finanzdaten Nachdem wir nun das Verfahren zur Auswahl des optimalen Zeitreihenmodells für eine simulierte Serie skizziert haben, ist es relativ einfach, diese auf Finanzdaten anzuwenden. Für dieses Beispiel wollen wir erneut den SampP500 US Equity Index wählen. Wir können die täglichen Schlusskurse unter Verwendung von quantmod herunterladen und dann den Protokoll-Rücklauf-Stream erzeugen: Mit dem AIC können Sie das gleiche Anpassungsverfahren wie für die oben beschriebene simulierte ARMA (3,2) - Reihe des SampP500 durchführen: Das am besten passende Modell Hat die Ordnung ARMA (3,3): Hier können die Residuen des angepassten Modells dem SampP500 log täglichen Retourenstrom zugewiesen werden: Beachten Sie, dass es einige signifikante Peaks gibt, vor allem bei höheren Lags. Dies deutet auf eine schlechte Passform hin. Wir können einen Ljung-Box-Test durchführen, um festzustellen, ob wir statistische Beweise dafür haben: Wie wir vermuteten, ist der p-Wert kleiner als 0,05 und als solche können wir nicht sagen, dass die Residuen eine Realisierung von diskreten weißen Rauschen sind. Daher gibt es eine zusätzliche Autokorrelation in den Residuen, die nicht durch das eingebaute ARMA (3,3) - Modell erklärt wird. Next Steps Wie wir in dieser Artikelreihe besprochen haben, haben wir in den SampP500-Serien, insbesondere in den Perioden 2007-2008, Hinweise auf bedingte Heterosedastizität (Volatilitäts-Clustering) gefunden. Wenn wir ein GARCH-Modell später in der Artikel-Serie verwenden, werden wir sehen, wie diese Autokorrelationen zu beseitigen. In der Praxis sind ARMA-Modelle nie generell gut für Log-Aktien-Renditen. Wir müssen die bedingte Heterosedastizität berücksichtigen und eine Kombination von ARIMA und GARCH verwenden. Der nächste Artikel wird ARIMA betrachten und zeigen, wie die integrierte Komponente unterscheidet sich von der ARMA-Modell, das wir in diesem Artikel betrachtet haben. Klicken Sie unten, um mehr darüber zu erfahren. Die Informationen auf dieser Website ist die Meinung der einzelnen Autoren auf der Grundlage ihrer persönlichen Beobachtung, Forschung und jahrelange Erfahrung. Der Herausgeber und seine Autoren sind nicht registrierte Anlageberater, Rechtsanwälte, CPAs oder andere Finanzdienstleister und machen keine Rechts-, Steuer-, Rechnungswesen, Anlageberatung oder andere professionelle Dienstleistungen. Die Informationen, die von dieser Web site angeboten werden, sind nur allgemeine Ausbildung. Weil jeder Einzelne sachliche Situation anders ist, sollte der Leser seinen persönlichen Berater suchen. Weder der Autor noch der Herausgeber übernehmen jegliche Haftung oder Verantwortung für Fehler oder Unterlassungen und haben weder eine Haftung noch Verantwortung gegenüber Personen oder Körperschaften in Bezug auf Schäden, die direkt oder indirekt durch die auf dieser Website enthaltenen Informationen verursacht oder vermutet werden. Benutzung auf eigene Gefahr. Additionally, this website may receive financial compensation from the companies mentioned through advertising, affiliate programs or otherwise. Rates and offers from advertisers shown on this website change frequently, sometimes without notice. While we strive to maintain timely and accurate information, offer details may be out of date. Visitors should thus verify the terms of any such offers prior to participating in them. The author and its publisher disclaim responsibility for updating information and disclaim responsibility for third-party content, products, and services including when accessed through hyperlinks andor advertisements on this site.

No comments:

Post a Comment