Thursday 9 November 2017

Flytte Gjennomsnittet Prediksjon Intervall


Forskjellen mellom konfidensintervall, prediksjonsintervall og toleranseintervaller. FAQ 1506 Sist endret 1-juli-2009 Når du passer på en parameter til en modell, kan nøyaktigheten eller presisjonen uttrykkes som et konfidensintervall, et prediksjonsintervall eller et toleranseintervall. De tre er ganske forskjellige. Diskusjonen nedenfor forklarer de tre forskjellige intervaller for det enkle tilfellet av å sette et middel til en dataeksempel (forutsatt prøvetaking fra en Gauss-distribusjon). De samme ideene kan brukes på intervaller for enhver best egnet parameter bestemt av regresjon. Fortrolighetsintervaller forteller deg hvor godt du har bestemt midlet. Anta at dataene egentlig er tilfeldig samplet fra en Gauss-distribusjon. Hvis du gjør dette mange ganger, og beregner et konfidensintervall av gjennomsnittet fra hver prøve, forutser du omtrent 95 av disse intervallerene for å inkludere den sanne verdien av populasjonsmiddelet. Nøkkelpunktet er at konfidensintervallet forteller deg om den sannsynlige plasseringen av den sanne befolkningsparameteren. Prediksjonsintervallene forteller deg hvor du kan forvente å se neste datapunkt samplet. Anta at dataene egentlig er tilfeldig samplet fra en Gauss-distribusjon. Samle en prøve av data og beregne et prediksjonsintervall. Prøv deretter en mer verdi fra befolkningen. Hvis du gjør dette mange ganger, forutser du at neste verdi ligger innenfor det prediksjonsintervallet i 95 av prøvene. Hovedpoenget er at prediksjonsintervallet forteller deg om fordelingen av verdier, ikke usikkerheten ved å bestemme populasjonsmiddelet. Prediksjonsintervaller må stå for både usikkerheten i å vite verdien av populasjonsmiddelet, pluss dataspredning. Så et prediksjonsintervall er alltid bredere enn et konfidensintervall. Før du går videre til toleranseintervaller, la39s definere det ordet 39expect39 som brukes til å definere et prediksjonsintervall. Det betyr at det er 50 sjanse for at du ser verdien i intervallet i mer enn 95 av prøvene, og en 50 sjanse for at du ser verdien i intervallet i mindre enn 95 av prøvene. Tenk deg å gjøre mange simuleringer, slik at du vet den sanne verdien og dermed vet om det er i prediksjonsintervallet eller ikke. Du kan deretter tabulere hvilken brøkdel av tiden verdien er vedlagt av intervallet. Gjenta med mange sett med simuleringer. I gjennomsnitt vil verdien være 95, men det kan være 93 eller 98. Halvdelen av tiden vil det være mindre enn 95 og halve tiden vil det være mer enn 95. Hva om du vil være 95 sikker på at intervallet inneholder 95 av verdiene eller 90 sikker på at intervallet inneholder 99 av verdiene De sistnevnte spørsmålene besvares med et toleranseintervall. For å beregne eller forstå et toleranseintervall må du angi to forskjellige prosenter. En uttrykker hvor sikker du vil være, og den andre uttrykker hvilken brøkdel av verdiene intervallet vil inneholde. Hvis du setter den første verdien (så sikker) til 50, er et toleranseintervall det samme som et prediksjonsintervall. Hvis du setter den til en høyere verdi (si 90 eller 99), er toleranseintervallet bredere. Trenger å lære Prism 72.7 Prediksjonsintervaller Som omtalt i del 17. gir et prediksjonsintervall et intervall der vi forventer at y skal ligge med en spesifisert sannsynlighet. For eksempel, forutsatt at prognosefeilene er ukorrelerte og normalt fordelte, er et enkelt 95 prediksjonsintervall for neste observasjon i en tidsserie 91 hat pm 1,96 hatsigma, 93 hvor hatsigma er et estimat av standardavviket i prognosefordelingen. I prognoser er det vanlig å beregne 80 intervaller og 95 intervaller, men en hvilken som helst prosentandel kan bli brukt. Når vi forutser ett trinn fremover, er standardavviket i prognosefordelingen nesten det samme som standardavviket for residuene. (Faktisk er de to standardavvikene identiske dersom det ikke er noen parametere som skal estimeres, slik som med nave-metoden. For prognosemetoder som involverer parametere som skal estimeres, er standardavviket i prognosedistribusjonen litt større enn gjenværende standardavvik, selv om denne forskjellen ofte blir ignorert.) For eksempel, vurder en nave-prognose for Dow-Jones-indeksen. Den siste verdien av den observerte serien er 3830, så prognosen for den neste verdien av DJI er 3830. Standardavviket av residuals fra nave-metoden er 21.99. Derfor er et 95 prediksjonsintervall for den neste verdien av DJI 3830 pm 1,96 (21,99) 3787, 3873. Tilsvarende er et 80 prediksjonsintervall gitt ved 3830 pm 1,28 (21,99) 3802,3858. Verdien av multiplikatoren (1.96 eller 1.28) bestemmer prosentandelen av prediksjonsintervallet. Tabellen nedenfor gir verdiene som skal brukes for forskjellige prosenter. Tabell 2.1: Multiplikatorer som skal brukes til forutsigelsesintervaller. Bruken av dette bordet og formelhatten pm k hatsigma (hvor k er multiplikatoren) antar at residuene normalt distribueres og ikke-korreleres. Hvis noen av disse forholdene ikke holder, kan denne metoden for å produsere et prediksjonsintervall ikke brukes. Verdien av prediksjonsintervaller er at de uttrykker usikkerheten i prognosene. Hvis vi bare produserer punktprognoser, er det ingen måte å fortelle hvor nøyaktige prognosene er. Men hvis vi også produserer prediksjonsintervaller, så er det klart hvor mye usikkerhet som er knyttet til hver prognose. Av denne grunn kan punktprognoser være av nesten ingen verdi uten tilhørende forutsigelsesintervaller. For å produsere et prediksjonsintervall, er det nødvendig å ha et estimat av standardavviket i prognosefordelingen. For en-trinns prognoser for tidsserier, gir gjenværende standardavvik et godt estimat av prognose standardavviket. Men for alle andre situasjoner, inkludert flere trinns prognoser for tidsserier, er det nødvendig med en mer komplisert beregningsmetode. Disse beregningene gjøres vanligvis med standard prognostiseringsprogramvare og trenger ikke problemer med prospektoren (med mindre han eller hun skriver programvaren). Et vanlig trekk ved prediksjonsintervaller er at de øker i lengd mens prognoshorisonten øker. Jo lengre framover vi regner med, jo mer usikkerhet er knyttet til prognosen, og så blir prediksjonsintervallene større. Det er imidlertid noen (ikke-lineære) prognosemetoder som ikke har dette attributtet. Hvis en transformasjon har blitt brukt, bør prediksjonsintervallet beregnes på den transformerte skalaen, og endepunktene blir omformet til å gi et prediksjonsintervall på originalskalaen. Denne tilnærmingen bevarer sannsynlighetsdekning av prediksjonsintervallet, selv om det ikke lenger vil være symmetrisk rundt punktprognosen. Denne funksjonaliteten er eksperimentell og kan endres eller fjernes helt i en fremtidig utgave. Elastisk vil gjøre en best mulig tilnærming til å løse eventuelle problemer, men eksperimentelle funksjoner er ikke gjenstand for støtte SLA av offisielle GA-funksjoner. Gitt en bestilt serie data, vil Flytende gjennomsnittlig aggregering skyve et vindu over dataene og avgi gjennomsnittsverdien av vinduet. For eksempel, gitt dataene 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. kan vi beregne et enkelt glidende gjennomsnitt med Windows-størrelse på 5 som følger: Flytte gjennomsnitt er en enkel metode for jevn sekvensiell data. Flytte gjennomsnitt blir vanligvis brukt på tidsbaserte data, for eksempel aksjekurser eller serververdier. Utjevningen kan brukes til å eliminere høyfrekvente svingninger eller tilfeldig støy, noe som gjør det mulig å visualisere lavere frekvensstrendene, for eksempel sesongmessighet. Syntaxedit Linearedit Den lineære modellen tilordner en lineær vekting til poeng i serien, slik at eldre datapunkter (for eksempel de i begynnelsen av vinduet) bidrar til en lineær mindre mengde til gjennomsnittet. Den lineære veiingen bidrar til å redusere lagret bak datasene, siden eldre punkter har mindre innflytelse. En lineær modell har ingen spesielle innstillinger for å konfigurere. Som den enkle modellen kan vinduets størrelse forandre oppførselen til det bevegelige gjennomsnittet. For eksempel vil et lite vindu (vindu: 10) nøye spore dataene og bare glatte ut småskala fluktuasjoner: Figur 3. Linjært glidende gjennomsnitt med vindu med størrelse 10 I kontrast er et lineært glidende gjennomsnitt med større vindu (vindu: 100) vil utjevne alle høyere frekvensfluktuasjoner, og gir kun lavfrekvente, langsiktige trender. Det har også en tendens til å ligge bak de faktiske dataene med en betydelig mengde, men vanligvis mindre enn den enkle modellen: Figur 4. Linjært glidende gjennomsnitt med vindu med størrelse 100 Multiplikativ Holt-Wintersedit Multiplikasjon er spesifisert ved innstillingstype: mult. Denne variasjonen er foretrukket når sesongmessige påvirkning er multiplisert med dataene dine. F. eks hvis sesongmessige påvirkning er x5 dataene, i stedet for bare å legge til det. Standardverdiene for alfa og gamma er 0,3 mens beta er 0,1. Innstillingene aksepterer enhver flyt fra 0-1 inkludert. Standardverdien av perioden er 1. Den multiplikative Holt-Winters-modellen kan være Minimized Multiplicative Holt-Winters-arbeider ved å dele hvert datapunkt etter sesongverdien. Dette er problematisk hvis noen av dataene dine er null, eller hvis det er hull i dataene (siden dette resulterer i en divisjon-for-null). For å bekjempe dette puter mult Holt-Winters alle verdier med en liten mengde (110-10) slik at alle verdier ikke er null. Dette påvirker resultatet, men bare minimalt. Hvis dataene dine er null, eller du foretrekker å se NaN når nuller oppstår, kan du deaktivere denne oppførselen med pad: false Predictionedit Alle den bevegelige gjennomsnittsmodellen støtter en prediksjonsmodus som vil forsøke å ekstrapolere inn i fremtiden, gitt dagens glatt, glidende gjennomsnitt. Avhengig av modell og parameter, kan disse spådommene kanskje ikke være nøyaktige. Forutsigelser aktiveres ved å legge til en forutsparingsparameter for enhver bevegelig gjennomsnittlig aggregering, og angir antall spådommer du vil legge til i slutten av serien. Disse prognosene vil bli fordelt på samme intervaller som ekkene dine: Den enkle. lineære og ewma-modeller alle produserer flate forutsigelser: de er i hovedsak konvergerende på gjennomsnittet av den siste verdien i serien, og produserer en flat: Figur 11. Enkelt glidende gjennomsnitt med vindu med størrelse 10, forutsi 50 I motsetning kan holtmodellen ekstrapolere på lokale eller globale konstante trender. Hvis vi setter en høy beta-verdi, kan vi ekstrapolere basert på lokale konstante trender (i dette tilfellet forutsetter prognosene ned fordi dataene i slutten av serien var på vei nedover): Figur 12. Holt-lineær glidende gjennomsnitt med vindu av størrelse 100, forutsi 20, alfa 0,5, beta 0,8 I kontrast, hvis vi velger en liten beta. Forutsigelsene er basert på den globale konstante trenden. I denne serien er den globale trenden litt positiv, slik at prediksjonen gir en skarp u-sving og begynner en positiv helling: Figur 13. Dobbel eksponentiell glidende gjennomsnitt med vindu på størrelse 100, forutsi 20, alfa 0,5, beta 0,1 Holtwinters-modellen har potensial til å levere de beste spådommene, siden det også inkorporerer sesongmessige svingninger i modellen: Figur 14. Holt-Winters glidende gjennomsnitt med vindu med størrelse 120, forutsi 25, alfa 0,8, beta 0,2, gamma 0,7, periode 30 lærer deg hvordan du beregner det bevegelige gjennomsnittet av en tidsserie i Excel. Et glidende gjennomsnitt brukes til å utjevne uregelmessigheter (topper og daler) for enkelt å gjenkjenne trender. 1. Først, ta en titt på vår tidsserie. 2. På Data-fanen klikker du Dataanalyse. Merk: kan ikke finne dataanalyseknappen Klikk her for å laste inn add-in for Analysis ToolPak. 3. Velg Flytt gjennomsnitt og klikk OK. 4. Klikk i feltet Inngangsområde og velg området B2: M2. 5. Klikk i intervallboksen og skriv inn 6. 6. Klikk i feltet Utmatingsområde og velg celle B3. 8. Skriv en graf av disse verdiene. Forklaring: fordi vi angir intervallet til 6, er glidende gjennomsnitt gjennomsnittet for de forrige 5 datapunktene og det nåværende datapunktet. Som et resultat blir tinder og daler utjevnet. Grafen viser en økende trend. Excel kan ikke beregne det bevegelige gjennomsnittet for de første 5 datapunktene fordi det ikke er nok tidligere datapunkter. 9. Gjenta trinn 2 til 8 for intervall 2 og intervall 4. Konklusjon: Jo større intervallet jo flere tinder og daler utjevnes. Jo mindre intervallet, desto nærmere beveger gjennomsnittet seg til de faktiske datapunktene.

No comments:

Post a Comment