Tuesday, 8 August 2017

Lineêre Regressie Bewegende Gemiddelde Formule


8.5 eindpunt bewegende gemiddelde Die eindpunt bewegende gemiddelde (EPMA) stel 'n gemiddelde prys van pas 'n kleinste kwadrate reguitlyn (sien lineêre regressie) deur die afgelope N dae sluiting pryse en die neem van die eindpunt van die lyn (dws. Die lyn soos op die laaste dag) as die gemiddelde. Hierdie berekening gaan deur 'n aantal ander name, insluitende kleinstekwadrate bewegende gemiddelde (LSQMA), beweeg lineêre regressie, en tydreeks vooruitskatting (TSF). Joe Sharprsquos ldquomodified beweeg averagerdquo is dieselfde ding ook. Die formule beland om 'n eenvoudige geweegde gemiddelde van die verlede N pryse, met gewigte gaan van 2N-1 tot - N2. Dit is maklik afgelei van die kleinste kwadrate formules nie, maar net te kyk na die gewigte die verbinding met kleinste kwadrate is glad nie voor die hand liggend. As P1 is todayrsquos naby, p2 gisters, ens, dan is die gewigte te verminder deur 3 vir elke ouer dag en gaan negatief vir die oudste derde van die N dae. Die volgende grafiek toon dat vir N15. Die negatiewe beteken die gemiddelde is ldquooverweightrdquo op onlangse pryse en kan die prys aksie oorskiet ná 'n skielike sprong. In die algemeen egter, want die ingeboude lyn doelbewus gaan deur die middel van die afgelope pryse die EPMA is geneig om te wees in die middel van die afgelope pryse, of 'n projeksie van waar hulle gelyk te word trending. Itrsquos interessant om die EPMA met 'n plain SMA (sien Eenvoudige bewegende gemiddelde) vergelyk. 'N SBG effektief trek 'n horisontale streep deur die verlede N dae pryse (hulle gemiddelde), terwyl die EPMA trek 'n skuins lyn. Die traagheid aanwyser (sien Traagheid) gebruik die EPMA. Kopiereg 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009 Kevin Ryde kaart is gratis sagteware wat jy kan dit herversprei en / of dit te verander onder die voorwaardes van die GNU General Public License, soos gepubliseer deur die Free Software Foundation óf weergawe 3 , of (as jy wil) enige latere version. Linear Regressie aanwyser Die lineêre regressie aanwyser gebruik vir tendens identifikasie en tendens volgende in 'n soortgelyke wyse aan bewegende gemiddeldes. Die aanwyser moet nie verwar word met lineêre regressie Lines wat reguit lyne toegerus om 'n reeks van data punte is. Die lineêre regressie aanwyser plotte die eindpunte van 'n hele reeks van lineêre getrek op agtereenvolgende dae regressielyne. Die voordeel van die lineêre regressie aanwyser oor 'n normale bewegende gemiddelde is dat dit minder lag as die bewegende gemiddelde, reageer vinniger op veranderinge in die rigting. Die nadeel is dat dit meer geneig is tot whipsaws. Die lineêre regressie aanwyser is slegs geskik vir die handel sterk tendense. Seine geneem in 'n soortgelyke wyse aan bewegende gemiddeldes. Gebruik die rigting van die lineêre regressie aanwyser om te betree en die uitgang ambagte met 'n aanwyser langer termyn as 'n filter. Gaan lank as die lineêre regressie aanwyser opdaag of verlaat 'n kort handel. Gaan kort (of verlaat 'n lang handel) as die lineêre regressie aanwyser draai af. 'N Variasie op die bogenoemde is om ambagte te voer wanneer die prys gaan oor die lineêre regressie aanwyser, maar nog steeds verlaat wanneer die lineêre regressie aanwyser draai af. Voorbeeld Muis oor grafiek onderskrifte te handel seine te vertoon. Gaan lank L wanneer die prys kruise bo die 100-dag lineêre regressie aanwyser terwyl die 300-dag styg afrit X wanneer die 100-dag lineêre regressie aanwyser draai afgaan lank weer by L wanneer die prys kruise bo die 100-dag lineêre regressie aanwyser afrit X wanneer die 100-dag lineêre regressie aanwyser draai afgaan lang L wanneer die prys kruise bo 100-dag lineêre regressie afrit X wanneer die 100-dag aanwyser draai afgaan lang L wanneer die 300-dag lineêre regressie aanwyser opdaag nadat die prys bo gekruis die 100-dag aanwyser afrit X wanneer die 300-dag lineêre regressie aanwyser draai af. Lomp divergensie op die aanwyser waarsku van 'n groot tendens reversal. How te vind regressievergelyking Stap 4: Vervang in die bogenoemde helling formule gegee. Helling (b) (N931XY - (931X) (931Y)) / (N931X 2 - (931X) 2) ((5) (1159,7) - (311) (18.6)) / ((5) (19359) - (311 ) 2) (5798,5-5784,6) / (96795-96721) 13.9 / 74 0,18784 Stap 5: Nou, weer vervang in die bogenoemde onderskep formule gegee. Afsnit (a) (931Y - b (931X)) / N (18,6-,18784 (311)) / 5 (18,6-58,41824) / 5 -39,81824 / 5 -7,964 Stap 6: Stel dan hierdie waardes in regressievergelyking formule regressievergelyking (j) 'n bx -7.9640.188x. Veronderstel as ons wil hê dat die geskatte y waarde vir die veranderlike x 64. ken Dan kan ons die waarde vervang in die bostaande vergelyking. Regressievergelyking (y) 'n bx -7.9640.188 (64). -7.96412.032. 4,068 Hierdie voorbeeld sal jou lei tot die verhouding tussen twee veranderlikes te vind deur die berekening van die Regressie uit bogenoemde steps. Slope Helling Inleiding Die helling aanwyser meet die styging-oor-loop van 'n lineêre regressie, wat is die lyn van beste passing vir 'n prys reeks. bo en onder vriespunt wisselende, die helling aanwyser beste lyk soos 'n momentum ossillator sonder grense. Dit is nie goed geskik vir oorgekoop / oorverkoopte vlakke, maar kan die rigting en sterkte van 'n tendens te meet. Dit kan ook gebruik word met ander aanwysers hoef te identifiseer potensiële inskrywing punte binne 'n deurlopende tendens. Berekening helling is gebaseer op 'n lineêre regressie (lyn van beste passing). Selfs al is die formule vir 'n lineêre regressie is buite die bestek van hierdie artikel, kan 'n lineêre regressie getoon word met behulp van die Raff Regressie Kanaal in SharpCharts. Hierdie aanwyser beskik oor 'n lineêre regressie in die middel met ewe ver buite tendens lyne. Helling is gelyk aan die styging-oor-run vir die lineêre regressie. Styging verwys na die prys verandering. Run verwys na die tyd. A 20-dag helling sal die styging-oor-loop van 'n 20-dag lineêre regressie wees. As die styging is 4 punte en die aanloop is twee dae, dan is die helling sal wees 2 (4/2 2). As die styging is -6 punte en die aanloop is 2, dan is die helling sou wees -3 (6/2 3). In die algemeen, 'n bevordering periode het 'n positiewe helling en 'n dalende tydperk het 'n negatiewe helling. Die krans hang af van die skerpte van die voorskot of afname. Grafiek 1 toon SPY met drie verskillende 20-dag tydperke (oranje, geel, blou). A 20-dag Raff Regressie Channel getoon vir elke tydperk van 20 dae. Die lineêre regressie, in die middel, verteenwoordig die lyn van beste passing vir die 20 datapunte. Die stippellyne dui die einde van die tydperk 20 dae en die waarde van die helling teen daardie prys punt. Die eerste periode is relatief plat en die helling is skaars positief. Die tweede periode is en die helling is duidelik positief. Die derde periode is af en die helling is negatief. Hou in gedagte dat die helling verander so oud datapunte afgelaai en nuwe data punte bygevoeg. Tendens Identifikasie Helling kan gebruik word om die tendens te kwantifiseer. 'N positiewe helling is per definisie 'n uptrend. Net so 'n negatiewe helling definieer 'n verslechtering neiging. Grafiek 2 toon die Dow Nywerhede met 'n 52-week Helling (een jaar). Die rooi stippellyne wys die helling draai negatief, terwyl die groen stippellyne wys die helling draai positief. Die 52-week Helling was positief vir sowat twee jaar (2006-2007) en dan draai negatiewe in Februarie 2008. Hoewel die Dow onderste draaipunt in Maart 2009 en verhuis skerp hoër, die 52-week Helling nie terug te steek in positiewe terrein tot September 2009. Let daarop dat die helling van die tendens nie voorspel. In plaas daarvan, dit volg die tendens of die prys punte. Dit beteken daar sal 'n paar lag wees. Tendens Krag Directional beweging kan ook belangrik wees wanneer die ontleding van die helling. 'N negatiewe en stygende helling toon verbetering binne 'n verslechtering neiging. 'N Positiewe en val helling toon agteruitgang in 'n uptrend. Grafiek 3 toon die Nasdaq 100 ETF (QQQQ) met die 100-dag helling. A 20-dag eenvoudig bewegende gemiddelde is bygevoeg om opwaartse fases en afswaaie identifiseer. 'N helling styg wanneer bo sy 20-dag SMA en toe onder val. Vier belangrike CROSSOVER geïdentifiseer op hierdie grafiek (groen / rooi pyle). Let daarop dat die CROSSOVER plaasgevind het voor die helling het negatiewe of positiewe. Dit is soos 'n voorste aanduiding vir die helling. Let ook op die weiering na die negatiewe kruis in Julie 2008 en die hertoets na die positiewe kruis in Januarie 2009. Hierdie vroeë helling terugskrywings vooruitsig 'n skuif in positiewe terrein of tendens verandering, maar moenie verwag dat 'n uitgebreide skuif na elke bewegende gemiddelde crossover. Die 100-dag Helling verskuif onder sy 20-dag SMA in Augustus 2009, maar QQQQ gehou reg oor die beweging van hoër. 'N dalende en positiewe helling weerspieël minder steil in die vooraf. Let op hoe die 100-dag Helling positiewe gebly as QQQQ hoër voortgesit vanaf September 2009 tot Januarie 2010. Handel Vooroordeel Helling alleen kan nie gebruik word om deel te neem in 'n deurlopende tendens, maar dit kan gebruik word met ander aanwysers aan potensiële inskrywing punte te identifiseer. In die besonder, kan Helling gebruik word vir tendens identifikasie om 'n handel vooroordeel te vestig. 'N positiewe helling dikteer n lomp vooroordeel, terwyl 'n negatiewe helling dikteer n lomp vooroordeel. Een keer 'n handel vooroordeel is vasgestel, 'n momentum ossillator gebruik word om potensiële inskrywing punte te identifiseer. Die keuse van momentum ossillator is regtig 'n persoonlike voorkeur. Die voorbeeld met Apple gebruik die 100-dag Diep 10-dag Williams R. Die tydperk blik terugslag vir die helling moet aansienlik meer wees as die uitkyk terug tydperk vir die momentum ossillator. Die helling definieer die groter tendens, terwyl die momentum ossillator 'n subset van die tendens verteenwoordig. Grafiek 4 toon die 100-dag Helling beweeg bo nul in Julie 'n lomp vooroordeel te vestig. Slegs lomp seine kom in aanmerking vir die momentum ossillator. Dit sluit in oorverkoopte lesings, middellyn CROSSOVER of sein lyn CROSSOVER. Williams R nie 'n sein lyn, maar MACD en PPO doen. Die blou stippellyne wys wanneer 10-dag Williams R beweeg onder -80 tot oorverkoop geword. Let daarop dat hierdie lesings ooreenstem met 'n kort terugsakkings in die voorraad. Behalwe vir die laaste oorverkoop lees in die begin van Desember, Apple hervat sy uptrend kort na hierdie oorverkoop lesings. Relatiewe sterkte van die helling van twee (of meer) sekuriteite kan vergelyk word met relatiewe sterkte en relatiewe swakheid identifiseer. Die grafiek hieronder toon Amazon (AMZN) met die SampP 500. Beide effekte getoon met die 20-dag Helling (swart). Die blou vertikale lyn dui op 'n punt in die begin van November wanneer Amazon het 'n positiewe helling en die SampP 500 het 'n negatiewe helling. Amazon is duidelik beter as die SampP 500 op hierdie tyd. Trouens, wanneer die SampP 500 laagtepunt bereik vroeg in November, Amazon het die pad hoër met 'n skuif vanaf 117 tot 143. Let daarop dat Amazon het hoër selfs as die helling laer beweeg. Die Amazon Helling draai negatiewe in die middel van Desember en die SampP 500 Helling was steeds positief. Hierdie situasie herhaal die tweede week van Januarie. Gebaseer op die helling vergelyking, Amazon het van relatiewe sterkte in November tot relatiewe swakheid in Desember en Januarie. Tydens hierdie twee maande, die 20-dag lineêre regressie vir Amazon is skuins af, terwyl die 20-dag lineêre regressie vir die SampP 500 is skuins up. Gevolgtrekkings Helling meet die styging-oor-loop van 'n lineêre regressie. In die algemeen, 'n uptrend is teenwoordig wanneer Helling is positief en 'n verslechtering neiging bestaan ​​wanneer die helling negatief. Die tydsraamwerk hang af van die aantal dae. 10 dae dek 'n kort termyn tendens, 100 dae per medium termyn tendens en 250 dae 'n langtermyn-tendens. Soos met 'n tipiese tendens volgende aanwysers, Helling lags prys en omkeer na 'n werklike bo-of onderkant. Dit beteken egter nie afbreuk aan sy nut. Tendens identifikasie en tendens krag is belangrike instrumente, selfs vir handelaars. Soos met bewegende gemiddeldes, kan Helling word met momentum aanwysers om deel te neem in 'n deurlopende tendens. Klik hier vir live grafiek met die helling aanwyser. SharpCharts Helling kan gevind naby die onderkant van die aanwyser lys op SharpCharts. Die standaard parameters (20) verander kan word na die verlangde tyd raam pas. Soos alle aanwysers, kan Helling bo die prys plot geplaas word, agter die prys plot of onder die prys plot. Daarbenewens kan gebruikers die groen pyl klik langs gevorderde opsies om 'n bewegende gemiddelde of 'n ander aanwyser om Helling van toepassing. Voorgestelde skanderings oorverkoop in 'n uptrend. Die skakel na hierdie scan openbaar aandele met 'n positiewe 100-dag helling en oorverkoopte Williams R (hieronder -80) oorgekoop in 'n verslechtering neiging. Die skakel na hierdie scan openbaar aandele met 'n negatiewe 100-dag helling en oorgekoop Williams R (bo -20). Verdere Studie Hierdie boek dek baie grond, maar sluit 'n afdeling oor regressie analise met behulp van lineêre regressies. Trading Systems en metodes Perry KaufmanLinear regressieanalise is die mees gebruikte van al statistiese tegnieke: dit is die studie van lineêre. toevoeging verwantskappe tussen veranderlikes. Laat Y dui die 8220dependent8221 veranderlike waarvan die waardes wat jy wil om te voorspel, en laat X 1. 8230, X k dui die 8220independent8221 veranderlikes waaruit jy wil om dit te voorspel, met die waarde van veranderlike X ek in periode t (of in ry t van die datastel) aangedui deur X dit. Toe die vergelyking vir die berekening van die voorspelde waarde van y t is: Hierdie formule het die eienskap dat die voorspelling vir Y is 'n reguitlyn-funksie van elk van die X veranderlikes, hou die ander vas, en die bydraes van verskillende X veranderlikes om die voorspellings is toevoeging. Die hange van hul individuele reguitlynmetode verhoudings met Y is die konstantes b 1. b 2, 8230, b k. die sogenaamde koëffisiënte van die veranderlikes. Dit wil sê, b i is die verandering in die voorspelde waarde van y per eenheid van verandering in X i. ander dinge gelyk. Die bykomende konstante b 0. die sogenaamde onderskep. is die voorspelling dat die model sal maak as al die X 8217s was nul (as dit moontlik is). Die koëffisiënte en onderskep word beraam deur kleinste kwadrate. maw die opstel van hulle gelykop behandel met die unieke waardes wat die som van 'n vierkant foute binne die monster van data waarop die model is toegerus te verminder. En die modelle voorspel foute tipies veronderstel om onafhanklik en identies normaal verdeel wees. Die eerste ding wat jy behoort te weet van lineêre regressie is hoe die vreemde term regressie gekom wat toegepas moet word om modelle soos hierdie. Hulle is die eerste in diepte bestudeer deur 'n 19de-eeuse wetenskaplike, Sir Francis Galton. Galton was 'n self-geleer natuurkundige, antropoloog, sterrekundige en statistikus - en 'n werklike Indiana Jones karakter. Hy was bekend vir sy ontdekkings, en hy het 'n topverkoper boek oor hoe om te oorleef in die woestyn geregtig quotThe Art of Travel: skofte en contrivances Beskikbaar in Wild Plekke, quot en sy opvolger, quotThe kuns van Rowwe Reis: Van die Praktiese om die Peculiar. quot Hulle is nog steeds in die gedrukte media en nog steeds beskou as 'n nuttige hulpbronne. Hulle bied baie nuttige wenke vir 'n verblyf in die lewe - soos hoe om te behandel spies wonde of onttrek jou perde uit dryfsand - en het die konsep van die slaapsak om die Westerse wêreld. Klik op die foto's vir meer besonderhede: Galton was 'n pionier in die toepassing van statistiese metodes om metings in baie takke van die wetenskap, en in die bestudering van data op relatiewe groottes van ouers en hul nageslag in verskeie spesies van plante en diere, waargeneem hy die volgende verskynsel: 'n groter-as-gemiddelde ouer is geneig om 'n groter-as-gemiddelde kind te produseer, maar die kind is geneig om minder groot as die ouer in terme van sy relatiewe posisie binne sy eie geslag te wees. So, byvoorbeeld, indien die ouers grootte is x standaardafwykings vanaf die gemiddelde binne sy eie geslag, dan moet jy voorspel dat die kind se grootte RX (r tye x) standaardafwykings vanaf die gemiddelde sal wees binne die stel van kinders van die ouers , waar r is 'n aantal minder as 1 in grootte. (R is wat sal onder die korrelasie tussen die grootte van die ouer en die grootte van die kind gedefinieer word.) Dieselfde geld vir feitlik enige fisiese meting (en in die geval van die mens, die meeste metings van kognitiewe en fisiese vermoë) wat uitgevoer kan word op ouers en hulle nageslag. Hier is die eerste keer gepubliseer foto van 'n regressielyn hierdie effek te illustreer, uit 'n lesing aangebied deur Galton in 1877: Die R-simbool op hierdie grafiek (wie se waarde is 0.33) dui die helling koëffisiënt, nie die korrelasie, hoewel die twee is dieselfde indien beide bevolkings het dieselfde standaardafwyking, as sal hieronder getoon word. Galton genoem hierdie verskynsel 'n regressie na middelmatigheid. wat in moderne terme is 'n regressie na die gemiddelde. Om 'n naiumlve waarnemer dit kan daarop dui dat latere geslagte gaan minder variasie toon - letterlik meer middelmatigheid - as vroeër dié, maar dit is nie die geval. Dit is 'n suiwer statistiese verskynsel. Tensy elke kind is presies soos die dieselfde grootte as die ouer in relatiewe terme (dit wil sê nie, tensy die korrelasie is presies gelyk aan 1), die voorspellings moet agteruitgang van die gemiddelde ongeag biologie as gemiddelde kwadraat fout is om die minimum beperk word. (Terug na bo.) Regressie na die gemiddelde is 'n onafwendbare feit van die lewe. Jou kinders kan verwag minder uitsonderlike (vir 'n beter of slegter) as jy te wees. Jou telling op 'n finale eksamen in 'n kursus kan verwag minder goeie (of slegte) as jou telling op die akademiese trimester eksamen, relatief tot die res van die klas te wees. 'N baseball spelers kolfgemiddelde in die tweede helfte van die seisoen kan verwag word om nader aan die gemiddelde (vir alle spelers) as sy kolfgemiddelde in die eerste helfte van die seisoen wees. En so aan. Die sleutel woord hier is quotexpected. quot Dit beteken nie sy seker dat regressie na die gemiddelde sal plaasvind nie, maar dis die manier om te wed Ons het reeds 'n voorstel van regressie-to-the-gemiddelde gesien in sommige van die tydreeks voorspellingsmodelle ons bestudeer het: stukke voorspellings is geneig om gladder --ie wees hulle toon minder variasie - as die erwe van die oorspronklike data. Dit is nie waar van ewekansige loop modelle, maar dit is oor die algemeen waar van bewegende gemiddelde modelle en ander modelle wat hul voorspellings baseer op meer as een afgelope waarneming. Die intuïtiewe verduideliking vir die agteruitgang van krag is eenvoudig: die ding wat ons probeer om gewoonlik voorspel bestaan ​​uit 'n voorspelbare komponent (quotsignalquot) en 'n statisties onafhanklike onvoorspelbare komponent (quotnoisequot). Die beste wat ons kan hoop om te doen is om te voorspel (net) dat 'n deel van die variasie wat as gevolg van die sein. Vandaar ons vooruitskattings sal neig om minder variasie toon as die werklike waardes, wat 'n regressie na die gemiddelde impliseer. Nog 'n manier om te dink aan die regressie-effek is in terme van keuse vooroordeel. Oor die algemeen 'n player8217s prestasie oor 'n gegewe tydperk kan toegeskryf word aan 'n kombinasie van vaardigheid en geluk. Veronderstel dat ons 'n voorbeeld van professionele atlete wie se prestasie was baie beter as die gemiddelde (of studente wie se grade is baie beter as die gemiddelde) in die eerste helfte van die jaar te kies. Die feit dat hulle so goed gevaar het in die eerste helfte van die jaar is dit waarskynlik is dat beide hul vaardigheid en hulle geluk was beter as die gemiddelde gedurende daardie tydperk. In die tweede helfte van die jaar kan ons verwag dat hulle ewe vaardig wees, maar ons moet nie verwag dat hulle net so gelukkig wees. So ons moet voorspel dat in die tweede helfte van hul prestasie nader aan die gemiddelde sal wees. Intussen het die spelers wie se prestasie was bloot gemiddelde in die eerste helfte het waarskynlik vaardigheid en geluk wat in teenoorgestelde rigtings vir hulle. Ons moet dus verwag dat hul prestasie in die tweede helfte om weg van die gemiddelde in die een of ander rigting beweeg, as ons 'n ander onafhanklike toets van hul vaardigheid. Ons don8217t weet watter rigting hulle beweeg, al is, so selfs vir hulle wat ons moet voorspel dat die tweede helfte prestasie nader aan die gemiddelde as hul eerste helfte prestasie sal wees. Daar moet egter verwag die werklike prestasie van die spelers om 'n ewe groot variansie in die tweede helfte van die jaar as in die eerste helfte het, omdat dit bloot die gevolg van 'n herverdeling van onafhanklik ewekansige geluk onder spelers met dieselfde verspreiding van vaardigheid as voor. 'N lekker bespreking van regressie na die gemiddelde in die breër konteks van sosiaal-wetenskaplike navorsing kan hier gevind word. (Terug na bo.) Regverdiging vir regressie aannames Hoekom moet ons aanvaar dat verhoudings tussen veranderlikes is lineêr. Omdat lineêre verwantskappe is die eenvoudigste nie-triviale verhoudings wat kan verbeel (vandaar die maklikste om te werk met), en. Omdat die quottruequot verhoudings tussen ons veranderlikes is dikwels ten minste ongeveer lineêr oor die omvang van die waardes wat van belang is vir ons, en. Selfs al is hulle nie, kan ons dikwels die transformasie van die veranderlikes in so 'n manier om die verhoudings logskaal liniariseer. Dit is 'n sterk aanname, en die eerste stap in regressie modelle moet wees om te kyk na spreiding diagrammen van die veranderlikes (en in die geval van tydreeksdata, erwe van die veranderlikes teen tyd), om seker te maak dit redelik a priori. En ná pas 'n model, erwe van die foute moet bestudeer om te sien of daar onverklaarbare lineêre patrone. Dit is veral belangrik wanneer die doel is om voorspellings vir scenario's buite die omvang van die historiese data, waar afwykings van volmaakte lineariteit waarskynlik die grootste uitwerking hê nie. As jy sien bewyse van nie-lineêre verwantskappe, is dit moontlik (hoewel nie gewaarborg nie) wat transformasies van veranderlikes hulle sal regop te kom uit op 'n manier wat nuttig afleidings en voorspellings sal oplewer via lineêre regressie. (Terug na bo.) En hoekom moet ons aanneem dat die uitwerking van verskillende onafhanklike veranderlikes op die verwagte waarde van die afhanklike veranderlike is toevoeging. Dit is 'n baie sterk aanname, sterker as die meeste mense besef. Dit impliseer dat die marginale uitwerking van een onafhanklike veranderlike (bv sy helling koëffisiënt) is nie afhanklik van die huidige waardes van ander onafhanklike veranderlikes. But8230 waarom shouldn8217t dit It8217s denkbaar dat een onafhanklike veranderlike die effek van 'n ander kan versterk, of dat die uitwerking daarvan kan stelselmatig wissel met verloop van tyd. In 'n meervoudige regressie model, die beraamde koëffisiënt van 'n gegewe onafhanklike veranderlike meet kwansuis die uitwerking daarvan terwyl quotcontrollingquot vir die teenwoordigheid van die ander. Maar die manier waarop beherende uitgevoer is uiters simplistiese: veelvoude van ander veranderlikes bloot bygetel of afgetrek word. Baie gebruikers net gooi 'n baie onafhanklike veranderlikes in die model sonder nadink oor hierdie kwessie, asof hulle sagteware sal outomaties uit te vind presies hoe hulle verwant is. Dit won8217t Selfs outomatiese model-seleksie metodes (bv stapsgewyse regressie) vereis dat jy 'n goeie begrip van jou eie data het en 'n leidende hand gebruik in die analise. Hulle werk slegs met die veranderlikes aan hulle gegee, in die vorm wat aan hulle gegee word, en dan kyk hulle net vir lineêre, toevoeging patrone onder hulle in die konteks van mekaar. 'N regressiemodel nie bloot aanvaar dat Y is quotsome functionquot van die Xs. Dit word aanvaar dat dit 'n baie spesiale soort funksie van die Xs. 'N algemene praktyk is om onafhanklike veranderlikes waarvan die voorspelbare gevolge logies kan nie toevoeging wees, sê, 'n paar wat totale en ander wat tariewe of persentasies insluit. Soms kan dit gerasionaliseer deur plaaslike eerste-orde-benadering argumente, en soms is dit kan nie. Jy moet die betrokke data daarna in te samel, te verstaan ​​wat dit meet, skoon it up, indien nodig, uit te voer beskrywende analise om te kyk vir patrone voordat pas enige modelle, en bestudeer die diagnostiese toetse van model aannames, veral statistieke en erwe van die foute. Jy moet ook probeer om die toepaslike ekonomiese of fisiese redenasie toepas om te bepaal of 'n toevoeging voorspelling vergelyking maak sin. Ook hier is dit moontlik (maar nie gewaarborg nie) wat transformasies van veranderlikes of die insluiting van interaksie terme hul effekte kan skei in 'n toevoeging vorm, as hulle nie so 'n vorm om mee te begin, maar dit verg 'n paar gedagtes en moeite op jou deel. (Terug na bo.) En hoekom moet ons aanvaar die foute van lineêre modelle is onafhanklik en identies normaal verdeel. 1. Hierdie aanname word dikwels geregverdig deur 'n beroep op die sentrale limietstelling van statistieke, wat bepaal dat die som of gemiddelde van 'n voldoende groot aantal onafhanklike toevalsveranderlikes - ongeag hul individuele verspreidings - nader 'n normaalverdeling. Baie data in besigheid en ekonomie en ingenieurswese en die natuurwetenskappe word verkry deur of gemiddeld numeriese metings uitgevoer op baie verskillende persone of produkte of plekke of tyd intervalle. Sover die aktiwiteite wat genereer die metings kan ietwat lukraak en ietwat onafhanklik optree, kan ons verwag dat die verskille in die totale of gemiddelde ietwat gewoonlik verdeel moet word. 2. Dit is (weer) wiskundig gerieflik: dit impliseer dat die optimale koëffisiënt raming vir 'n lineêre model is dié wat die gemiddelde minimum te beperk kwadraat fout (wat maklik bereken), en dit regverdig die gebruik van 'n gasheer van statistiese toetse wat gebaseer is op die normale familie van verdelings. (Hierdie familie sluit die t verspreiding, die F verspreiding, en die Chi-kwadraat verspreiding.) 3. Selfs as die quottruequot fout proses is nie normaal in terme van die oorspronklike eenhede van die data, kan dit moontlik wees om die data te transformeer sodat dat jou modelle voorspelling foute is ongeveer normaal. Maar ook hier versigtig moet uitgeoefen. Selfs al is die onverklaarbare variasies in die afhanklike veranderlike ongeveer normaal versprei is, is dit nie gewaarborg dat hulle sal ook identies normaalverdeelde vir alle waardes van die onafhanklike veranderlikes. Miskien is die onverklaarbare variasies is groter onder sommige omstandighede as ander, 'n toestand bekend as quotheteroscedasticityquot. Byvoorbeeld, as die afhanklike veranderlike bestaan ​​uit daaglikse of maandelikse totale verkope, is daar waarskynlik beduidende dag-van-week patrone of seisoenale patrone. Nog 'n gevolg van die sentrale limietstelling - In sulke gevalle sal die afwyking van die totale groter op dae of in seisoene met 'n groter sake-aktiwiteit wees. (Variable transformasies soos meld en / of seisoenale aanpassing word dikwels gebruik om te gaan met hierdie probleem.) Dit is ook nie gewaarborg dat die toevallige variasies statisties onafhanklik sal wees. Dit is 'n besonder belangrike vraag wanneer die data bestaan ​​uit tydreekse. As die model is nie korrek vermeld, is dit moontlik dat opeenvolgende foute (of foute geskei deur 'n ander aantal periodes) 'n sistematiese neiging om dieselfde teken of 'n sistematiese neiging om teenoorgestelde tekens het, 'n verskynsel wat bekend staan ​​as quotautocorrelationquot of sal hê quotserial correlationquot. 'N Baie belangrike spesiale geval is dié van aandele prys data. waarin persentasie veranderinge eerder as absolute veranderinge is geneig om gewoonlik versprei. Dit impliseer dat oor matige tot groot tydskale, bewegings in aandeelpryse is lognormaalverdeelde parameter eerder as normaal verdeel. 'N log transformasie is tipies aangewend om historiese aandele prys data in die bestudering van groei en wisselvalligheid. Let op: hoewel eenvoudig regressiemodelle dikwels toegerus om historiese voorraad keer terug na quotbetasquot, wat aanwysers van relatiewe risiko in die konteks van 'n gediversifiseerde portefeulje is skat, weet ek nie aanbeveel dat jy regressie gebruik om te probeer om toekomstige voorraad opbrengste voorspel. Sien die geometriese ewekansige loop bladsy plaas. Jy nog sou kon dink dat variasies in die waardes van portefeuljes van aandele sou geneig om gewoonlik versprei, uit hoofde van die sentrale limietstelling, maar die sentrale limietstelling is eintlik eerder traag om te byt op die lognormale verspreiding omdat dit so asimmetries lang - stert. 'N Bedrag van 10 of 20 onafhanklik en identies lognormaalverdeelde parameter veranderlikes het 'n verspreiding wat is nog steeds baie naby aan lognormale. As jy hierdie don8217t glo, probeer om dit te toets deur Monte Carlo simulasie: you8217ll verbaas wees. (Ek was.) Omdat die aannames van lineêre regressie (lineêre, toevoeging verhoudings met IID normaalverdeelde foute) is so sterk, dit is baie belangrik om hul geldigheid te toets wanneer gepas modelle, 'n onderwerp in meer detail bespreek op die toets-Model aannames bladsy. en wees bedag wees op die moontlikheid dat jy meer of beter data mag nodig wees om jou doelwitte te bereik. Jy can8217t iets uit niks te kry. Al te dikwels, naiumlve gebruikers van regressie-analise te kan sien dit as 'n swart boks wat outomaties 'n gegewe veranderlike van 'n ander veranderlikes wat daarin gevoer kan voorspel, terwyl dit in werklikheid 'n regressiemodel is 'n baie spesiale en baie deursigtige soort voorspelling boks. Die opbrengs bevat geen meer inligting as wat deur sy insette, en sy innerlike meganisme moet word in vergelyking met die werklikheid in elke situasie waar dit toegepas word. (Terug na bo.) Korrelasie en eenvoudige regressie formules A veranderlike is, per definisie, 'n hoeveelheid wat kan wissel van een meting na 'n ander in situasies waar verskillende monsters van 'n bevolking geneem of waarnemings word gemaak op verskillende punte in die tyd. In pas statistiese modelle waarin sommige veranderlikes word gebruik om ander te voorspel, wat ons hoop om te vind dat die verskillende veranderlikes nie onafhanklik wissel (in 'n statistiese sin), maar dat hulle geneig is om saam te wissel. In die besonder, wanneer gepas lineêre modelle, ons hoop om dit een veranderlike te vind (byvoorbeeld Y) is wisselende as 'n reguitlyngrondslag funksie van 'n ander veranderlike (sê, X). Met ander woorde, as al die ander moontlik relevante veranderlikes gehou kan word vasgestel, sou ons hoop om die grafiek van y vind versus X 'n reguit lyn (afgesien van die onvermydelike ewekansige foute of quotnoisequot) wees. 'N Mate van die absolute bedrag van variasie in 'n veranderlike is (natuurlik) sy variansie. wat gedefinieer word as die gemiddelde kwadraat afwyking van sy eie gemiddelde. Anders gestel, kan ons variasie meet in terme van die standaardafwyking. wat gedefinieer word as die vierkantswortel van die variansie. Die standaardafwyking het die voordeel dat dit word gemeet in dieselfde eenhede as die oorspronklike veranderlike, eerder as kwadraat eenhede. Ons taak in die voorspelling van Y kan beskryf word as dié van verduidelik sommige of al sy variansie - d. w.z. hoekom. of onder watter omstandighede, is dit afwyk van sy gemiddelde Hoekom is dit nie konstant Dit is, wil ons graag in staat wees om te verbeter op die naïef voorspellende model: 374 t konstant, waarin die beste waarde vir die konstante is vermoedelik die historiese gemiddelde van Y. Meer presies, ons hoop om 'n model waarvan die voorspelling foute is kleiner, in 'n gemiddelde vierkante sin, as die afwykings van die oorspronklike veranderlike vanaf sy gemiddelde vind. In die gebruik van lineêre modelle vir die voorspelling, dit blyk baie gerieflik dat die enigste statistieke van belang (ten minste vir die doel van die beraming van koëffisiënte te kwadraat fout te minimaliseer) is die gemiddelde en variansie van elke veranderlike en die korrelasiekoëffisiënt tussen elke paar van veranderlikes. Die korrelasiekoëffisiënt tussen X en Y word algemeen aangedui met r XY. en dit meet die sterkte van die lineêre verhouding tussen hulle op 'n relatiewe (dws sonder eenheid) skaal van -1 tot 1. Dit wil sê, dit meet die mate waartoe 'n lineêre model gebruik kan word om die afwyking van een veranderlike te voorspel uit sy gemiddelde gegewe kennis van die ander afwyking van sy gemiddelde op dieselfde tydstip. Die korrelasiekoëffisiënt is die maklikste bereken as ons eers die veranderlikes, wat beteken om te sit op eenhede met standaard-afwykings-uit-die-gemiddelde standaardiseer, met behulp van die bevolking standaardafwyking eerder as die monster standaardafwyking, dit wil sê deur die statistiek waarvan formule het n eerder as N-1 in die deler, waar n die steekproefgrootte. Die gestandaardiseerde weergawe van X sal hier aangedui deur X. en die waarde daarvan in tydperk t is gedefinieer in Excel notasie as: waar STDEV. P is die Excel-funksie vir die bevolking standaardafwyking. (Hier en elders gaan ek Excel funksies eerder as konvensionele wiskunde simbole gebruik in sommige van die formules om te illustreer hoe die berekeninge sal gedoen word op 'n sigblad.) Byvoorbeeld, veronderstel dat die gemiddelde (X) 20 en STDEV. P (X ) 5. As X t 25, dan X t 1, indien X t 10. dan X t -2, en so aan. Y sal die soortgelyke gestandaardiseerde waarde van Y. Nou dui, die korrelasiekoëffisiënt is gelyk aan die gemiddelde produk van die gestandaardiseerde waardes van die twee veranderlikes binne die gegewe voorbeeld van N waarnemings: So, byvoorbeeld, as X en Y is gestoor in kolomme op 'n sigblad, kan jy die gemiddelde en STDEV. P funksies te gebruik om hul gemiddeldes en standaardafwykings bevolking bereken, dan kan jy twee nuwe kolomme waarin die waardes van X en Y in elke ry word bereken volgens die formule hierbo te skep. skep dan 'n derde nuwe kolom waarin X vermenigvuldig met Y in elke ry. Die gemiddeld van die waardes in die laaste kolom is die korrelasie tussen X en Y. Natuurlik, in Excel, kan jy net gebruik maak van die formule CORREL (X, Y) 'n korrelasiekoëffisiënt, waar X en Y dui die sel wissel van bereken die data vir die veranderlikes. (Let wel: in sommige gevalle is dit van belang kan wees om die data met betrekking tot die monster standaardafwyking, wat is STDEV. S in Excel te standaardiseer, maar die bevolking statistiek is die korrekte een om te gebruik in die formule hierbo.) (Terug na bo van bladsy.) As die twee veranderlikes is geneig om wissel op dieselfde kante van hul onderskeie middel terselfdertyd, dan is die gemiddelde produk van hul afwykings (en dus ook die korrelasie tussen hulle) sal positief wees. aangesien die produk van twee getalle met dieselfde teken is positief. Aan die ander kant, as hulle is geneig om te wissel aan teenoorgestelde kante van hul onderskeie middel terselfdertyd, hul korrelasie sal negatief wees. As hulle onafhanklik wissel met betrekking tot hul middel - dit wil sê, as 'n mens is net so geneig om te wees bo of onder sy gemiddelde, ongeag van wat die ander doen - dan is die korrelasie sal nul wees. En as Y is 'n presiese lineêre funksie van X, dan óf Y t X t vir alle t of anders Y t - X t vir alle t. in welke geval die formule vir die korrelasie verminder tot 1 of -1. Die korrelasiekoëffisiënt kan gesê word dat die sterkte van die lineêre verhouding tussen Y en X vir die volgende rede meet. Die lineêre vergelyking vir die voorspelling van Y van X wat verminder beteken kwadraat fout is eenvoudig: So, as X waargeneem om 1 standaardafwyking bo sy eie gemiddelde wees, dan moet ons voorspel dat Y sal wees r XY standaardafwykings bo sy eie beteken as X 2 standaardafwykings onder sy eie gemiddeld, dan moet ons voorspel dat Y sal wees 2 r XY standaardafwykings onder sy eie gemiddelde, en so aan. In grafiese terme, beteken dit dat, op 'n PUNTEDIAGRAM van Y versus X.

No comments:

Post a Comment