Regressionsanalys. Enkel linjär regression

Huvud funktion regressionsanalys: med dess hjälp kan du få specifik information om vilken form och karaktär förhållandet mellan variablerna som studeras har.

Sekvens av stadier av regressionsanalys

Låt oss kort överväga stadierna av regressionsanalys.

    Problemformulering. I detta skede bildas preliminära hypoteser om beroendet av de fenomen som studeras.

    Definition av beroende och oberoende (förklarande) variabler.

    Insamling av statistiska uppgifter. Data måste samlas in för var och en av de variabler som ingår i regressionsmodellen.

    Formulering av en hypotes om sambandsformen (enkel eller multipel, linjär eller olinjär).

    Definition regressionsfunktioner (består i att beräkna de numeriska värdena för parametrarna i regressionsekvationen)

    Bedömning av regressionsanalysens noggrannhet.

    Tolkning av erhållna resultat. De erhållna resultaten av regressionsanalys jämförs med preliminära hypoteser. De erhållna resultatens riktighet och trovärdighet bedöms.

    Förutsäga okända värden för en beroende variabel.

Med hjälp av regressionsanalys är det möjligt att lösa problemet med prognoser och klassificering. Förutspådda värden beräknas genom att ersätta värdena för förklarande variabler i regressionsekvationen. Klassificeringsproblemet löses på detta sätt: regressionslinjen delar upp hela mängden objekt i två klasser, och den del av mängden där funktionsvärdet är större än noll tillhör en klass, och den del där det är mindre än noll tillhör en annan klass.

Problem med regressionsanalys

Låt oss överväga huvuduppgifterna för regressionsanalys: fastställa formen av beroende, bestämma regressionsfunktioner, uppskattning av okända värden för den beroende variabeln.

Att etablera formen av beroende.

Naturen och formen av sambandet mellan variabler kan bilda följande typer av regression:

    positiv linjär regression(uttryckt i enhetlig tillväxt av funktionen);

    positiv jämnt ökande regression;

    positiv jämnt ökande regression;

    negativ linjär regression (uttryckt som en enhetlig minskning av funktionen);

    negativ jämnt accelererad minskande regression;

    negativ enhetligt minskande regression.

Men de beskrivna sorterna finns vanligtvis inte i ren form, utan i kombination med varandra. I det här fallet talar vi om kombinerade former av regression.

Definition av regressionsfunktionen.

Den andra uppgiften handlar om att identifiera effekten på den beroende variabeln av huvudfaktorerna eller orsakerna, om allt annat är lika, och med förbehåll för att slumpelementens påverkan på den beroende variabeln utesluts. Regressionsfunktion definieras i form av en matematisk ekvation av en eller annan typ.

Uppskattning av okända värden för den beroende variabeln.

Lösningen på detta problem handlar om att lösa ett problem av en av följande typer:

    Uppskattning av värdena för den beroende variabeln inom det övervägda intervallet för initialdata, dvs. saknade värden; i detta fall är interpolationsproblemet löst.

    Uppskattning av framtida värden för den beroende variabeln, dvs. hitta värden utanför det angivna intervallet för källdata; i detta fall är problemet med extrapolering löst.

Båda problemen löses genom att ersätta de hittade parameteruppskattningarna med värdena för oberoende variabler i regressionsekvationen. Resultatet av att lösa ekvationen är en uppskattning av värdet på målvariabeln (beroende).

Låt oss titta på några av de antaganden som regressionsanalys bygger på.

Linearitetsantagande, dvs. förhållandet mellan variablerna som beaktas antas vara linjärt. Så i det här exemplet ritade vi ett spridningsdiagram och kunde se ett tydligt linjärt samband. Om vi ​​på spridningsdiagrammet för variablerna ser en tydlig frånvaro av ett linjärt samband, d.v.s. Om det finns ett olinjärt samband bör olinjära analysmetoder användas.

Normalitetsantagande matrester. Det antas att fördelningen av skillnaden mellan förutsagda och observerade värden är normal. För att visuellt bestämma fördelningens karaktär kan du använda histogram matrester.

När du använder regressionsanalys bör dess huvudsakliga begränsning beaktas. Den består i det faktum att regressionsanalys gör att vi endast kan upptäcka beroenden och inte de samband som ligger bakom dessa beroenden.

Regressionsanalys låter dig uppskatta styrkan i sambandet mellan variabler genom att beräkna det uppskattade värdet av en variabel baserat på flera kända värden.

Regressions ekvation.

Regressionsekvationen ser ut så här: Y=a+b*X

Med hjälp av denna ekvation uttrycks variabeln Y i termer av en konstant a och lutningen på linjen (eller lutningen) b, multiplicerad med värdet på variabeln X. Konstanten a kallas även interceptterm, och lutningen är regressionskoefficienten eller B-koefficienten.

I de flesta fall (om inte alltid) finns det en viss spridning av observationer i förhållande till regressionslinjen.

Återstoden är avvikelsen för en enda punkt (observation) från regressionslinjen (förutsagt värde).

För att lösa problemet med regressionsanalys i MS Excel, välj från menyn Service"Analyspaket" och verktyget för regressionsanalys. Vi ställer in inmatningsintervallen X och Y. Inmatningsintervallet Y är intervallet av beroende analyserade data, det måste innehålla en kolumn. Inmatningsintervallet X är intervallet av oberoende data som behöver analyseras. Antalet inmatningsområden bör inte överstiga 16.

Vid utgången av proceduren i utgångsområdet får vi rapporten som ges i tabell 8.3a-8,3v.

SLUTSATS AV RESULTAT

Tabell 8.3a. Regressionsstatistik

Regressionsstatistik

Plural R

R-torget

Normaliserad R-kvadrat

Standard fel

Observationer

Låt oss först överväga övre del beräkningar som presenteras i tabell 8.3a, - regressionsstatistik.

Magnitud R-torget, även kallat mått på säkerhet, kännetecknar kvaliteten på den resulterande regressionslinjen. Denna kvalitet uttrycks av graden av överensstämmelse mellan källdata och regressionsmodellen (beräknad data). Måttet på säkerhet ligger alltid inom intervallet.

I de flesta fall värdet R-torgetär mellan dessa värden, kallad extrem, dvs. mellan noll och ett.

Om värdet R-torget nära enhet betyder det att den konstruerade modellen förklarar nästan all variabilitet i motsvarande variabler. Omvänt, innebörden R-torget, nära noll, betyder dålig kvalitet byggd modell.

I vårt exempel är måttet på säkerhet 0,99673, vilket indikerar en mycket bra anpassning av regressionslinjen till originaldata.

plural R - multipel korrelationskoefficient R - uttrycker graden av beroende av de oberoende variablerna (X) och den beroende variabeln (Y).

Plural R lika roten ur från bestämningskoefficienten tar denna kvantitet värden i intervallet från noll till ett.

I enkel linjär regressionsanalys plural R lika med Pearsons korrelationskoefficient. Verkligen, plural R i vårt fall är den lika med Pearsons korrelationskoefficient från föregående exempel (0,998364).

Tabell 8.3b. Regressionskoefficienter

Odds

Standard fel

t-statistik

Y-korsning

Variabel X 1

* En trunkerad version av beräkningarna tillhandahålls

Betrakta nu mittdelen av beräkningarna som presenteras i tabell 8.3b. Här anges regressionskoefficienten b (2,305454545) och förskjutningen längs ordinataaxeln, d.v.s. konstant a (2,694545455).

Baserat på beräkningarna kan vi skriva regressionsekvationen så här:

Y= x*2,305454545+2,694545455

Riktningen för sambandet mellan variabler bestäms utifrån tecknen (negativa eller positiva) för regressionskoefficienterna (koefficient b).

Om tecknet på regressionskoefficienten är positivt blir förhållandet mellan den beroende variabeln och den oberoende variabeln positivt. I vårt fall är tecknet på regressionskoefficienten positivt, därför är förhållandet också positivt.

Om tecknet på regressionskoefficienten är negativt är förhållandet mellan den beroende variabeln och den oberoende variabeln negativt (inverst).

I tabell 8.3c. output resultat presenteras matrester. För att dessa resultat ska visas i rapporten måste du aktivera kryssrutan "Rester" när du kör verktyget "Regression".

ÅTERTAGANDE AV RESTEN

Tabell 8.3c. Matrester

Observation

Förutspådde Y

Matrester

Standardsaldon

Med hjälp av denna del av rapporten kan vi se varje punkts avvikelser från den konstruerade regressionslinjen. Största absoluta värdet återstoden i vårt fall - 0,778, den minsta - 0,043. För att bättre tolka dessa data kommer vi att använda grafen för originaldata och den konstruerade regressionslinjen som presenteras i ris. 8.3. Som du kan se är regressionslinjen ganska exakt "anpassad" till värdena för originaldata.

Det bör beaktas att exemplet i fråga är ganska enkelt och att det inte alltid är möjligt att kvalitativt konstruera en linjär regressionslinje.

Ris. 8.3. Källdata och regressionslinje

Problemet med att uppskatta okända framtida värden för den beroende variabeln baserat på kända värden för den oberoende variabeln har förblivit obeaktad, d.v.s. prognosproblem.

Med en regressionsekvation reduceras prognosproblemet till att lösa ekvationen Y= x*2,305454545+2,694545455 med kända värden på x. Resultaten av att förutsäga den beroende variabeln Y sex steg framåt presenteras i tabell 8.4.

Tabell 8.4. Resultat av prognosvariabel Y

Y (förutspått)

Således, som ett resultat av att använda regressionsanalys i Microsoft Excel, har vi:

    byggde en regressionsekvation;

    etablerade formen för förhållandet och riktningen för förhållandet mellan variablerna - positiv linjär regression, vilket uttrycks i den enhetliga tillväxten av funktionen;

    fastställde riktningen för förhållandet mellan variablerna;

    bedömde kvaliteten på den resulterande regressionslinjen;

    kunde se avvikelser av de beräknade data från data från den ursprungliga uppsättningen;

    förutspådda framtida värden för den beroende variabeln.

Om regressionsfunktion definieras, tolkas och motiveras, och bedömningen av regressionsanalysens noggrannhet uppfyller kraven, kan den konstruerade modellen och predikterade värden anses ha tillräcklig tillförlitlighet.

De förutsagda värdena som erhålls på detta sätt är de medelvärden som kan förväntas.

I detta arbete gick vi igenom de viktigaste egenskaperna beskrivande statistik och bland dem sådana begrepp som Genomsnittligt värde,median,maximal,minimum och andra egenskaper hos datavariation.

Konceptet diskuterades också kort utsläpp. De egenskaper som beaktas avser den så kallade explorativa dataanalysen, dess slutsatser kanske inte gäller den allmänna befolkningen, utan endast ett urval av data. Explorativ dataanalys används för att få primära slutsatser och bilda hypoteser om populationen.

Även grunderna för korrelations- och regressionsanalys, deras uppgifter och möjligheter till praktisk användning diskuterades.

Föreläsning 4

  1. Inslag av statistisk analys av modellen
  2. Undersökning statistisk signifikans parametrar för regressionsekvationen
  3. Variansanalys
  4. Undersökning övergripande kvalité regressionsekvationer
  5. F-statistik. Fisherfördelning i regressionsanalys.

När man bedömer sambandet mellan endogena och exogena variabler (y och x) med hjälp av provdata är det inte alltid möjligt att få en framgångsrik regressionsmodell i det första steget. I detta fall bör kvaliteten på den resulterande modellen bedömas varje gång. Kvaliteten på modellen bedöms inom 2 områden:

· Statistisk bedömning av modellkvalitet

Statistisk analys modeller inkluderar följande element:

  • Kontrollera den statistiska signifikansen av parametrar i regressionsekvationen
  • Kontrollera den övergripande kvaliteten på regressionsekvationen
  • Kontrollera egenskaperna hos de data som antogs vara sanna vid skattning av ekvationen

Den statistiska signifikansen för parametrarna i regressionsekvationen bestäms av t-statistik eller studentstatistik. Så:

tb – t-statistik för regressionskoefficient b

mb är standardfelet för regressionskoefficienten.

T-statistiken för korrelationskoefficienterna R beräknas också:

Således tb^2=t r ^2=F. Det vill säga att kontrollera den statistiska signifikansen för regressionskoefficienten b är ekvivalent med att kontrollera den statistiska signifikansen för korrelationskoefficienten

Korrelationskoefficienten visar hur nära korrelationen är (mellan x och y).

För linjär regression är korrelationskoefficienten:

För att bestämma anslutningens täthet används vanligtvis Cheglok-bordet

R 0,1 – 0,3 svag

R 0,3 – 0,5 måttlig

R 0,5-,07 märks

R 0,7-0,9 hög

R 0,9 till 0,99 mycket hög relation mellan x och y

Korrelationskoefficient -1

Ofta för praktiska ändamål beräknas elasticitetskoefficienten, betakoefficienten:

Elasticiteten för funktionen y=f(x) är gränsen för förhållandet mellan de relativa variablerna y och x

Elasticiteten visar hur mycket % y kommer att förändras när x ändras med 1 %.

För parad linjär regression beräknas elasticitetskoefficienten med formeln:

Den visar hur mycket %-y kommer att förändras i genomsnitt när x ändras med i genomsnitt 1 %.

Betakoefficienten är:

– medelkvadratavvikelse x

– Medelkvadratavvikelse

Betakoefficienten visar hur mycket y kommer att ändras från sin standardavvikelse när x ändras med värdet av dess standardavvikelse.


Variansanalys

I dispersionsanalys upptas en speciell plats av nedbrytningen av den totala summan av kvadratiska avvikelser för variabeln y från medelvärdet i två delar: mängden som förklaras av regression och mängden som inte förklaras av regression.

Den totala summan av kvadrerade avvikelser är lika med summan av kvadrerade avvikelser som förklaras av regressionen plus restsumman av kvadrerade avvikelser.

Dessa summor är relaterade till antalet frihetsgrader df - detta är antalet friheter för oberoende variation av egenskaper.

Så den totala summan av kvadrerade avvikelser har ett totalt antal frihetsgrader (n – 1).

Summan av kvadrerade avvikelser som förklaras av regression har en frihetsgrad på 1, eftersom variabeln beror på ett värde - regressionskoefficienten b.

Det finns en likhet mellan antalet frihetsgrader, varifrån:

N – 1 = 1 + n – 2

Låt oss dividera varje summa med motsvarande antal frihetsgrader, vi får den genomsnittliga kvadraten av avvikelser eller spridning:

D totalt = D fakta + D vila

Att bedöma den övergripande kvaliteten på en regressionsekvation innebär att bestämma om den matematiska modellen som uttrycker sambandet mellan variabler passar experimentdata och om det finns tillräckligt många variabler inkluderade i modellen för att förklara y.

Bedöm modellens övergripande kvaliteter = bedöm modellens tillförlitlighet = bedöm regressionsekvationens tillförlitlighet.

Den övergripande kvaliteten på regressionsmodellen bedöms utifrån variansanalys. För att bedöma modellens kvalitet beräknas bestämningskoefficienten:

Täljaren innehåller en provuppskattning av den kvarvarande variansen, och nämnaren innehåller en provuppskattning av den totala variansen.

Bestämningskoefficienten kännetecknar andelen variation i den beroende variabeln som förklaras av regressionsekvationen.

Så om R i kvadrat är 0,97 betyder det att 97 % av förändringarna i y beror på förändringar i x.

Ju närmare R i kvadrat är ett, desto starkare är det statistiskt signifikanta linjära sambandet mellan x och y.

För att få opartiska uppskattningar av variansen (determinationskoefficienten) divideras både täljaren och nämnaren i formeln med lämpligt antal frihetsgrader:

För att bestämma den statistiska signifikansen av bestämningskoefficienten R-kvadrat, testas nollhypotesen för F-statistik, beräknad med formeln:

För ett linjärt par:

F-beräknad jämförs med värdet av statistiken i tabellen. F-tabell betraktas med antalet frihetsgrader m, n-m-1, vid en signifikansnivå av alfa.

Om F beräknas > F-tabell så förkastas nollhypotesen, hypotesen om statistisk signifikans av determinationskoefficienten R kvadrat accepteras.

Fishers F-test = faktorvarians / efter kvarvarande varians:

Föreläsning nr 5

Kontrollera dataegenskaper som antogs vara sanna vid uppskattning av regressionsekvationen

1. Autokorrelation i residualer

2. Durbin-Watson statistik

3. Exempel

Vid uppskattning av regressionsmodellens parametrar antas att avvikelsen

1. Om förhållandet mellan x och y inte är linjärt.

2. Relationen mellan variablerna x och y är linjär, men den indikator som studeras påverkas av en faktor som inte ingår i modellen. Storleken på en sådan faktor kan förändra dess dynamik under den granskade perioden. Detta gäller särskilt för eftersläpande variabler.

Båda skälen indikerar att den resulterande regressionsekvationen kan förbättras genom att uppskatta ett icke-linjärt samband eller lägga till en ytterligare faktor till den ursprungliga modellen.

Minsta kvadratmetodens fjärde premiss säger att avvikelser är oberoende av varandra, men när man studerar och analyserar källdata i praktiken finns det situationer då dessa avvikelser innehåller en trend eller konjunktursvängningar.

Det antas att - Oberoende variabler (prediktorer, förklarande variabler) påverkar värdena för - beroende variabler (svar, förklarade variabler). Enligt tillgänglig empiri krävs det att man konstruerar en funktion som ungefär skulle beskriva förändringen vid förändring:

.

Det antas att uppsättningen av tillåtna funktioner som väljs från är parametrisk:

,

var är en okänd parameter (allmänt sett flerdimensionell). När vi bygger kommer vi att anta det

, (1)

där den första termen är en naturlig förändring från , och den andra är en slumpmässig komponent med noll genomsnitt; är den betingade matematiska förväntan givet den kända och kallas regression på .

Låta n gånger värdena på faktorerna och motsvarande värden för variabeln mäts y; det antas att

(2)

(andra index kl x hänvisar till faktornumret och det första hänvisar till observationsnumret); det antas också att

(3)

de där. - okorrelerade slumpvariabler. Det är bekvämt att skriva relationer (2) i matrisform:

, (4)

Var - kolumnvektor av värden för den beroende variabeln, t- Transponeringssymbol, - kolumnvektor (dimensioner k) okända regressionskoefficienter, - vektor för slumpmässiga avvikelser,

-matris; V i Den:e raden innehåller värdena för de oberoende variablerna i i Första observationen är den första variabeln en konstant lika med 1.

till början

Uppskattning av regressionskoefficienter

Låt oss konstruera en uppskattning för vektorn så att vektorn för uppskattningar av den beroende variabeln skiljer sig minimalt (i betydelsen av den kvadratiska normen för skillnaden) från vektorn med givna värden:

.

Lösningen är (om rangordningen för matrisen är k+1) betyg

(5)

Det är lätt att kontrollera att det är opartiskt.

till början

Kontrollera om den konstruerade regressionsmodellen är tillräcklig

Det finns följande samband mellan värdet , värdet från regressionsmodellen och värdet av den triviala uppskattningen av urvalets medelvärde:

,

Var .

I huvudsak definierar termen på vänster sida det totala felet i förhållande till medelvärdet. Den första termen på höger sida () bestämmer felet associerat med regressionsmodellen, och den andra () felet associerat med slumpmässiga avvikelser och den oförklarade byggda modellen.

Dela upp båda delarna i en komplett variant av spelare , får vi bestämningskoefficienten:

(6)

Koefficienten visar kvaliteten på anpassningen av regressionsmodellen till de observerade värdena. Om , då förbättrar inte regression kvaliteten på förutsägelsen jämfört med triviala förutsägelser.

Det andra extremfallet betyder en exakt passform: alla , dvs. alla observationspunkter ligger på regressionsplanet.

Värdet ökar dock med antalet variabler (regressorer) i regressionen, vilket inte innebär en förbättring av kvaliteten på prediktionen, och därför införs en justerad bestämningskoefficient

(7)

Dess användning är mer korrekt för att jämföra regressioner när antalet variabler (regressorer) ändras.

Konfidensintervall för regressionskoefficienter. Standardfelet för uppskattningen är det värde för vilket uppskattningen

(8)

var är det diagonala elementet i matrisen Z. Om felen är normalfördelade kommer statistiken, på grund av egenskaperna 1) och 2) ovan.

(9)

fördelade enligt Students lag med frihetsgrader, och därmed ojämlikheten

, (10)

där är kvantilen för nivån för denna fördelning, anger konfidensintervallet för med konfidensnivån.

Testar hypotesen om nollvärden av regressionskoefficienter. För att testa hypotesen om frånvaron av något linjärt samband mellan och en uppsättning faktorer, dvs. om den samtidiga likaheten till noll av alla koefficienter, förutom koefficienter, när en konstant används används statistik

, (11)

distribueras, om sant, enligt Fishers lag med k och frihetsgrader. avvisas om

(12)

var är nivåkvantilen.

till början

Beskrivning av data och problembeskrivning

Källdatafil tube_dataset.sta innehåller 10 variabler och 33 observationer. Se fig. 1.


Ris. 1. Inledande datatabell från filen tube_dataset.sta

Namnet på observationerna anger tidsintervallet: kvartal och år (före respektive efter punkten). Varje observation innehåller data för motsvarande tidsintervall. 10, duplicerar variabeln "Quarter" kvartalsnumret i observationsnamnet. Listan över variabler ges nedan.


Mål: Bygg en regressionsmodell för variabel nr 9 ”Rörförbrukning”.

Lösningssteg:

1) Först kommer vi att göra en utforskande analys av tillgängliga data för extremvärden och obetydliga data (konstruktion av linjediagram och spridningsdiagram).

2) Låt oss kontrollera förekomsten av möjliga beroenden mellan observationer och mellan variabler (konstruktion av korrelationsmatriser).

3) Om observationer bildar grupper kommer vi för varje grupp att bygga en regressionsmodell för variabeln "Rörförbrukning" (multipel regression).

Låt oss numrera om variablerna i ordningen i tabellen. Den beroende variabeln (respons) kommer att kallas variabeln "Rörförbrukning". Låt oss kalla alla andra variabler oberoende (prediktorer).

till början

Löser problemet steg för steg

Steg 1. Spridningsdiagrammen (se fig. 2) avslöjade inga uppenbara extremvärden. Samtidigt visar många grafer tydligt ett linjärt samband. Det saknas också data för "Rörförbrukning" under 4 kvartal 2000.


Ris. 2. Spridningsdiagram över den beroende variabeln (nr 9) och antalet brunnar (nr 8)

Siffran efter symbolen E i markeringarna längs X-axeln indikerar styrkan på 10, vilket bestämmer ordningen på värdena för variabel nr 8 (Antal driftbrunnar). I det här fallet talar vi om ett värde på cirka 100 000 brunnar (10 till 5:e makten).

I spridningsdiagrammet i fig. 3 (se nedan) 2 moln av punkter är tydligt synliga, och var och en av dem har ett tydligt linjärt samband.

Det är klart att variabel nr 1 med största sannolikhet kommer att ingå i regressionsmodellen, eftersom Vår uppgift är att identifiera exakt det linjära sambandet mellan prediktorerna och responsen.


Ris. 3. Scatterplot av den beroende variabeln (nr 9) och investeringar i oljeindustrin (nr 1)

Steg 2. Låt oss bygga linjära grafer av alla variabler beroende på tid. Graferna visar att data för många variabler varierar mycket beroende på kvartalsnummer, men tillväxten fortsätter från år till år.

Det erhållna resultatet bekräftar de antaganden som erhållits på basis av fig. 3.


Ris. 4. Linjediagram för den första variabeln mot tiden

I synnerhet i fig. 4 en linjär graf plottas för den första variabeln.

Steg 3. Enligt resultaten av fig. 3 och fig. 4 delar vi upp observationerna i 2 grupper, enligt variabel nr 10 ”Kvartal”. Den första gruppen kommer att inkludera data för kvartal 1 och 4, och den andra gruppen kommer att inkludera data för kvartal 2 och 3.

För att dela upp observationer efter kvartal i 2 tabeller, använd objektet Data/Delmängd/Slumpmässig. Här, som observationer, måste vi ange villkor för värdena för variabeln QUARTER. Ser ris. 5.

Enligt de angivna förutsättningarna kommer observationer att kopieras till en ny tabell. På raden nedan kan du ange specifika observationsnummer, men i vårt fall kommer detta att ta mycket tid.

Ris. 5. Välja en delmängd av observationer från tabellen

Som ett givet villkor ställer vi in:

V10 = 1 ELLER V10 = 4

V10 är den tionde variabeln i tabellen (V0 är observationskolumnen). I huvudsak kontrollerar vi varje observation i tabellen om den tillhör 1:a eller 4:e kvartalet eller inte. Om vi ​​vill välja en annan delmängd av observationer kan vi antingen ändra villkoret till:

V10 = 2 ELLER V10 = 3

eller flytta det första villkoret till undantagsreglerna.

Klickar OK, får vi först en tabell med data endast för 1:a och 4:e kvartalet och sedan en tabell med data för 2:a och 3:e kvartalet. Låt oss spara dem under namn 1_4.sta Och 2_3.sta via flik Arkiv/Spara som.

Därefter kommer vi att arbeta med två tabeller och resultaten av regressionsanalys för båda tabellerna kan jämföras.

Steg 4. Vi kommer att konstruera en korrelationsmatris för var och en av grupperna för att kontrollera antagandet om linjärt beroende och ta hänsyn till möjliga starka korrelationer mellan variabler när vi konstruerar en regressionsmodell. Eftersom det saknas data, konstruerades korrelationsmatrisen med möjligheten att parvis radera saknade data. Se fig. 6.


Ris. 6. Korrelationsmatris för de första 9 variablerna baserad på data från 1:a och 4:e kvartalen

Av just korrelationsmatrisen är det tydligt att vissa variabler är mycket starkt korrelerade med varandra.

Det är värt att notera att tillförlitligheten för stora korrelationsvärden endast är möjlig om det inte finns några extremvärden i den ursprungliga tabellen. Därför måste punktdiagram för den beroende variabeln och alla andra variabler beaktas i korrelationsanalysen.

Till exempel variabel nr 1 och nr 2 (Investering i olje- respektive gasindustrin). Se fig. 7 (eller t.ex. fig. 8).


Ris. 7. Spridningsdiagram för variabel nr 1 och nr 2

Ris. 8. Spridningsdiagram för variabel nr 1 och nr 7

Detta beroende är lätt att förklara. Den höga korrelationskoefficienten mellan olje- och gasproduktionsvolymer är också tydlig.

En hög korrelationskoefficient mellan variabler (multikolinjäritet) måste beaktas när en regressionsmodell konstrueras. Här kan stora fel uppstå vid beräkning av regressionskoefficienter (illa konditionerad matris vid beräkning av skattningen med OLS).

Här är de vanligaste lösningarna multikollinearitet:

1) Ridge regression.

Det här alternativet ställs in när du bygger multipel regression. Siffran är ett litet positivt tal. OLS-uppskattningen i detta fall är lika med:

,

Var Y– vektor med värdena för den beroende variabeln, Xär en matris som innehåller värdena för prediktorer i kolumner och är en identitetsmatris av ordningen n+1. (n är antalet prediktorer i modellen).

Den dåliga konditioneringen av matrisen med åsregression reduceras avsevärt.

2) Eliminering av en av de förklarande variablerna.

I detta fall exkluderas en förklaringsvariabel som har en hög parvis korrelationskoefficient (r>0,8) med en annan prediktor från analysen.

3) Använda stegvisa procedurer med inkludering/exkludering av prediktorer.

Vanligtvis används i sådana fall antingen åsregression (den är inställd som ett alternativ när man konstruerar en multipel regression), eller, baserat på korrelationsvärdena, exkluderas förklarande variabler som har en hög parvis korrelationskoefficient (r > 0,8), eller stegvis regression med inklusions-/exkluderingsvariabler.

Steg 5. Låt oss nu bygga en regressionsmodell med hjälp av rullgardinsmenyn ( Analys/multipel regression). Vi kommer att ange "Rörförbrukning" som den beroende variabeln och alla andra som oberoende variabler. Se fig. 9.


Ris. 9. Konstruktion av multipel regression för tabell 1_4.sta

Multipel regression kan göras steg för steg. I detta fall kommer modellen steg för steg att inkludera (eller exkludera) variabler som ger det största (minsta) bidraget till regressionen vid ett givet steg.

Detta alternativ låter dig också stanna vid ett steg när bestämningskoefficienten ännu inte är den största, men alla variabler i modellen redan är signifikanta. Se fig. 10.


Ris. 10. Konstruktion av multipel regression för tabell 1_4.sta

Det är särskilt värt att notera att stegvis regression med inkludering, i det fall där antalet variabler är större än antalet observationer, är det enda sättet att bygga en regressionsmodell.

Att sätta ett nollvärde för den fria termen för en regressionsmodell används om själva idén med modellen innebär ett nollsvarsvärde när alla prediktorer är lika med 0. Oftast uppstår sådana situationer i ekonomiska problem.

I vårt fall kommer vi att ta med den fria termen i modellen.


Ris. 11. Konstruktion av multipel regression för tabell 1_4.sta

Som modellparametrar väljer vi Steg för steg med undantag(Fon = 11, Foff = 10), med åsregression (lambda = 0,1). Och för varje grupp kommer vi att bygga en regressionsmodell. Se figur 11.

Resultat i formuläret Slutlig regressionstabell(se även Fig. 14) visas i Fig. 12 och Fig. 13. De erhålls vid det sista regressionssteget.

Steg 6.Kontrollera modellens lämplighet

Observera att, trots betydelsen av alla variabler i regressionsmodellen (p-nivå< 0.05 – подсвечены красным цветом), коэффициент детерминации R2 существенно меньше у первой группы наблюдений.

Bestämningskoefficienten visar i huvudsak vilken andel av svarsvariansen som förklaras av påverkan av prediktorer i den konstruerade modellen. Ju närmare R2 är 1, desto bättre modell.

Fishers F-statistik används för att testa hypotesen om nollvärden av regressionskoefficienter (dvs frånvaron av något linjärt samband mellan och en uppsättning faktorer förutom koefficienten). Hypotesen förkastas på låg signifikansnivå.

I vårt fall (se fig. 12) är det F-statistiska värdet = 13,249 på p-signifikansnivån< 0,00092, т.е. гипотеза об отсутствии линейной связи отклоняется.


Ris. 12. Resultat av regressionsanalys av data för 1:a och 4:e kvartalet


Ris. 13. Resultat av regressionsanalys av data för 2:a och 3:e kvartalen

Steg 7 Låt oss nu analysera resterna av den resulterande modellen. Resultaten som erhålls från analysen av residualer är ett viktigt tillägg till värdet av bestämningskoefficienten vid kontroll av den konstruerade modellens tillräcklighet.

För enkelhetens skull kommer vi bara att betrakta gruppen uppdelad i block numrerade 2 och 3, eftersom den andra gruppen studeras på liknande sätt.

I fönstret som visas i fig. 14, på tab Rester/förutsagda/observerade värden klicka på knappen Restanalys, och klicka sedan på knappen Kvarstår och förutspått. (Se fig. 15)

Knapp Restanalys kommer endast att vara aktiv om regressionen erhålls i det sista steget. Det visar sig oftare vara viktigt att få fram en regressionsmodell där alla prediktorer är signifikanta än att fortsätta bygga modellen (öka bestämningskoefficienten) och erhålla insignifikanta prediktorer.

I det här fallet, när regressionen inte stannar vid det sista steget, kan du artificiellt ställa in antalet steg i regressionen.


Ris. 14. Fönster med multipla regressionsresultat för data för 2:a och 3:e kvartalen


Ris. 15. Rester och predikterade värden av regressionsmodellen baserat på data från 2:a och 3:e kvartalen

Låt oss kommentera resultaten som presenteras i fig. 15. Den viktiga kolumnen är Lämningar(skillnaden mellan de två första kolumnerna). Stora residualer för många observationer och förekomsten av en observation med en liten residual kan indikera det senare som en outlier.

Restanalys behövs med andra ord för att avvikelser från antaganden som hotar analysresultatens validitet lätt ska kunna upptäckas.


Ris. 16. Rester och predikterade värden av regressionsmodellen baserat på data från kvartal 2 och 3 + 2 gränser på 0,95 konfidensintervall

I slutet presenterar vi en graf som illustrerar data som erhållits från tabellen i fig. 16. Här läggs 2 variabler till: UCB och LCB – 0,95 topp. och lägre Dov. intervall.

UBC = V2+1,96*V6

LBC = V2-1,96*V6

Och de fyra sista observationerna raderades.

Låt oss bygga en linjär graf med variabler ( Grafer/2M Grafer/Linjediagram för variabler)

1) Observerat värde (V1)

2) Förutsagt värde (V2)

3) UCB (V9)

4) LCB (V10)

Resultatet visas i fig. 17. Nu är det tydligt att den konstruerade regressionsmodellen återspeglar den verkliga konsumtionen av rör ganska väl, särskilt baserat på resultaten från det senaste förflutna.

Detta innebär att de verkliga värdena inom en snar framtid kan uppskattas av modellvärdena.

Låt oss notera en viktig punkt. Vid prognostisering med regressionsmodeller är det underliggande tidsintervallet alltid viktigt. I det aktuella problemet valdes stadsdelar ut.

Följaktligen, när man konstruerar en prognos, kommer de förutsagda värdena också att erhållas per kvartal. Om du behöver få en prognos för året måste du prognostisera för 4 kvartal och i slutet kommer ett stort fel att ackumuleras.

Ett liknande problem kan lösas på liknande sätt, först genom att endast aggregera data från kvartal till år (till exempel genom medelvärde). För denna uppgift är tillvägagångssättet inte särskilt korrekt, eftersom det bara kommer att finnas 8 observationer kvar som regressionsmodellen kommer att byggas på. Se bild 18.


Ris. 17. Observerade och predikterade värden tillsammans med 0,95 topp. och lägre förtroende med intervaller (data för 2:a och 3:e kvartalen)


Ris. 18. Observerade och predikterade värden tillsammans med 0,95 topp. och lägre förtroende intervall (data per år)

Oftast används detta tillvägagångssätt när man aggregerar data per månad, med initiala data per dag.

Man bör komma ihåg att alla metoder för regressionsanalys endast kan detektera numeriska beroenden och inte de underliggande orsakssambanden. Därför förblir svaret på frågan om betydelsen av variablerna i den resulterande modellen hos en expert på detta område, som i synnerhet kan ta hänsyn till påverkan av faktorer som kanske inte ingår i denna tabell.

y=f(x), när varje värde på den oberoende variabeln x matchar ett visst värde kvantiteter y, med regressionsanslutning till samma värde x kan passa beroende på tillfälle olika betydelser kvantiteter y. Om det finns för varje värde n i (\displaystyle n_(i)) värden y i 1 …y i 1 magnitud y, sedan beroendet av de aritmetiska medelvärdena y ¯ i = (y i 1 + . . + y i n 1) / n i (\displaystyle (\bar (y))_(i)=(y_(i1)+...+y_(in_(1))) / n_(i)) från x = x i (\displaystyle x=x_(i)) och är en regression i termens statistiska mening.

Encyklopedisk YouTube

  • 1 / 5

    Denna term i statistik användes först av Francis Galton (1886) i samband med studiet av nedärvningen av mänskliga fysiska egenskaper. Människolängd togs som en av egenskaperna; man fann att i allmänhet visade sig söner till långa fäder, inte överraskande, vara längre än söner till korta fäder. Det som var mer intressant var att variationen i söners längd var mindre än variationen i fäders längd. Så här manifesterades tendensen hos söners höjder att återgå till genomsnittet ( regression till medelmåttighet), det vill säga "regression". Detta faktum demonstrerades genom att beräkna medelhöjden för söner till fäder vars längd är 56 tum, genom att beräkna medelhöjden för söner till fäder som är 58 tum långa, etc. Resultaten plottades sedan på ett plan, längs ordinatan axeln varav sönernas genomsnittliga höjd plottades och på x-axeln - värdena för fäders medelhöjd. Punkterna (ungefär) ligger på en rak linje med en positiv lutningsvinkel mindre än 45°; det är viktigt att regressionen var linjär.

    Beskrivning

    Antag att vi har ett urval från en bivariat fördelning av ett par slumpvariabler ( X, Y). Rak linje i planet ( x, y) var en selektiv analog till funktionen

    g (x) = E (Y ∣ X = x). (\displaystyle g(x)=E(Y\mitt X=x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) , (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac ( \sigma _(2))(\sigma _(1)))(x-\mu _(1)),) v a r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . (\displaystyle \mathrm (var) (Y\mid X=x)=\sigma _(2)^(2)(1-\varrho ^(2)).)

    I detta exempel regression YXär en linjär funktion. Om regression YX skiljer sig från linjär, är de givna ekvationerna en linjär approximation av den sanna regressionsekvationen.

    I allmänhet är regression av en slumpvariabel på en annan inte nödvändigtvis linjär. Det är inte heller nödvändigt att begränsa sig till ett par slumpvariabler. Statistiska regressionsproblem innebär att definiera allmän syn regressionsekvationer, konstruera uppskattningar okända parametrar ingår i regressionsekvationen och testar statistiska hypoteser om regression. Dessa problem behandlas inom ramen för regressionsanalys.

    Ett enkelt exempel regression Y Förbi Xär förhållandet mellan Y Och X, vilket uttrycks av relationen: Y=u(X)+ε, där u(x)=E(Y | X=x), och slumpvariabler X och ε är oberoende. Denna representation är användbar när du designar ett experiment för att studera funktionell anslutning y=u(x) mellan icke-slumpmässiga kvantiteter y Och x. I praktiken brukar regressionskoefficienterna i ekv. y=u(x) är okända och uppskattas från experimentella data.

    Linjär regression

    Låt oss föreställa oss beroendet y från x i form av en första ordningens linjär modell:

    y = β 0 + β 1 x + ε . (\displaystyle y=\beta _(0)+\beta _(1)x+\varepsilon .)

    Vi kommer att anta att värdena x bestäms utan fel, β 0 och β 1 är modellparametrarna och ε är felet, vars fördelning följer normallagen med nollmedelvärde och konstant avvikelse σ 2. Värdena för parametrarna β är inte kända i förväg och måste bestämmas från en uppsättning experimentella värden ( x i, y i), i=1, …, n. Så kan vi skriva:

    y i ^ = b 0 + b 1 x i , i = 1 , … , n (\displaystyle (\widehat (y_(i)))=b_(0)+b_(1)x_(i),i=1,\ prickar,n)

    där betyder det värde som förutspås av modellen y given x, b 0 och b 1 - provuppskattningar av modellparametrar. Låt oss också definiera e i = y i − y i ^ (\displaystyle e_(i)=y_(i)-(\widehat (y_(i))))- approximativt felvärde för i (\displaystyle i) observation.

    Minsta kvadratmetoden ger följande formler för att beräkna parametrarna för en given modell och deras avvikelser:

    b 1 = ∑ i = 1 n (xi − x ¯) (y i − y ¯) ∑ i = 1 n (xi − x ¯) 2 = c o v (x, y) σ x 2; (\displaystyle b_(1)=(\frac (\summa _(i=1)^(n)(x_(i)-(\bar (x)))(y_(i)-(\bar (y) )))(\summa _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))=(\frac (\mathrm (cov) (x,y ))(\sigma _(x)^(2)));) b 0 = y ¯ - b 1 x ¯; (\displaystyle b_(0)=(\bar (y))-b_(1)(\bar (x));) s e 2 = ∑ i = 1 n (y i − y ^) 2 n − 2; (\displaystyle s_(e)^(2)=(\frac (\summa _(i=1)^(n)(y_(i)-(\widehat (y)))^(2))(n- 2));) s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (xi − x ¯) 2; (\displaystyle s_(b_(0))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((\bar (x))^(2))(\summa _ (i=1)^(n)(x_(i)-(\bar (x)))^(2))))));) s b 1 = s e 1 ∑ i = 1 n (xi − x ¯) 2 , (\displaystyle s_(b_(1))=s_(e)(\sqrt (\frac (1)(\sum _(i=1) )^(n)(x_(i)-(\bar (x)))^(2)))),)

    här bestäms medelvärdena som vanligt: x ¯ = ∑ i = 1 n x i n (\displaystyle (\bar (x))=(\frac (\summa _(i=1)^(n)x_(i))(n))), y ¯ = ∑ i = 1 n y i n (\displaystyle (\bar (y))=(\frac (\summa _(i=1)^(n)y_(i))(n))) Och s e 2 betecknar regressionsresten, som är en uppskattning av variansen σ 2 om modellen är korrekt.

    Standardfel för regressionskoefficienter används på liknande sätt standard fel medelvärde - för att hitta konfidensintervall och testa hypoteser. Vi använder till exempel Elevens test för att testa hypotesen att regressionskoefficienten är lika med noll, det vill säga att den är insignifikant för modellen. Elevstatistik: t = b / s b (\displaystyle t=b/s_(b)). Om sannolikheten för det erhållna värdet och n−2 frihetsgrader är ganska liten, t.ex.<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\displaystyle b_(1))- det finns anledning att fundera på förekomsten av den önskade regressionen, åtminstone i denna form, eller på att samla in ytterligare observationer. Om den fria termen är lika med noll b 0 (\displaystyle b_(0)), då går den räta linjen genom origo och uppskattningen av lutningen är lika med

    b = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 (\displaystyle b=(\frac (\sum _(i=1)^(n)x_(i)y_(i))(\sum _(i= 1)^(n)x_(i)^(2)))),

    och dess standardfel

    s b = s e 1 ∑ i = 1 n x i 2 . (\displaystyle s_(b)=s_(e)(\sqrt (\frac (1)(\summa _(i=1)^(n)x_(i)^(2)))).)

    Vanligtvis är de sanna värdena för regressionskoefficienterna β 0 och β 1 inte kända. Endast deras uppskattningar är kända b 0 och b 1 . Med andra ord kan den sanna regressionslinjen fungera annorlunda än den som är byggd från exempeldata. Du kan beräkna konfidensområdet för regressionslinjen. För vilket värde som helst x motsvarande värden y normalt fördelade. Medelvärdet är värdet på regressionsekvationen y ^ (\displaystyle (\widehat (y))). Osäkerheten i dess uppskattning kännetecknas av standardregressionsfelet:

    s y ^ = s e 1 n + (x − x ¯) 2 ∑ i = 1 n (xi − x ¯) 2; (\displaystyle s_(\widehat (y))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((x-(\bar (x)))^(2) )(\summa _(i=1)^(n)(x_(i)-(\bar (x)))^(2))))));)

    Nu kan du beräkna -procent konfidensintervall för värdet av regressionsekvationen vid punkt x:

    y ^ − t (1 − α / 2 , n − 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    Var t(1−α/2, n−2) - t-värdet av studentfördelningen. Figuren visar regressionslinjen konstruerad med 10 punkter (heldragna punkter), samt 95 % konfidensregionen för regressionslinjen, som begränsas av de prickade linjerna. Med 95% sannolikhet kan vi säga att den sanna linjen ligger någonstans inuti detta område. Eller på annat sätt, om vi samlar in liknande datamängder (anges med cirklar) och bygger regressionslinjer på dem (indikerade i blått), så kommer i 95 fall av 100 dessa raka linjer inte att lämna konfidensområdet. (Klicka på bilden för att visualisera) Observera att vissa punkter låg utanför konfidensområdet. Detta är helt naturligt, eftersom vi pratar om regressionslinjens förtroenderegion och inte själva värdena. Värdespridningen består av spridningen av värden runt regressionslinjen och osäkerheten i positionen för denna linje, nämligen:

    s Y = s e 1 m + 1 n + (x − x ¯) 2 ∑ i = 1 n (xi − x ¯) 2; (\displaystyle s_(Y)=s_(e)(\sqrt ((\frac (1)(m))+(\frac (1)(n))+(\frac ((x-(\bar (x) )))^(2))(\summa _(i=1)^(n)(x_(i)-(\bar (x)))^(2))))));)

    Här m- Mätfrekvens y given x. OCH 100 ⋅ (1 − α 2) (\displaystyle 100\cdot \left(1-(\frac (\alpha )(2))\right))-procentigt konfidensintervall (prognosintervall) för genomsnittet av m värden y kommer:

    y ^ − t (1 − α / 2 , n − 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    I figuren, denna 95% förtroende region vid m=1 begränsas av heldragna linjer. 95% av alla möjliga värden av kvantiteten faller inom detta område y inom det studerade värdeområdet x.

    Lite mer statistik

    Det kan vara strikt bevisat att om den villkorade förväntan E (Y ∣ X = x) (\displaystyle E(Y\mid X=x)) någon tvådimensionell slumpvariabel ( X, Y) är en linjär funktion av x (\displaystyle x), då är denna betingade förväntan nödvändigtvis representerad i formen E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac (\ sigma _(2))(\sigma _(1)))(x-\mu _(1))), Var E(X)=μ 1 , E(Y)=μ 2 , var( X)=σ 1 2 , var( Y)=σ 2 2 , cor( X, Y)=ρ.

    Dessutom för den tidigare nämnda linjära modellen Y = β 0 + β 1 X + ε (\displaystyle Y=\beta _(0)+\beta _(1)X+\varepsilon ), Var X (\displaystyle X) och är oberoende slumpvariabler, och ε (\displaystyle \varepsilon) har noll förväntan (och godtycklig fördelning), kan det bevisas att E (Y ∣ X = x) = β 0 + β 1 x (\displaystyle E(Y\mid X=x)=\beta _(0)+\beta _(1)x). Sedan, med hjälp av den tidigare angivna likheten, kan vi få formler för och: β 1 = ϱ σ 2 σ 1 (\displaystyle \beta _(1)=\varrho (\frac (\sigma _(2))(\sigma _(1)))),

    β 0 = μ 2 − β 1 μ 1 (\displaystyle \beta _(0)=\mu _(2)-\beta _(1)\mu _(1)).

    Om det från någonstans är känt a priori att en uppsättning slumpmässiga punkter på planet genereras av en linjär modell, men med okända koefficienter β 0 (\displaystyle \beta _(0)) Och β 1 (\displaystyle \beta _(1)), kan du få punktuppskattningar av dessa koefficienter med de angivna formlerna. För att göra detta, istället för matematiska förväntningar, varianser och korrelationer av slumpvariabler, dessa formler X Och Y vi måste ersätta deras opartiska uppskattningar. De resulterande uppskattningsformlerna kommer exakt att sammanfalla med formlerna som härleds baserat på minsta kvadratmetoden.

    • Handledning

    Statistik har nyligen fått kraftfullt PR-stöd från nyare och bullrigare discipliner - Maskininlärning Och Big Data. De som vill åka på denna våg måste bli vän med regressionsekvationer. Det är tillrådligt att inte bara lära sig 2-3 knep och klara provet, utan också att kunna lösa problem från vardagen: hitta förhållandet mellan variabler och helst kunna skilja signal från brus.



    För detta ändamål kommer vi att använda ett programmeringsspråk och utvecklingsmiljö R, som är perfekt lämpad för sådana uppgifter. Låt oss samtidigt kontrollera vad som bestämmer Habraposts betyg baserat på statistiken för dess egna artiklar.

    Introduktion till regressionsanalys

    Om det finns en korrelation mellan variablerna y och x, finns det ett behov av att bestämma det funktionella sambandet mellan de två storheterna. Beroendet av medelvärdet kallas regression av y på x.


    Grunden för regressionsanalys är minsta kvadratmetoden (LSM), enligt vilken regressionsekvationen anses vara en funktion så att summan av kvadraterna av skillnaderna är minimal.



    Carl Gauss upptäckte, eller snarare återskapade, MNC vid 18 års ålder, men resultaten publicerades först av Legendre 1805. Enligt overifierade data var metoden känd i det antika Kina, varifrån den migrerade till Japan och först därefter kom till Europa. Européerna gjorde ingen hemlighet av detta och satte det framgångsrikt i produktion och använde det för att upptäcka dvärgplaneten Ceres bana 1801.


    Typen av funktion bestäms som regel i förväg, och de optimala värdena för de okända parametrarna väljs med hjälp av minsta kvadrater. Måttet för spridningen av värden runt en regression är varians.


    • k är antalet koefficienter i systemet med regressionsekvationer.

    Oftast används en linjär regressionsmodell, och alla olinjära beroenden reduceras till en linjär form med hjälp av algebraiska knep och olika transformationer av variablerna y och x.

    Linjär regression

    Linjära regressionsekvationer kan skrivas som



    I matrisform kommer detta att se ut


    • y - beroende variabel;
    • x - oberoende variabel;
    • β - koefficienter som måste hittas med hjälp av minsta kvadrater;
    • ε - fel, oförklarat fel och avvikelse från linjärt beroende;


    En slumpvariabel kan tolkas som summan av två termer:



    Ett annat nyckelbegrepp är korrelationskoefficienten R2.


    Begränsningar av linjär regression

    För att använda en linjär regressionsmodell krävs några antaganden om variablernas fördelning och egenskaper.



    Hur upptäcker man att ovanstående villkor inte är uppfyllda? Tja, för det första, ganska ofta är detta synligt för blotta ögat på sjökortet.


    Dispersionens heterogenitet


    När variansen ökar med den oberoende variabeln har vi en trattformad graf.



    I vissa fall kan olinjär regression också ses ganska tydligt på grafen.


    Ändå finns det ganska strikta formella sätt att avgöra om villkoren för linjär regression uppfylls eller överträds.




    I denna formel - koefficienten för ömsesidig bestämning mellan och andra faktorer. Om åtminstone en av VIF:erna är > 10 är det ganska rimligt att anta närvaron av multikollinearitet.


    Varför är det så viktigt för oss att uppfylla alla ovanstående villkor? Allt handlar om Gauss-Markovs teorem, enligt vilken OLS-uppskattning är korrekt och effektiv endast om dessa begränsningar är uppfyllda.

    Hur man övervinner dessa begränsningar

    Att bryta mot en eller flera restriktioner är inte en dödsdom.

    1. Regressionens olinjäritet kan övervinnas genom att transformera variablerna, till exempel genom den naturliga logaritmfunktionen ln.
    2. På samma sätt är det möjligt att lösa problemet med heterogen varians genom att använda ln- eller sqrt-transformationer av den beroende variabeln, eller genom att använda viktad OLS.
    3. För att eliminera problemet med multikollinearitet används variabelelimineringsmetoden. Dess essens är det starkt korrelerade förklaringsvariabler elimineras från regressionen, och den omvärderas. Kriteriet för att välja variabler som ska exkluderas är korrelationskoefficienten. Det finns ett annat sätt att lösa detta problem, som är att ersätter variabler som i sig är multikollinjära med sin linjära kombination. Denna lista är inte uttömmande, det finns fler stegvis regression och andra metoder.

    Tyvärr kan inte alla villkorsöverträdelser och defekter av linjär regression elimineras med den naturliga logaritmen. Om det är autokorrelation av störningar till exempel är det bättre att ta ett steg tillbaka och bygga en ny och bättre modell.

    Linjär regression av fördelar på Habré

    Så, tillräckligt med teoretiskt bagage och du kan bygga själva modellen.
    Jag har länge varit nyfiken på vad den där lilla gröna siffran beror på, vilket anger betyget på ett inlägg på Habré. Efter att ha samlat all tillgänglig statistik för mina egna inlägg bestämde jag mig för att köra den genom en linjär regressionsmodell.


    Laddar data från en tsv-fil.


    > hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
    poäng läser comm faves fb bytes 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 12 5 2 5 25 4 6 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
    • poäng- Artikelbetyg
    • läser- Antal visningar.
    • komm- Antal kommentarer.
    • favoriter- Tillagd till bokmärken.
    • fb- Delas på sociala nätverk (fb + vk).
    • bytes- Längd i byte.

    Multikollinearitetskontroll.


    > COR (HIST) Poäng läser Comm Faves FB Bytes Points 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0 65 0.5709246 0.51551030 0.23659894 1.00000000 0.06782256 bytes 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.0000000000000000

    Tvärtemot mina förväntningar största avkastningen inte på antalet visningar av artikeln, men från kommentarer och inlägg på sociala nätverk. Jag trodde också att antalet visningar och kommentarer skulle ha en starkare korrelation, men sambandet är ganska måttligt - det finns ingen anledning att utesluta någon av de oberoende variablerna.


    Nu själva modellen använder vi lm-funktionen.


    regmodell<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.029e+01 7.198e+00 1.430 0.1608 läser 8.832e-05 3.158e-04 0.280 0.7812 komm. 1.356e-01 5.218e-08.202 0.218e. 02 3,492e-02 0,785 0,4374 fb 1,162e-01 4,691e-02 2,476 0,0177 * bytes 3,960e-04 4,219e-04 0,939 0,3537 --- Signif. koder: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Kvarstående standardfel: 16,65 på 39 frihetsgrader Multipel R-kvadrat: 0,5384, Justerad R-kvadrat: 0,4792 F-kvadrat statistik: 9.099 på 5 och 39 DF, p-värde: 8.476e-06

    På den första raden ställer vi in ​​de linjära regressionsparametrarna. Linjepunkter ~. definierar de beroende variabelpunkterna och alla andra variabler som regressorer. Du kan definiera en enda oberoende variabel genom punkter ~ läser, en uppsättning variabler - punkter ~ läser + komm.


    Låt oss nu gå vidare till att dechiffrera de erhållna resultaten.




    Du kan försöka förbättra modellen något genom att jämna ut olinjära faktorer: kommentarer och inlägg på sociala nätverk. Låt oss ersätta värdena för variablerna fb och comm med deras krafter.


    > hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

    Låt oss kontrollera värdena för de linjära regressionsparametrarna.


    >regmodell<- lm(points ~., data = hist) >summary(regmodel) Anrop: lm(formel = poäng ~ ., data = hist) Residualer: Min 1Q Median 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Koefficienter: Uppskattning Std. Fel t värde Pr(>|t|) (Intercept) 2,823e+00 7,305e+00 0,387 0,70123 reads -6,278e-05 3,227e-04 -0,195 0,84674 comm 1,020e 3,010e 3,010e ** f aves 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 ** byte 2.688e-04 4.108e-64 7.108e-54 . koder: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Kvarstående standardfel: 16,21 på 39 frihetsgrader Multipel R-kvadrat: 0,5624, Justerad R-kvadrat: 0,5062 F statistik: 10,02 på 5 och 39 DF, p-värde: 3,186e-06

    Som vi kan se har modellens lyhördhet i allmänhet ökat, parametrarna har stramats upp och blivit mer silkeslen, F-statistiken har ökat, liksom den justerade bestämningskoefficienten.


    Låt oss kontrollera om villkoren för tillämpligheten av den linjära regressionsmodellen är uppfyllda? Durbin-Watson-testet testar för autokorrelation av störningar.


    > dwtest(hist$points ~., data = hist) Durbin-Watson testdata: hist$points ~ . DW = 1,585, p-värde = 0,07078 alternativ hypotes: sann autokorrelation är större än 0

    Och slutligen, kontrollera variansens heterogenitet med Breusch-Pagan-testet.


    > bptest(hist$points ~., data = hist) studentiserade Breusch-Pagan testdata: hist$points ~ . BP = 6,5315, df = 5, p-värde = 0,2579

    Till sist

    Naturligtvis var vår linjära regressionsmodell för Habr-ämnens betyg inte den mest framgångsrika. Vi kunde inte förklara mer än hälften av variationen i data. Faktorer måste korrigeras för att bli av med heterogen dispersion är också oklart. Generellt sett finns det inte tillräckligt med data för någon seriös bedömning.


    Men å andra sidan är det här bra. Annars skulle alla hastigt skrivna trollinlägg på Habré automatiskt skriva högt betyg, men lyckligtvis är det inte så.

    Använda material

    1. Kobzar A.I. Tillämpad matematisk statistik. - M.: Fizmatlit, 2006.
    2. William H. Green Ekonometrisk analys

    Taggar: Lägg till taggar