Wisser zachte programma beoordelingen. Gratis WiperSoft-recensie. Wat doet WiperSoft?

Kleinste vierkante methode

Kleinste kwadraten methode ( MNK, OLS, gewone kleinste kwadraten) - een van de basismethoden regressieanalyse om onbekende parameters van regressiemodellen te schatten op basis van voorbeeldgegevens. De methode is gebaseerd op het minimaliseren van de kwadratensom van regressieresiduen.

Opgemerkt moet worden dat de kleinste-kwadratenmethode zelf een methode kan worden genoemd voor het oplossen van een probleem in elk gebied als de oplossing bestaat uit of voldoet aan een bepaald criterium voor het minimaliseren van de kwadratensom van sommige functies van de onbekende variabelen. Daarom kan de kleinste-kwadratenmethode ook worden gebruikt voor een benaderende weergave (benadering) gegeven functie andere (eenvoudigere) functies, bij het vinden van een reeks grootheden die voldoen aan vergelijkingen of beperkingen, waarvan het aantal groter is dan het aantal van deze grootheden, enz.

De essentie van de MNC

Laat een (parametrisch) model van probabilistische (regressie) afhankelijkheid tussen de (verklaarde) variabele ja en vele factoren (verklarende variabelen) x

waar is de vector van onbekende modelparameters

- Willekeurige modelfout.

Laat er ook voorbeeldwaarnemingen zijn van de waarden van de aangegeven variabelen. Laat het waarnemingsgetal () zijn. Dan zijn de waarden van de variabelen in de -de waarneming. Dan is het voor gegeven waarden van de parameters b mogelijk om de theoretische (model)waarden van de verklaarde variabele y te berekenen:

De waarde van de residuen is afhankelijk van de waarden van de parameters b.

De essentie van LSM (gewoon, klassiek) is om zulke parameters b te vinden waarvoor de som van de kwadraten van de residuen (eng. Resterende som van vierkanten) zal minimaal zijn:

In het algemeen kan dit probleem worden opgelost door numerieke optimalisatiemethoden (minimalisatie). In dit geval spreekt men van niet-lineaire kleinste kwadraten(NLS of NLLS - Engels. Niet-lineaire kleinste kwadraten). In veel gevallen kunt u analytische oplossing. Om het minimalisatieprobleem op te lossen, is het noodzakelijk om de stationaire punten van de functie te vinden door deze te differentiëren met betrekking tot onbekende parameters b, de afgeleiden gelijkstellen aan nul en het resulterende systeem van vergelijkingen oplossen:

Als de willekeurige fouten van het model normaal zijn verdeeld, dezelfde variantie hebben en niet met elkaar zijn gecorreleerd, zijn de parameterschattingen met de kleinste kwadraten hetzelfde als de schattingen van de maximale waarschijnlijkheidsmethode (MLM).

LSM bij een lineair model

Laat de regressieafhankelijkheid lineair zijn:

laten zijn ja- kolomvector van waarnemingen van de verklaarde variabele, en - matrix van waarnemingen van factoren (rijen van de matrix - vectoren van factorwaarden in een bepaalde waarneming, door kolommen - vector van waarden van een bepaalde factor in alle waarnemingen) . De matrixweergave van het lineaire model heeft de vorm:

Dan zijn de vector van schattingen van de verklaarde variabele en de vector van regressieresiduen gelijk aan

dienovereenkomstig zal de som van de kwadraten van de regressieresiduen gelijk zijn aan

Door deze functie te differentiëren met betrekking tot de parametervector en de afgeleiden gelijk te stellen aan nul, verkrijgen we een systeem van vergelijkingen (in matrixvorm):

.

De oplossing van dit stelsel vergelijkingen geeft algemene formule: OLS-schattingen voor een lineair model:

Voor analytische doeleinden blijkt de laatste weergave van deze formule bruikbaar. Als de gegevens in het regressiemodel gecentreerd, dan heeft in deze weergave de eerste matrix de betekenis van een steekproefcovariantiematrix van factoren, en de tweede is de vector van covarianties van factoren met een afhankelijke variabele. Als bovendien de gegevens ook zijn: genormaliseerd bij de SKO (dat wil zeggen uiteindelijk gestandaardiseerd), dan heeft de eerste matrix de betekenis van de steekproefcorrelatiematrix van factoren, de tweede vector - de vector van steekproefcorrelaties van factoren met de afhankelijke variabele.

Een belangrijke eigenschap van LLS-schattingen voor modellen met een constante- de lijn van de geconstrueerde regressie gaat door het zwaartepunt van de steekproefgegevens, dat wil zeggen dat aan de gelijkheid is voldaan:

Met name in het extreme geval, wanneer de enige regressor een constante is, vinden we dat de OLS-schatting van een enkele parameter (de constante zelf) gelijk is aan de gemiddelde waarde van de variabele die wordt verklaard. Dat wil zeggen, het rekenkundig gemiddelde, bekend om zijn goede eigenschappen van de wetten van de grote getallen, is ook een kleinste-kwadratenschatting - het voldoet aan het criterium voor de minimale som van kwadratische afwijkingen ervan.

Voorbeeld: eenvoudige (paarsgewijze) regressie

In het geval van een stoomkamer lineaire regressie berekeningsformules zijn vereenvoudigd (je kunt het zonder matrixalgebra doen):

Eigenschappen van OLS-schattingen

Allereerst merken we op dat voor lineaire modellen OLS-schatters zijn lineaire schatters, zoals blijkt uit de bovenstaande formule. Voor onbevooroordeelde kleinste-kwadratenschatters is het noodzakelijk en voldoende dat: essentiële voorwaarde regressieanalyse: afhankelijk van de factoren moet de wiskundige verwachting van een willekeurige fout gelijk zijn aan nul. Deze voorwaarde is in het bijzonder tevreden als

  1. de wiskundige verwachting van willekeurige fouten is nul, en
  2. factoren en willekeurige fouten zijn onafhankelijke willekeurige variabelen.

De tweede voorwaarde - de voorwaarde van exogene factoren - is fundamenteel. Als aan deze eigenschap niet wordt voldaan, kunnen we aannemen dat bijna alle schattingen uiterst onbevredigend zullen zijn: ze zullen niet eens consistent zijn (dat wil zeggen, zelfs zeer groot volume gegevens laten niet toe om te ontvangen kwalitatieve beoordelingen in dit geval). In het klassieke geval wordt een sterkere aanname gedaan over het determinisme van factoren, in tegenstelling tot een toevalsfout, waardoor automatisch aan de exogene voorwaarde wordt voldaan. In het algemene geval is het voor de consistentie van de schattingen voldoende om te voldoen aan de exogeniteitsvoorwaarde samen met de convergentie van de matrix naar een niet-singuliere matrix met een toename van de steekproefomvang tot oneindig.

Om, naast consistentie en onbevooroordeeldheid, de schattingen van de (gebruikelijke) kleinste kwadraten ook effectief te laten zijn (de beste in de klasse van lineaire onbevooroordeelde schattingen), is het noodzakelijk om extra eigenschappen willekeurige fout:

Deze aannames kunnen worden geformuleerd voor de covariantiematrix van de willekeurige foutvector

Een lineair model dat aan deze voorwaarden voldoet, heet klassiek. OLS-schatters voor klassieke lineaire regressie zijn onbevooroordeeld, consistent en de meest efficiënte schatters in de klasse van alle lineaire onbevooroordeelde schatters (in de Engelse literatuur wordt de afkorting soms gebruikt blauw (Beste lineaire ongegronde schatter) is de beste lineaire onbevooroordeelde schatting; in de binnenlandse literatuur wordt de stelling van Gauss-Markov vaker aangehaald). Omdat het gemakkelijk aan te tonen is, zal de covariantiematrix van de vector voor coëfficiëntschattingen gelijk zijn aan:

Gegeneraliseerde kleinste kwadraten

De methode van de kleinste kwadraten zorgt voor een brede generalisatie. In plaats van de kwadratische som van de residuen te minimaliseren, kan men een positieve bepaalde kwadratische vorm van de residuele vector minimaliseren, waar een symmetrische positieve bepaalde gewichtsmatrix is. Gewone kleinste kwadraten is een speciaal geval van deze benadering, wanneer de gewichtsmatrix evenredig is aan de identiteitsmatrix. Zoals bekend is uit de theorie van symmetrische matrices (of operators), bestaat er een decompositie voor dergelijke matrices. Daarom kan de gespecificeerde functie als volgt worden weergegeven, dat wil zeggen dat deze functie kan worden weergegeven als de som van de kwadraten van enkele getransformeerde "residuen". We kunnen dus een klasse van kleinste-kwadratenmethoden onderscheiden - LS-methoden (kleinste kwadraten).

Het is bewezen (stelling van Aitken) dat voor een gegeneraliseerd lineair regressiemodel (waarin geen beperkingen worden opgelegd aan de covariantiematrix van willekeurige fouten), de meest effectieve (in de klasse van lineaire zuivere schattingen) schattingen zijn van de zogenaamde. gegeneraliseerde OLS (OMNK, GLS - gegeneraliseerde kleinste kwadraten)- LS-methode met een gewichtsmatrix gelijk aan de inverse covariantiematrix van willekeurige fouten: .

Er kan worden aangetoond dat de formule voor de GLS-schattingen van de parameters van het lineaire model de vorm heeft

De covariantiematrix van deze schattingen zal respectievelijk gelijk zijn aan

In feite ligt de essentie van de OLS in een bepaalde (lineaire) transformatie (P) van de originele data en het toepassen van de gebruikelijke kleinste kwadraten op de getransformeerde data. Het doel van deze transformatie is dat voor de getransformeerde gegevens de toevallige fouten al voldoen aan de klassieke veronderstellingen.

Gewogen kleinste kwadraten

In het geval van een diagonale gewichtsmatrix (en dus de covariantiematrix van willekeurige fouten) hebben we de zogenaamde gewogen kleinste kwadraten (WLS - Weighted Least Squares). IN deze zaak de gewogen som van de kwadraten van de residuen van het model wordt geminimaliseerd, dat wil zeggen dat elke waarneming een "gewicht" krijgt dat omgekeerd evenredig is met de variantie van de willekeurige fout in deze waarneming: . In feite worden de gegevens getransformeerd door de waarnemingen te wegen (delen door een hoeveelheid die evenredig is met de veronderstelde standaarddeviatie van de willekeurige fouten), en de normale kleinste kwadraten worden toegepast op de gewogen gegevens.

Enkele bijzondere gevallen van toepassing van LSM in de praktijk

Lineaire benadering

Overweeg het geval wanneer, als resultaat van het bestuderen van de afhankelijkheid van een bepaalde scalaire grootheid van een bepaalde scalaire grootheid (Dit kan bijvoorbeeld de afhankelijkheid van spanning van stroomsterkte zijn: , waar een constante waarde is, de weerstand van de geleider ), werden deze hoeveelheden gemeten, waardoor de waarden en hun overeenkomstige waarden werden verkregen. Meetgegevens dienen in een tabel te worden vastgelegd.

Tafel. Meetresultaten.

Meting nr.
1
2
3
4
5
6

De vraag is: welke waarde van de coëfficiënt kan worden gekozen zodat? de beste manier verslaving beschrijven? Volgens de kleinste kwadraten moet deze waarde zodanig zijn dat de som van de gekwadrateerde afwijkingen van de waarden van de waarden

was minimaal

De som van gekwadrateerde afwijkingen heeft één extremum - een minimum, waardoor we deze formule kunnen gebruiken. Laten we de waarde van de coëfficiënt uit deze formule zoeken. Om dit te doen, laten we het transformeren linkerkant op de volgende manier:

Met de laatste formule kunnen we de waarde van de coëfficiënt vinden, die in het probleem nodig was.

Geschiedenis

Tot het begin van de 19e eeuw. wetenschappers hadden geen bepaalde regels voor het oplossen van een stelsel vergelijkingen waarin het aantal onbekenden kleiner is dan het aantal vergelijkingen; Tot die tijd werden bepaalde methoden gebruikt, afhankelijk van het type vergelijkingen en de vindingrijkheid van rekenmachines, en daarom kwamen verschillende rekenmachines, uitgaande van dezelfde waarnemingsgegevens, tot verschillende conclusies. Gauss (1795) wordt gecrediteerd met de eerste toepassing van de methode, en Legendre (1805) ontdekte en publiceerde het onafhankelijk onder zijn moderne naam (fr. Methode des moindres quarres ). Laplace bracht de methode in verband met de waarschijnlijkheidstheorie, en de Amerikaanse wiskundige Adrain (1808) overwoog de probabilistische toepassingen ervan. De methode is wijdverbreid en verbeterd door verder onderzoek door Encke, Bessel, Hansen en anderen.

Alternatief gebruik van multinationals

Het idee van de kleinste-kwadratenmethode kan ook worden gebruikt in andere gevallen die niet direct verband houden met regressieanalyse. Het feit is dat de kwadratensom een ​​van de meest gebruikelijke nabijheidsmaten is voor vectoren (de Euclidische metriek in eindig-dimensionale ruimten).

Een van de toepassingen is "oplossing" van systemen lineaire vergelijkingen, waarin het aantal vergelijkingen groter is dan het aantal variabelen

waarbij de matrix niet vierkant is, maar rechthoekige maat.

Zo'n stelsel vergelijkingen heeft in het algemeen geen oplossing (als de rangorde eigenlijk groter is dan het aantal variabelen). Daarom kan dit systeem alleen worden "opgelost" in de zin van het kiezen van een dergelijke vector om de "afstand" tussen de vectoren en te minimaliseren. Om dit te doen, kunt u het criterium toepassen voor het minimaliseren van de som van de gekwadrateerde verschillen van de linker en juiste onderdelen systeemvergelijkingen, dat wil zeggen. Het is gemakkelijk aan te tonen dat de oplossing van dit minimalisatieprobleem leidt tot de oplossing van het volgende stelsel vergelijkingen:

Het wordt veel gebruikt in de econometrie in de vorm van een duidelijke economische interpretatie van zijn parameters.

Lineaire regressie wordt gereduceerd tot het vinden van een vergelijking van de vorm

of

Typ vergelijking toestaan ​​voor waarden instellen parameter x hebben theoretische waarden van het effectieve kenmerk, waarbij de werkelijke waarden van de factor erin worden vervangen x.

Het bouwen van een lineaire regressie komt neer op het schatten van de parameters ervan − maar En in. Schattingen van lineaire regressieparameters kunnen met verschillende methoden worden gevonden.

De klassieke benadering voor het schatten van lineaire regressieparameters is gebaseerd op: kleinste kwadraten(MNK).

Met LSM kan men dergelijke parameterschattingen verkrijgen maar En in, waaronder de som van de gekwadrateerde afwijkingen van de werkelijke waarden van de resulterende eigenschap (j) van berekend (theoretisch) minimaal:

Om het minimum van een functie te vinden, is het noodzakelijk om de partiële afgeleiden te berekenen met betrekking tot elk van de parameters maar En B en stel ze gelijk aan nul.

aanduiden via S, dan:

Als we de formule transformeren, krijgen we volgende systeem normale vergelijkingen voor parameterschatting maar En in:

Door het stelsel van normaalvergelijkingen (3.5) op te lossen, hetzij door de methode van opeenvolgende eliminatie van variabelen of door de methode van determinanten, vinden we de gewenste parameterschattingen maar En in.

Parameter in regressiecoëfficiënt genoemd. De waarde toont de gemiddelde verandering in het resultaat met een verandering in de factor met één eenheid.

De regressievergelijking wordt altijd aangevuld met een indicator van de dichtheid van de relatie. Bij gebruik van lineaire regressie fungeert de lineaire correlatiecoëfficiënt als een dergelijke indicator. Bestaan verschillende wijzigingen lineaire correlatiecoëfficiëntformules. Sommigen van hen zijn hieronder opgesomd:

Zoals u weet, ligt de lineaire correlatiecoëfficiënt binnen de limieten: -1 1.

Om de kwaliteit van de selectie te beoordelen lineaire functie het kwadraat wordt berekend

Een lineaire correlatiecoëfficiënt genaamd bepaling coëfficiënt. De determinatiecoëfficiënt kenmerkt het aandeel van de variantie van het effectieve kenmerk ja, verklaard door regressie, in de totale variantie van de resulterende eigenschap:

Dienovereenkomstig kenmerkt de waarde 1 - het aandeel van de dispersie ja, veroorzaakt door de invloed van andere factoren waarmee in het model geen rekening is gehouden.

Vragen voor zelfbeheersing

1. De essentie van de methode van de kleinste kwadraten?

2. Hoeveel variabelen zorgen voor een paarsgewijze regressie?

3. Welke coëfficiënt bepaalt de dichtheid van de verbinding tussen de veranderingen?

4. Binnen welke grenzen wordt de determinatiecoëfficiënt bepaald?

5. Schatting van parameter b in correlatie-regressieanalyse?

1. Christopher Dougherty. Inleiding tot econometrie. - M.: INFRA - M, 2001 - 402 d.

2. SA Borodich. Econometrie. Minsk LLC "Nieuwe kennis" 2001.


3. RU Rakhmetova Korte cursus econometrie. zelfstudie. Almaty. 2004. -78s.

4. I.I. Eliseeva Econometrie. - M.: "Financiën en statistiek", 2002

5. Maandelijks informatie- en analytisch tijdschrift.

Niet-lineaire economische modellen. Niet-lineaire regressiemodellen. Variabele conversie.

niet-lineair economische modellen..

Variabele conversie.

elasticiteitscoëfficiënt.

Als er niet-lineaire relaties zijn tussen economische verschijnselen, dan worden deze uitgedrukt met behulp van de overeenkomstige niet-lineaire functies: bijvoorbeeld een gelijkzijdige hyperbool , tweedegraads parabolen en etc.

Er zijn twee klassen van niet-lineaire regressies:

1. Regressies die niet-lineair zijn met betrekking tot de verklarende variabelen die in de analyse zijn opgenomen, maar lineair met betrekking tot de geschatte parameters, bijvoorbeeld:

Veeltermen van verschillende graden - , ;

Gelijkzijdige hyperbool - ;

Semilogaritmische functie - .

2. Regressies die niet-lineair zijn in de geschatte parameters, bijvoorbeeld:

Stroom - ;

Aanwijzend -;

Exponentieel - .

De totale som van de gekwadrateerde afwijkingen van de individuele waarden van het resulterende attribuut Bij van de gemiddelde waarde wordt veroorzaakt door de invloed van vele factoren. We verdelen de hele reeks redenen voorwaardelijk in twee groepen: bestudeerde factor x En andere factoren.

Als de factor het resultaat niet beïnvloedt, is de regressielijn op de grafiek evenwijdig aan de as Oh En

Dan is de volledige spreiding van het effectieve attribuut te wijten aan de invloed van andere factoren en totaalbedrag kwadratische afwijkingen zullen samenvallen met het residu. Als andere factoren het resultaat niet beïnvloeden, dan: je bent vastgebonden van x functioneel, en de resterende kwadratensom is nul. In dit geval is de som van gekwadrateerde afwijkingen verklaard door de regressie hetzelfde als de totale som van de kwadraten.

Omdat niet alle punten van het correlatieveld op de regressielijn liggen, vindt hun spreiding altijd plaats als gevolg van de invloed van de factor x, d.w.z. regressie Bij Aan X, en veroorzaakt door de werking van andere oorzaken (onverklaarde variatie). De geschiktheid van de regressielijn voor de prognose hangt af van welk deel van de totale variatie van het kenmerk Bij verklaart de verklaarde variatie

Het is duidelijk dat als de som van de gekwadrateerde afwijkingen als gevolg van regressie groter is dan de resterende kwadratensom, de regressievergelijking statistisch significant is en de factor x heeft een grote invloed op het resultaat. j.

, dat wil zeggen met het aantal vrijheid van onafhankelijke variatie van het kenmerk. Het aantal vrijheidsgraden is gerelateerd aan het aantal eenheden van de populatie n en het aantal constanten dat daaruit wordt bepaald. Met betrekking tot het onderzochte probleem moet het aantal vrijheidsgraden aangeven hoeveel onafhankelijke afwijkingen van P

De beoordeling van de betekenis van de regressievergelijking als geheel wordt gegeven met behulp van F- Fisher's criterium. In dit geval wordt een nulhypothese naar voren gebracht dat de regressiecoëfficiënt gelijk is aan nul, d.w.z. b= 0, en dus de factor x heeft geen invloed op het resultaat j.

De directe berekening van het F-criterium wordt voorafgegaan door een variantieanalyse. Centraal daarin staat de uitbreiding van de totale som van gekwadrateerde afwijkingen van de variabele Bij van de gemiddelde waarde Bij in twee delen - "verklaard" en "onverklaard":

- totale som van gekwadrateerde afwijkingen;

- som van gekwadrateerde afwijkingen verklaard door regressie;

is de restsom van de kwadraten van de afwijking.

Elke som van gekwadrateerde afwijkingen is gerelateerd aan het aantal vrijheidsgraden , dat wil zeggen met het aantal vrijheid van onafhankelijke variatie van het kenmerk. Het aantal vrijheidsgraden is gerelateerd aan het aantal bevolkingseenheden N en met het aantal constanten dat daaruit wordt bepaald. Met betrekking tot het onderzochte probleem moet het aantal vrijheidsgraden aangeven hoeveel onafhankelijke afwijkingen van P mogelijk is vereist om een ​​gegeven kwadratensom te vormen.

Verspreiding per vrijheidsgraadD.

F-verhoudingen (F-criterium):

Als de nulhypothese waar is, dan verschillen de factor- en restvarianties niet van elkaar. Voor H 0 is een weerlegging nodig zodat de factorvariantie meerdere malen groter is dan het residu. Engelse statisticus Snedecor ontwikkelde tabellen kritische waarden F-relaties op verschillende significantieniveaus van de nulhypothese en verschillende nummers graden van vrijheid. Tabelwaarde F-criterium is de maximale waarde van de verhouding van varianties, die kan plaatsvinden in het geval van hun willekeurige divergentie voor gegeven niveau de kans op een nulhypothese. Berekende waarde F-relatie wordt als betrouwbaar erkend als o groter is dan de tabel in tabelvorm.

In dit geval wordt de nulhypothese over het ontbreken van een relatie van kenmerken verworpen en wordt een conclusie getrokken over de betekenis van deze relatie: F feit > F tabel H 0 wordt verworpen.

Als de waarde kleiner is dan de tabel F feit ‹, F tabel, dan is de kans op de nulhypothese hoger dan een bepaald niveau en kan deze niet worden verworpen zonder een serieus risico op het trekken van de verkeerde conclusie over de aanwezigheid van een relatie. In dit geval wordt de regressievergelijking als statistisch niet significant beschouwd. Nee wijkt niet af.

Standaardfout van de regressiecoëfficiënt

Om de significantie van de regressiecoëfficiënt te beoordelen, wordt de waarde ervan vergeleken met de standaardfout, d.w.z. de werkelijke waarde wordt bepaald t-Studentencriterium: die vervolgens wordt vergeleken met tafelwaarde op een bepaald significantieniveau en het aantal vrijheidsgraden ( N- 2).

Parameter Standaardfout maar:

De significantie van de lineaire correlatiecoëfficiënt wordt gecontroleerd op basis van de grootte van de fout correlatiecoëfficiënt R:

Totale variantie van een functie x:

Meerdere lineaire regressie

Model gebouw

Meervoudige regressie is een regressie van het resulterende kenmerk met twee en een groot aantal factoren, d.w.z. het weergavemodel

regressie kan geven goed resultaat bij het modelleren, als de invloed van andere factoren die het object van studie beïnvloeden, kan worden verwaarloosd. Het gedrag van individuele economische variabelen kan niet worden gecontroleerd, dat wil zeggen dat het niet mogelijk is om de gelijkheid te waarborgen van alle andere voorwaarden voor het beoordelen van de invloed van één onderzochte factor. In dit geval moet u proberen de invloed van andere factoren te identificeren door ze in het model te introduceren, d.w.z. een meervoudige regressievergelijking opstellen: y = a+b 1 x 1 +b 2 +…+b p x p + .

Het belangrijkste doel van meervoudige regressie is om een ​​model te bouwen met een groot aantal factoren, waarbij de invloed van elk van hen afzonderlijk wordt bepaald, evenals hun cumulatieve impact op de gemodelleerde indicator. De specificatie van het model omvat twee vragen: de selectie van factoren en de keuze van het type regressievergelijking

Kleinste vierkante methode wordt gebruikt om de parameters van de regressievergelijking te schatten.
Aantal lijnen (initiële data)

Een van de methoden voor het bestuderen van stochastische relaties tussen kenmerken is: regressie analyse.
Regressie analyse vertegenwoordigt de afleiding van de regressievergelijking, die wordt gebruikt om de gemiddelde waarde van een willekeurige variabele (kenmerkresultaat) te vinden, als de waarde van een andere (of andere) variabelen (kenmerkfactoren) bekend is. Het omvat de volgende stappen:

  1. keuze van de vorm van verbinding (type analytische regressievergelijking);
  2. schatting van vergelijkingsparameters;
  3. evaluatie van de kwaliteit van de analytische regressievergelijking.
De meest gebruikte methode om de statistische relatie van kenmerken te beschrijven is: lineaire vorm. Aandacht voor een lineaire relatie wordt verklaard door een duidelijke economische interpretatie van de parameters ervan, beperkt door de variatie van variabelen, en door het feit dat in de meeste gevallen niet-lineaire vormen van een relatie worden omgezet (door logaritmen te nemen of variabelen te veranderen) in een lineaire formulier om berekeningen uit te voeren.
In het geval van een lineaire paarrelatie zal de regressievergelijking de vorm aannemen: y i =a+b·x i +u i . De parameters van deze vergelijking a en b worden geschat op basis van de gegevens statistische observatie x en y. Het resultaat van een dergelijke beoordeling is de vergelijking: , waarbij , - schattingen van de parameters a en b , - de waarde van het effectieve kenmerk (variabele) verkregen door de regressievergelijking (berekende waarde).

De meest gebruikte parameterschatting is: kleinste kwadraten methode (LSM).
De kleinste-kwadratenmethode geeft de beste ( rijk, efficiënt en onbevooroordeeld) schattingen van de parameters van de regressievergelijking. Maar alleen als aan bepaalde veronderstellingen wordt voldaan over de willekeurige term (u) en de onafhankelijke variabele (x) (zie hieronder). OLS-achtergrond).

Het probleem van het schatten van de parameters van een lineaire paarvergelijking met de kleinste-kwadratenmethode bestaat uit het volgende: om dergelijke schattingen van de parameters te verkrijgen, waarbij de som van de gekwadrateerde afwijkingen van de werkelijke waarden van het effectieve kenmerk - y i van de berekende waarden - minimaal is.
Formeel OLS-criterium kan als volgt worden geschreven: .

Classificatie van kleinste-kwadratenmethoden

  1. Kleinste vierkante methode.
  2. Maximale waarschijnlijkheidsmethode (voor een normaal klassiek lineair regressiemodel wordt de normaliteit van regressieresiduen gepostuleerd).
  3. De gegeneraliseerde kleinste-kwadratenmethode van GLSM wordt gebruikt in het geval van foutautocorrelatie en in het geval van heteroscedasticiteit.
  4. Gewogen kleinste-kwadratenmethode (een speciaal geval van GLSM met heteroscedastische residuen).

Illustreer de essentie de klassieke methode van de kleinste kwadraten grafisch. Om dit te doen, zullen we een puntenplot bouwen volgens de waarnemingsgegevens (xi , y i , i=1;n) in een rechthoekig coördinatensysteem (zo'n puntendiagram wordt een correlatieveld genoemd). Laten we proberen een rechte lijn te vinden die het dichtst bij de punten van het correlatieveld ligt. Volgens de kleinste-kwadratenmethode wordt de lijn zo gekozen dat de som van de gekwadrateerde verticale afstanden tussen de punten van het correlatieveld en deze lijn minimaal zou zijn.

Wiskundige notatie van dit probleem: .
De waarden van y i en x i =1...n zijn bij ons bekend, dit zijn waarnemingsgegevens. In de functie S zijn het constanten. De variabelen in deze functie zijn de vereiste schattingen van de parameters - , . Om het minimum van een functie van 2 variabelen te vinden, is het noodzakelijk om de partiële afgeleiden van deze functie te berekenen met betrekking tot elk van de parameters en ze gelijk te stellen aan nul, d.w.z. .
Als resultaat krijgen we een stelsel van 2 normaal-lineaire vergelijkingen:
Beslissen dit systeem, vinden we de vereiste parameterschattingen:

De juistheid van de berekening van de parameters van de regressievergelijking kan worden gecontroleerd door de sommen te vergelijken (enige discrepantie is mogelijk door afronding van de berekeningen).
Om parameterschattingen te berekenen, kunt u Tabel 1 maken.
Het teken van de regressiecoëfficiënt b geeft de richting van het verband aan (als b > 0 is het verband direct, als b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formeel is de waarde van de parameter a de gemiddelde waarde van y voor x gelijk aan nul. Als de tekenfactor geen nulwaarde heeft en ook niet kan hebben, heeft bovenstaande interpretatie van de parameter a geen zin.

Beoordeling van de dichtheid van de relatie tussen kenmerken uitgevoerd door lineaire paarcorrelatiecoëfficiënt- rx,y. Het kan worden berekend met behulp van de formule: . Bovendien kan de coëfficiënt van lineaire paarcorrelatie worden bepaald in termen van de regressiecoëfficiënt b: .
Het bereik van toelaatbare waarden van de lineaire paarcorrelatiecoëfficiënt is van –1 tot +1. Het teken van de correlatiecoëfficiënt geeft de richting van de relatie aan. Als r x, y >0, dan is de verbinding direct; als r x, y<0, то связь обратная.
Als deze coëfficiënt in modulus dicht bij de eenheid ligt, kan de relatie tussen de kenmerken worden geïnterpreteerd als een redelijk nauwe lineaire. Als zijn modulus gelijk is aan één ê r x , y ê =1, dan is de relatie tussen de kenmerken functioneel lineair. Als kenmerken x en y lineair onafhankelijk zijn, dan is r x,y dicht bij 0.
Tabel 1 kan ook worden gebruikt om r x,y te berekenen.

tafel 1

N waarnemingenx ikja ikx ik y ik
1 x 1y 1x 1 en 1
2 x2y2x 2 en 2
...
Nx neeja neex n y n
Kolom Somxyx y
Gemeen
Om de kwaliteit van de verkregen regressievergelijking te beoordelen, wordt de theoretische determinatiecoëfficiënt berekend - R 2 yx:

,
waarbij d 2 de variantie y is die wordt verklaard door de regressievergelijking;
e 2 - residuaal (niet verklaard door de regressievergelijking) variantie y ;
s 2 y - totale (totale) variantie y .
De determinatiecoëfficiënt kenmerkt het aandeel van variatie (dispersie) van het resulterende attribuut y , verklaard door de regressie (en dus door de factor x), in de totale variatie (dispersie) y . De determinatiecoëfficiënt R 2 yx neemt waarden aan van 0 tot 1. Dienovereenkomstig kenmerkt de waarde 1-R 2 yx het aandeel van variantie y dat wordt veroorzaakt door de invloed van andere factoren waarmee geen rekening is gehouden in de model- en specificatiefouten.
Met gepaarde lineaire regressie R 2 yx = r 2 yx .