1. Instrumente pentru prelucrarea datelor statistice în Excel

2. Folosirea funcțiilor speciale

3. Utilizarea instrumentului ANALIZĂ PACHET

Literatură:

principalul:

1. Burke. Analiza datelor cu Microsoft Excel. : Per. din engleză / Burke, Kenneth, Carey, Patrick. - M .: Editura „Williams”, 2005. - S. 216 - 256.

2. Mishin A.V. Tehnologii informaționale în activitatea juridică: atelier / A.V. Mishin. - M.: RAP, 2013 .-- S. 2-11.

adiţional:

3. Informatică pentru avocați și economiști: manual pentru universități / Ed. S.V. Simonovici. - SPb.: Peter, 2004. - S. 498-516.

Lecția practică numărul 30

Subiectul nr. 11.1. Întreținerea bazei de date în Access DBMS

Lecția se desfășoară folosind metoda proiectului.

Scopul proiectului: dezvoltarea unei baze de date privind activitatea curții.

Sarcină tehnică:

1. Creați o bază de date „Curte” din două tabele „Judecători” și „Cereri” cu următoarea structură, respectiv:

Tabelul „Judecătorii”

Numele domeniului Codul judecătorului NUMELE COMPLET Zile de recepție Ore de afaceri Experiență de muncă
Tipul de date Numeric Text Text Text Numeric
Dimensiunea campului Număr întreg lung Număr întreg lung
Format câmp Principal Principal
Zecimale
Valoare implicită „Miercuri” „15: 00-17: 00”
Starea valorii \u003e 36200 Și<36299 Luni sau marți sau mierți sau joi sau vineri \u003e 0 Și<40
Mesaj de eroare Valorile valide sunt luni, marți, miercuri, joi sau vineri. Vă rugăm să reintroduceți! ! Valorile valide sunt de la 1 la 39. Reintroduceți!
Câmp obligatoriu da da Nu Nu Nu
Câmp indexat Nu Nu Nu Nu

Notă. Declarați câmpul cheie „Cod judecător”.

Tabel de daune

Numele domeniului Numărul cazului Reclamant Răspuns-pui Codul judecătorului Data întâlnirii
Tipul de date Numeric Text Text Numeric Data Ora
Proprietăți câmp: fila General
Dimensiunea campului Număr întreg lung Număr întreg lung Format de dată complet
Format câmp Principal
Zecimale
Valoare implicită
Starea valorii \u003e 0 Și<99999 \u003e 36200 Și<36299
Mesaj de eroare Intrare greșită - repetă! Valorile valide sunt cuprinse între 36201 și 36298. Vă rugăm să reintroduceți!
Câmp obligatoriu da Nu Nu Nu Nu
Câmp indexat Da (nu sunt permise meciuri) Nu Nu Da (meciuri permise) Nu

2. Introduceți următoarele înregistrări de date în tabelul Judecătorilor:

Introduceți următoarele înregistrări de date în tabelul Revendicări:

3. Stabiliți o relație unu-la-mulți între tabelele din câmpul „Codul judecătorului” Judecători și Creanțe... Atunci când faceți acest lucru, setați „Asigurați integritatea datelor” și „actualizarea în cascadă a câmpurilor conectate”.

Literatură:

principalul:

1. Mishin A.V. Tehnologiile informației în activitatea profesională: manual / A.V. Mishin, L.E. Mistrov, D.V. Kartavtsev. - M.: RAP, 2011. - S. 259-264.

adiţional:

Lecția practică numărul 31

Subiectul nr. 11.2. Principiile de creare a formularelor și interogărilor în Access DBMS

1. Dezvoltarea formularelor de intrare pentru introducerea datelor.

2. Metodologie pentru calcularea și analiza datelor introduse.

Literatură:

principalul:

1. Mishin A.V. Tehnologiile informației în activitatea profesională: manual / A.V. Mishin, L.E. Mistrov, D.V. Kartavtsev. - M.: RAP, 2011. - S. 265-271.

adiţional:

2. Informatică și tehnologia informației: un manual pentru studenți / I.G. Lesnichaya, I.V. Lipsește, Yu.D. Romanov, V.I. Șestakov. - a 2-a ed. - M.: Eksmo, 2006 .-- 544 p.

3. Mikheeva E.V. Tehnologii informaționale în activitatea profesională: un manual pentru elevii școlilor profesionale secundare / E.V. Miheeva. - Ediția a II-a, Șters. - M.: Academia, 2005 .-- 384 p.

Trimite-ți munca bună în baza de cunoștințe este simplu. Folosiți formularul de mai jos

Elevii, studenții absolvenți, tinerii oameni de știință care folosesc baza de cunoștințe în studiile și munca lor vă vor fi foarte recunoscători.

Postat pe http://www.allbest.ru/

Prelucrarea datelor statistice

Introducere

corelarea probei de varianță statistică

Metodele de prelucrare statistică a rezultatelor experimentale sunt tehnici matematice, formule, metode de calcule cantitative, cu ajutorul cărora indicatorii obținuți în timpul experimentului pot fi generalizați, aduși în sistem, dezvăluind tiparele ascunse în acestea. Vorbim despre astfel de legi cu caracter statistic care există între variabilele studiate în experiment.

Unele dintre metodele de analiză matematică și statistică vă permit să calculați așa-numitele statistici elementare matematice care caracterizează distribuția eșantionului de date, de exemplu, media eșantionului, varianța eșantionului, modul, mediana și un număr de altele. Alte metode de statistică matematică, de exemplu, analiza varianței, analiza de regresie, fac posibilă judecarea dinamicii modificărilor statisticilor individuale ale eșantionului. Cu ajutorul celui de-al treilea grup de metode, să zicem, analiza corelației, analiza factorială, metodele de comparare a datelor eșantionului, se poate judeca în mod fiabil relațiile statistice care există între variabilele care sunt investigate în acest experiment.

1. Metode de prelucrare statistică primară a rezultatelor experimentale

Toate metodele de analiză matematică și statistică sunt împărțite în mod convențional în primar și secundar. Metodele care pot fi utilizate pentru a obține indicatori care reflectă direct rezultatele măsurătorilor efectuate într-un experiment se numesc metode primare. În consecință, indicatorii statistici primari înseamnă aceia care sunt utilizați în metodele psihodiagnostice în sine și sunt rezultatul prelucrării statistice inițiale a rezultatelor psihodiagnosticului. Metodele secundare se numesc metode de procesare statistică, cu ajutorul cărora, pe baza datelor primare, dezvăluie tipare statistice ascunse în ele.

Metodele primare de prelucrare statistică includ, de exemplu, determinarea mediei eșantionului, varianței eșantionului, modului eșantionului și medianei eșantionului. Metodele secundare includ de obicei analiza de corelație, analiza de regresie, metode pentru compararea statisticilor primare în două sau mai multe eșantioane.

Luați în considerare metodele de calcul al statisticilor matematice elementare.

1.1 Moda

Caracteristica numerică a unui eșantion, care de obicei nu necesită calcul, este așa-numitul mod. Moda este valoarea cantitativă a trăsăturii studiate, care se găsește cel mai adesea în eșantion. Pentru distribuțiile de caracteristici simetrice, inclusiv distribuția normală, valoarea modului coincide cu valorile medii și mediane. Pentru alte tipuri de distribuție, asimetrice, acest lucru nu este tipic. De exemplu, în secvența valorilor caracteristicilor 1, 2, 5, 2, 4, 2, 6, 7, 2, modul este valoarea 2, deoarece apare mai des decât alte valori - de patru ori.

Moda se găsește în conformitate cu următoarele reguli:

1) În cazul în care toate valorile din eșantion apar la fel de des, este general acceptat faptul că această serie de eșantioane nu are mod. De exemplu: 5, 5, 6, 6, 7, 7 - nu există modă în acest eșantion.

2) Când două valori adiacente (adiacente) au aceeași frecvență și frecvența lor este mai mare decât frecvențele oricăror alte valori, modul este calculat ca medie aritmetică a acestor două valori. De exemplu, în eșantionul 1, 2, 2, 2, 5, 5, 5, 6, frecvențele valorilor adiacente 2 și 5 coincid și sunt egale cu 3. Această frecvență este mai mare decât frecvența altor valori 1 și 6 (pentru care este egală cu 1). Prin urmare, modul acestei serii va fi valoarea \u003d 3,5

3) Dacă două valori non-adiacente (nu adiacente) din eșantion au frecvențe egale care sunt mai mari decât frecvențele oricărei alte valori, atunci se disting două moduri. De exemplu, în rândul 10, 11, 11, 11, 12, 13, 14, 14, 14, 17, modurile sunt 11 și 14. În acest caz, proba se spune că este bimodală.

De asemenea, pot exista așa-numitele distribuții multimodale cu mai mult de două vârfuri (moduri).

4) Dacă modul este estimat de setul de date grupate, atunci pentru a găsi modul este necesar să se determine grupul cu cea mai mare frecvență a caracteristicii. Acest grup se numește grup modal.

1.2 Mediană

Mediana este valoarea trăsăturii studiate, care împarte eșantionul, ordonat după valoarea acestei trăsături, la jumătate. În dreapta și în stânga medianei, același număr de caracteristici rămâne în seria ordonată. De exemplu, pentru eșantionul 2, 3, 4, 4, 5, 6, 8, 7, 9, valoarea mediană va fi 5, deoarece există patru indicatori la stânga și la dreapta acestuia. Dacă seria include un număr par de caracteristici, atunci media va fi media luată ca o jumătate de sumă a valorilor celor două valori centrale ale seriei. Pentru următorul rând 0, 1, 1, 2, 3, 4, 5, 5, 6, 7, mediana va fi de 3,5.

Cunoașterea medianei este utilă pentru a determina dacă distribuția valorilor particulare ale trăsăturii studiate este simetrică și apropiată de așa-numita distribuție normală. Media și mediana pentru distribuția normală coincid de obicei sau diferă foarte puțin una de cealaltă. Dacă distribuția eșantionului de caracteristici este normală, atunci se pot aplica metodele de calcule statistice secundare bazate pe distribuția normală a datelor. În caz contrar, acest lucru nu se poate face, deoarece erorile grave se pot strecura în calcule.

1.3 Media eșantionului

Valoarea medie a eșantionului (media aritmetică) ca indicator statistic este estimarea medie a calității psihologice studiate în experiment. Această evaluare caracterizează gradul dezvoltării sale ca întreg în acel grup de subiecți care au fost supuși examenului psihodiagnostic. Prin compararea directă a valorilor medii a două sau mai multe eșantioane, putem judeca gradul relativ de dezvoltare la persoanele care alcătuiesc aceste eșantioane, calitatea evaluată.

1.4 Răspândirea probei

Răspândirea (uneori această valoare se numește intervalul) eșantionului este notată cu litera R. Acesta este cel mai simplu indicator care poate fi obținut pentru eșantion - diferența dintre valorile maxime și minime ale unei serii de variații date, adică

R \u003d xmax - xmin

Este clar că cu cât variază caracteristica măsurată, cu atât este mai mare valoarea lui R și invers. Cu toate acestea, se poate întâmpla ca pentru două serii de eșantioane atât media, cât și intervalul să coincidă, dar natura variației acestor serii va fi diferită. De exemplu, sunt date două eșantioane:

X \u003d 10 15 20 25 30 35 40 45 50 X \u003d 30 R \u003d 40

Y \u003d 10 28 28 30 30 30 32 32 50 Y \u003d 30 R \u003d 40

Cu egalitatea mijloacelor și a dispersiei pentru aceste două serii de probe, natura variației lor este diferită. Pentru a înțelege mai clar natura variației din eșantioane, ar trebui să ne referim la distribuțiile lor.

1.5 Dispersia

Varianța este media aritmetică a pătratelor deviațiilor valorilor unei variabile de la media acesteia.

Varianța ca statistică caracterizează cât de mult deviază valorile particulare de la media dintr-un eșantion dat. Cu cât este mai mare varianța, cu atât este mai mare abaterea sau dispersia în date.

Rădăcina pătrată este extrasă din suma pătratelor împărțită la numărul de termeni din serie.

Uneori există o mulțime de date primare private inițiale care fac obiectul procesării statistice și necesită un număr mare de operații aritmetice elementare. Pentru a-și reduce numărul și, în același timp, pentru a menține precizia necesară a calculelor, uneori recurg la înlocuirea eșantionului original de date empirice particulare cu intervale. Un interval este un grup de valori caracteristice sortate după valoare, care este înlocuită cu valoarea medie în procesul de calcul.

2. Metode de procesare statistică secundară a rezultatelor experimentale

Cu ajutorul metodelor secundare de procesare statistică a datelor experimentale, ipotezele asociate experimentului sunt verificate direct, dovedite sau infirmate. Aceste metode, de regulă, sunt mai complicate decât metodele de prelucrare statistică primară și necesită o bună pregătire din partea cercetătorului în domeniul matematicii și statisticii elementare. (7).

Grupul de metode discutat poate fi împărțit în mai multe subgrupuri:

1. Calcul de regresie.

2. Metode de comparare a două sau mai multe statistici elementare (medii, varianțe etc.) legate de eșantioane diferite.

3. Metode de stabilire a relațiilor statistice între variabile, de exemplu, corelarea lor între ele.

4. Metode de identificare a structurii statistice interne a datelor empirice (de exemplu, analiza factorială). Să luăm în considerare fiecare dintre subgrupurile selectate de metode de procesare statistică secundară prin exemple.

2.1 Calculul regresiei

Calculul de regresie este o metodă de statistică matematică care vă permite să reduceți datele private, disparate la un anumit grafic liniar, reflectând aproximativ interconectarea lor internă și să obțineți capacitatea de a estima aproximativ valoarea probabilă a altei variabile prin valoarea uneia dintre variabile (7).

Expresia grafică a unei ecuații de regresie se numește linie de regresie. Linia de regresie exprimă cele mai bune predicții pentru variabila dependentă (Y) pentru variabilele independente (X).

Regresia se exprimă folosind două ecuații de regresie, care în cel mai direct caz arată ca ecuații de linie dreaptă.

Y \u003d a 0 + a 1 * X

X \u003d b 0 + b 1 * Y

În ecuația (1), Y este variabila dependentă, X este variabila independentă, a 0 este o interceptare, a 1 este coeficientul de regresie sau panta, care determină panta liniei de regresie în raport cu axele coordonate.

În ecuația (2), X este variabila dependentă, Y este variabila independentă, b 0 este interceptarea, b 1 este coeficientul de regresie sau panta, care determină panta liniei de regresie în raport cu axele coordonate.

Cuantificarea relației (relației) dintre X și Y (între Y și X) se numește analiză de regresie. Sarcina principală a analizei de regresie este de a găsi coeficienții a 0, b 0, a1 și b 1 și de a determina nivelul de semnificație al expresiilor analitice obținute care leagă variabilele X și Y.

Pentru a aplica metoda analizei de regresie liniară, trebuie îndeplinite următoarele condiții:

1. Variabilele comparate X și Y trebuie măsurate pe o scară de intervale sau rapoarte.

2. Se presupune că variabilele X și Y au o distribuție normală.

3. Numărul de caracteristici variabile din variabilele comparate ar trebui să fie același. (5).

2.2 Corelația

Următoarea metodă de procesare statistică secundară, prin care se clarifică relația sau relația directă dintre două serii de date experimentale, se numește metoda de corelație. Arată modul în care un fenomen îl influențează pe altul sau este legat de acesta în dinamica sa. Acest tip de relație există, de exemplu, între cantități care se află în relații cauzale între ele. Dacă se dovedește că două fenomene sunt corelate semnificativ statistic între ele și dacă în același timp există încredere că unul dintre ele poate acționa ca fiind cauza celuilalt fenomen, atunci urmează cu siguranță concluzia că există o relație de cauzalitate între ele. (7)

Când o creștere a nivelului unei variabile este însoțită de o creștere a nivelului unei alte variabile, atunci vorbim despre o corelație pozitivă. Dacă creșterea unei variabile are loc cu o scădere a nivelului celeilalte, atunci se vorbește despre o corelație negativă. În absența unei legături între variabile, avem de-a face cu o corelație zero. (unu)

Există mai multe varietăți ale acestei metode: liniară, clasată, asociată și multiplă. Analiza de corelație liniară vă permite să stabiliți relații directe între variabile în funcție de valorile lor absolute. Aceste conexiuni sunt exprimate grafic ca o linie dreaptă, de unde și denumirea de „liniar”. Corelația rangului determină dependența nu între valorile absolute ale variabilelor, ci între locurile ordinale sau rangurile ocupate de acestea în ordinea mărimii. Analiza corelației împerecheate include studiul dependențelor de corelație numai între perechi de variabile și multiple sau multivariate - între multe variabile simultan. Analiza factorială este o formă larg răspândită de analiză a corelației multivariate în statisticile aplicate. (5)

Coeficientul de corelație a rangului în cercetarea psihologică și pedagogică este abordat în cazul în care semnele între care se stabilește dependența sunt calitativ diferite și nu pot fi evaluate cu exactitate folosind așa-numita scală de măsurare a intervalului. O scală de intervale se numește o scală care vă permite să estimați distanța dintre valorile sale și să judecați care dintre ele este mai mare și cât de mult mai mare decât cealaltă. De exemplu, rigla utilizată pentru a evalua și compara lungimile obiectelor este o scală de interval, deoarece, folosind-o, putem afirma că distanța dintre doi și șase centimetri este de două ori mai mare decât distanța dintre șase și opt centimetri. Dacă, folosind un instrument de măsurare, putem afirma doar că unii indicatori sunt mai mulți decât alții, dar nu sunt în măsură să spună câți, atunci un astfel de instrument de măsurare se numește nu interval, ci ordinal.

Majoritatea indicatorilor obținuți în cercetarea psihologică și pedagogică se referă mai degrabă la scale ordinale decât la intervale (de exemplu, evaluări precum „da”, „nu”, „mai degrabă nu decât da” și altele care pot fi convertite în puncte), prin urmare, coeficientul de corelație liniară nu li se aplică.

Metoda corelațiilor multiple, spre deosebire de metoda corelațiilor perechi, face posibilă dezvăluirea structurii generale a dependențelor de corelație existente în cadrul materialului experimental multidimensional, incluzând mai mult de două variabile, și prezentarea acestor dependențe de corelație sub forma unui anumit sistem.

Pentru a aplica un anumit coeficient de corelație, trebuie îndeplinite următoarele condiții:

1. Variabilele comparate trebuie măsurate pe o scară de intervale sau rapoarte.

2. Se presupune că toate variabilele au o distribuție normală.

3. Numărul de caracteristici variabile din variabilele comparate ar trebui să fie același.

4. Pentru a evalua nivelul de fiabilitate al raportului de corelație Pearson, ar trebui să se utilizeze formula (11.9) și tabelul valorilor critice pentru testul t Student al lui k \u003d n - 2. (5)

2.3 Analiza factorilor

Analiza factorială este o metodă statistică care este utilizată atunci când se prelucrează matrice mari de date experimentale. Sarcinile analizei factorilor sunt: \u200b\u200breducerea numărului de variabile (reducerea datelor) și determinarea structurii relațiilor dintre variabile, adică clasificarea variabilelor, prin urmare analiza factorială este utilizată ca metodă de reducere a datelor sau ca metodă de clasificare structurală.

O diferență importantă între analiza factorială și toate metodele descrise mai sus este că nu poate fi utilizată pentru procesarea datelor experimentale primare sau, așa cum se spune, „experimentale”, adică obținute direct de la examinarea subiectelor. Materialul pentru analiza factorilor este legăturile de corelație sau, mai bine zis, coeficienții de corelație ai lui Pearson, care sunt calculați între variabilele (adică, caracteristicile psihologice) incluse în sondaj. Cu alte cuvinte, matricele de corelație sau, așa cum se numește altfel, matricile de intercorelație, sunt supuse analizei factorilor. Numele coloanelor și rândurilor din aceste matrice sunt aceleași, deoarece reprezintă o listă de variabile incluse în analiză. Din acest motiv, matricile de intercorelație sunt întotdeauna pătrate, adică numărul de rânduri din ele este egal cu numărul de coloane și simetric, adică în locuri simetrice față de diagonala principală, există aceiași coeficienți de corelație.

Principalul concept de analiză factorială este un factor. Acesta este un indicator statistic artificial care apare ca urmare a transformărilor speciale ale tabelului coeficienților de corelație dintre caracteristicile psihologice studiate sau matricea intercorelației. Procedura pentru extragerea factorilor din matricea de intercorelație se numește factorizarea matricială. Ca rezultat al factorizării, un număr diferit de factori poate fi extras din matricea de corelație, până la un număr egal cu numărul de variabile inițiale. Cu toate acestea, factorii identificați ca urmare a factorizării sunt, de regulă, inegali ca importanță. (5)

Factorii identificați explică interdependența fenomenelor psihologice. (7)

Cel mai adesea, ca urmare a analizei factorilor, nu se determină unul, ci mai mulți factori, care explică în moduri diferite matricea intercorelației variabilelor. În acest caz, factorii sunt împărțiți în factori generali, generali și individuali. Factorii generali sunt acei factori, ale căror sarcini factoriale diferă semnificativ de zero (sarcina zero indică faptul că această variabilă nu este în niciun fel legată de restul și nu are niciun efect asupra lor în viață). Factorii obișnuiți sunt factori pentru care unii dintre factorii de încărcare sunt diferiți de zero. Factorii unici sunt factori în care doar una dintre sarcini diferă semnificativ de zero. (7)

Analiza factorială poate fi adecvată dacă sunt îndeplinite următoarele criterii.

1. Este imposibil să se ia în considerare datele calitative obținute prin scala numelor, de exemplu, cum ar fi culoarea părului (negru / maro / roșu) etc.

2. Toate variabilele ar trebui să fie independente, iar distribuția lor să fie aproape de normal.

3. Relațiile dintre variabile ar trebui să fie aproximativ liniare sau cel puțin nu clar curvilinei.

4. Matricea de corelație originală trebuie să aibă mai multe corelații în valoare absolută peste 0,3. În caz contrar, este destul de dificil să se extragă factori din matrice.

5. Eșantionul de subiecți ar trebui să fie suficient de mare. Sfaturile experților variază. Cel mai rigid punct de vedere recomandă să nu se utilizeze analiza factorială dacă numărul subiecților este mai mic de 100, deoarece erorile standard ale corelației în acest caz vor fi prea mari.

Cu toate acestea, dacă factorii sunt bine definiți (de exemplu, cu sarcini de 0,7 mai degrabă decât 0,3), experimentatorul are nevoie de un eșantion mai mic pentru a-i izola. În plus, dacă se știe că datele obținute sunt extrem de fiabile (de exemplu, se utilizează teste valide), atunci datele pot fi analizate pentru un număr mai mic de subiecți. (5).

2.4 ȘIfolosind analiza factorială

Analiza factorială este utilizată pe scară largă în psihologie în diverse direcții legate de soluționarea problemelor teoretice și practice.

În termeni teoretici, utilizarea analizei factoriale este asociată cu dezvoltarea așa-numitei abordări analitice a factorilor pentru studiul structurii personalității, temperamentului și abilităților. Utilizarea analizei factorilor în aceste zone se bazează pe ipoteza larg acceptată conform căreia indicatorii observabili și măsurabili direct sunt doar manifestări externe indirecte și / sau parțiale cu caracteristici mai generale. Aceste caracteristici, spre deosebire de prima, sunt latente, așa-numitele variabile latente, deoarece sunt concepte sau constructe care nu sunt disponibile pentru măsurarea directă. Cu toate acestea, ele pot fi stabilite prin factorizarea corelațiilor dintre caracteristicile observate și identificarea factorilor care (cu condiția ca structura să fie bună) pot fi interpretate ca o expresie statistică a variabilei latente dorite.

Deși factorii sunt de natură pur matematică, se presupune că reprezintă variabile ascunse (constructe sau concepte postulate teoretic), prin urmare, numele factorilor reflectă adesea esența constructului ipotetic studiat.

În prezent, analiza factorială este utilizată pe scară largă în psihologia diferențială și în psihodiagnostic. Cu ajutorul acestuia, puteți proiecta teste, stabili structura conexiunilor dintre caracteristicile psihologice individuale măsurate printr-un set de teste sau elemente de testare.

Analiza factorială este, de asemenea, utilizată pentru standardizarea metodelor de testare, care se efectuează pe un eșantion reprezentativ de subiecți.

Concluzie

Dacă datele obținute în experiment sunt de natură calitativă, atunci corectitudinea concluziilor trase pe baza concluziilor lor depinde în totalitate de intuiția, erudiția și profesionalismul cercetătorului, precum și de logica raționamentului său. Dacă aceste date sunt de tip cantitativ, atunci își efectuează mai întâi prelucrarea statistică primară, apoi secundară. Prelucrarea statistică primară constă în determinarea numărului necesar de statistici matematice elementare. O astfel de procesare implică aproape întotdeauna cel puțin determinarea unei probe medii. În cazurile în care răspândirea datelor medii relative este un indicator informativ pentru verificarea experimentală a ipotezelor propuse, se calculează varianța sau deviația standard. Valoarea medianei se recomandă să fie calculată atunci când se presupune că se utilizează metode de procesare statistică secundară calculate pe distribuția normală. Pentru acest tip de distribuție a datelor eșantionului, mediana, precum și modul, coincid sau sunt suficient de apropiate de valoarea medie. Acest criteriu poate fi utilizat pentru a judeca aproximativ natura distribuției rezultate a datelor primare.

Prelucrarea statistică secundară (compararea mediilor, varianțelor, distribuției datelor, analiza regresiei, analiza corelației, analiza factorilor etc.) se efectuează dacă, pentru a rezolva probleme sau a demonstra ipotezele propuse, este necesar să se determine modelele statistice ascunse în datele experimentale primare. Când începe procesarea statistică secundară, cercetătorul trebuie să decidă mai întâi care dintre diferitele statistici secundare ar trebui să le utilizeze pentru a procesa datele experimentale primare. Decizia se ia pe baza luării în considerare a naturii ipotezei testate și a naturii materialului primar obținut în urma experimentului. Iată câteva recomandări în acest sens.

Recomandarea 1. Dacă ipoteza experimentală conține presupunerea că, ca urmare a cercetării psihologice și pedagogice, indicatorii oricărei calități vor crește (sau scădea), atunci se recomandă utilizarea criteriului Studentului sau a criteriului ch2 pentru compararea datelor pre- și post-experimentale. Acesta din urmă este menționat dacă datele experimentale primare sunt relative și exprimate, de exemplu, ca procent.

Recomandarea 2. Dacă o ipoteză testată experimental include o afirmație despre o relație de cauzalitate între unele variabile, atunci este recomandabil să o testați făcând referire la coeficienții de corelație liniară sau de rang. Corelația liniară este utilizată atunci când variabilele independente și dependente sunt măsurate folosind o scală de intervale și modificările acestor variabile înainte și după experiment sunt mici. Se face referire la corelația rangului atunci când este suficient să se evalueze modificările în ordinea succesiunii în termeni de variabile independente și dependente, sau când modificările lor sunt suficient de mari sau când instrumentul de măsurare a fost mai degrabă ordinal decât interval.

Recomandarea 3. Uneori ipoteza include presupunerea că, ca rezultat al experimentului, diferențele individuale dintre subiecți vor crește sau vor scădea. Această ipoteză este bine verificată folosind testul Fisher, care permite compararea varianțelor înainte și după experiment. Rețineți că, folosind criteriul lui Fisher, se poate lucra numai cu valori absolute ale indicatorilor, dar nu și cu rangurile lor.

Postat pe Allbest.ru

...

Documente similare

    Tehnici și metode de bază de procesare și analiză a datelor statistice. Calculul valorilor medii aritmetice, armonice și geometrice. Seriile de distribuție, principalele lor caracteristici. Tehnici de aliniere în apropierea dinamicii. Sistemul de conturi naționale.

    hârtie pe termen adăugată în 24/10/2014

    Conceptul de analiză economică ca știință, esența, subiectul, caracteristicile generale ale metodelor și eficiența socio-economică. Principalele grupuri de metode econometrice de analiză și prelucrare a datelor. Analiza factorială a datelor economice ale întreprinderii.

    rezumat, adăugat 03/04/2010

    Media aritmetică a eșantionului, varianța, deviația standard. Respingerea după criteriul Chauvinet. Regula celor trei Sigma. Evaluarea semnificației diferenței dintre valorile medii ale celor două eșantioane. Analize de regresie pereche, multiple. Analiza completă a factorilor.

    hârtie la termen, adăugată la 12/05/2012

    Aplicarea diferitelor metode de prezentare și prelucrare a datelor statistice. Eșantioane statistice spațiale. Regresie și corelație pereche. Serii cronologice. Construirea unui trend. Exemple practice și metode de rezolvare a acestora, formule și semnificația acestora.

    curs prelegere, adăugat 26.02.2009

    Prelucrarea statistică a rezultatelor măsurătorilor; medie aritmetică, pătratică, varianță. Determinarea parametrilor eșantionului: trei legi sigma, histogramă, diagrame de control, diagramă Ishikawa. Utilizarea instrumentelor de calitate la fabricarea canapelelor.

    termen de hârtie adăugat 17/10/2014

    Valoarea medie în statistici, esența și condițiile sale de utilizare. Tipuri și forme de medii: prin prezența ponderii atributului, prin forma de calcul, prin acoperirea populației. Modă, mediană. Studiu statistic al dinamicii profitului și profitabilității pe exemplul OJSC „Bashmebel”.

    test, adăugat 14.06.2008

    Principiile procesării datelor statistice, metodele și tehnicile utilizate în acest proces. Metodologia și etapele principale ale diagramelor de control al clădirii, clasificarea și tipurile acestora, caracteristicile funcționale, identificarea avantajelor și dezavantajelor utilizării.

    hârtie de termen, adăugată 23.08.2014

    Calculul caracteristicilor numerice și prelucrarea rezultatelor observațiilor eșantionului. Calculul și analiza indicatorilor statistici în economie. Bogăția națională: elemente, evaluare; soldul activelor și pasivelor; mijloace fixe, indicatori ai fondului de rulment.

    hârtie de termen, adăugată 25.12.2012

    Statistici descriptive și inferențe statistice. Metode de selecție pentru a se asigura că eșantionul este reprezentativ. Influența tipului de eșantion asupra magnitudinii erorii. Sarcini la aplicarea metodei de eșantionare. Distribuirea datelor de observație la populația generală.

    test, adăugat 27.02.2011

    Dezvăluirea conceptului: scala intervalului, media aritmetică, nivelul de semnificație statistică. Cum se interpretează moda, mediana și medie. Rezolvarea problemelor folosind criteriul Friedman, Rosenbaum. Calculul coeficientului de corelație Sprimen.

Cursul 12. Metode de prelucrare statistică a rezultatelor.

Metodele de prelucrare statistică a rezultatelor sunt tehnici matematice, formule, metode de calcule cantitative, cu ajutorul cărora indicatorii obținuți în cursul unui experiment pot fi generalizați, aduși într-un sistem, dezvăluind modele ascunse în ele. Vorbim despre astfel de regularități de natură statistică care există între variabilele studiate în experiment.

1. Metode de prelucrare statistică primară a rezultatelor experimentale

Toate metodele de analiză matematică și statistică sunt împărțite în mod convențional în primar și secundar. Metodele care pot fi utilizate pentru a obține indicatori care reflectă direct rezultatele măsurătorilor efectuate într-un experiment se numesc metode primare. În consecință, indicatorii statistici primari înseamnă aceia care sunt utilizați în metodele psihodiagnostice în sine și sunt rezultatul prelucrării statistice inițiale a rezultatelor psihodiagnosticului. Metodele secundare se numesc metode de procesare statistică, cu ajutorul cărora, pe baza datelor primare, dezvăluie tipare statistice ascunse în ele.

Metodele primare de prelucrare statistică includ, de exemplu, determinarea mediei eșantionului, varianței eșantionului, modului eșantionului și medianei eșantionului. Metodele secundare includ de obicei analiza de corelație, analiza de regresie, metode pentru compararea statisticilor primare în două sau mai multe eșantioane.

Luați în considerare metodele de calcul al statisticilor matematice elementare.

Modă este valoarea cantitativă a trăsăturii studiate, care se găsește cel mai adesea în eșantion.

Median se numește valoarea trăsăturii studiate, care împarte eșantionul, ordonat după valoarea acestei trăsături, la jumătate.

Proba medie (media aritmetică) valoarea ca indicator statistic este estimarea medie a calității psihologice studiate în experiment.

Împrăștia(uneori această valoare se numește intervalul) unui eșantion este notat cu litera R. Acesta este cel mai simplu indicator care poate fi obținut pentru un eșantion - diferența dintre valorile maxime și minime ale unei serii de variații date.

Dispersieeste media aritmetică a pătratelor deviațiilor valorilor variabilei de la media ei.

2. Metode de procesare statistică secundară a rezultatelor experimentale

Cu ajutorul metodelor secundare de procesare statistică a datelor experimentale, ipotezele asociate experimentului sunt verificate direct, dovedite sau infirmate. Aceste metode, de regulă, sunt mai complicate decât metodele de prelucrare statistică primară și necesită o bună pregătire din partea cercetătorului în domeniul matematicii și statisticii elementare.

Grupul de metode discutat poate fi împărțit în mai multe subgrupuri:

1 Calcul de regresie

Calculul de regresie este o metodă de statistică matematică care vă permite să reduceți datele private, disparate la un anumit grafic liniar, reflectând aproximativ interconectarea lor internă și să obțineți capacitatea de a estima aproximativ valoarea probabilă a unei alte variabile prin valoarea uneia dintre variabile.

2. Corelația

Următoarea metodă de procesare statistică secundară, prin care se clarifică relația sau relația directă dintre două serii de date experimentale, se numește metoda de corelație. Arată modul în care un fenomen îl influențează pe altul sau este legat de acesta în dinamica sa. Acest tip de relație există, de exemplu, între cantități care se află în relații cauzale între ele. Dacă se dovedește că două fenomene sunt corelate semnificativ statistic între ele și dacă în același timp există încredere că unul dintre ele poate acționa ca fiind cauza celuilalt fenomen, atunci urmează cu siguranță concluzia că există o relație de cauzalitate între ele.

3 Analiza factorială

Analiza factorială este o metodă statistică care este utilizată atunci când se prelucrează matrice mari de date experimentale. Sarcinile analizei factorilor sunt: \u200b\u200breducerea numărului de variabile (reducerea datelor) și determinarea structurii relațiilor dintre variabile, adică clasificarea variabilelor, prin urmare analiza factorială este utilizată ca metodă de reducere a datelor sau ca metodă de clasificare structurală.

Examinați întrebările

1. Ce sunt metodele de prelucrare statistică?

2. În ce subgrupuri sunt împărțite metodele secundare de procesare statistică?

3. Explicați esența metodei de corelație?

4. În ce cazuri sunt utilizate metodele de prelucrare statistică?

5. În opinia dumneavoastră, cât de eficientă este utilizarea metodelor de prelucrare statistică în cercetarea științifică?

2. Luați în considerare caracteristicile metodelor de procesare a datelor statistice.

Literatură

1 .. Gorbatov D.S. Atelier de cercetare psihologică: Manual. alocație. - Samara: „BAHRAKH - M”, 2003. - 272 p.

2. Ermolaev A.Yu. Statistici matematice pentru psihologi. - M.: Institutul Psihologic și Social din Moscova: Flint, 2003.336s.

3. Kornilova T.V. Introducere în experimentul psihologic. Manual pentru universități. Moscova: Editura CheRo, 2001.

Lucrări de laborator nr. 3. Prelucrarea datelor statistice în sistemul MatLab

Enunț general de problemă

Scopul principal al activității de laborator este familiarizarea cu elementele de bază ale prelucrării datelor statistice în mediul MatLAB.

Partea teoretică

Prelucrarea datelor statistice primare

Prelucrarea statistică a datelor se bazează pe metode cantitative primare și secundare. Scopul prelucrării primare a datelor statistice este de a structura informațiile obținute, implicând gruparea datelor în tabele pivot în funcție de diverși parametri. Datele primare trebuie prezentate într-un astfel de format încât o persoană să poată face o evaluare aproximativă a setului de date obținute și să dezvăluie informații despre distribuția datelor din eșantionul de date primit, de exemplu, omogenitatea sau compacitatea datelor. După analiza primară a datelor, se aplică metode de procesare a datelor statistice secundare, pe baza cărora sunt determinate tiparele statistice în setul de date disponibil.

Efectuarea de analize statistice primare pe o matrice de date vă permite să obțineți cunoștințe despre următoarele:

Care este cea mai reprezentativă valoare pentru eșantion? Pentru a răspunde la această întrebare, sunt determinate măsurile tendinței centrale.

Este dispersia în date relativă la această valoare caracteristică mare, adică care este „neclaritatea” datelor? În acest caz, sunt determinate măsurile de variabilitate.

Este demn de remarcat faptul că indicatorii statistici ai măsurii tendinței și variabilității centrale sunt determinați numai pe baza datelor cantitative.

Măsuri de tendință centrală- un grup de valori în jurul căruia sunt grupate restul datelor. Astfel, măsurile tendinței centrale rezumă setul de date, ceea ce face posibilă formarea inferențelor atât despre eșantion în ansamblu, cât și efectuarea unei analize comparative a diferitelor eșantioane între ele.

Să presupunem că există un eșantion de date, atunci măsurile tendinței centrale sunt estimate de următorii indicatori:

1. Proba medieEste rezultatul împărțirii sumei tuturor valorilor eșantionului la numărul lor. Este determinat prin formula (3.1).

(3.1)

unde - eual treilea element al eșantionului;

n - numărul de elemente din eșantion.

Media eșantionului oferă cea mai mare precizie în evaluarea tendinței centrale.

Să presupunem că aveți un eșantion de 20 de persoane. Probele sunt informații despre venitul mediu lunar al fiecărei persoane. Să presupunem că 19 persoane au un venit mediu lunar de 20 tr. Dolari. și 1 persoană cu un venit de 300 tr. Venitul total lunar al întregului eșantion este de 680 RUB. Media eșantionului în acest caz este S \u003d 34.


2. Median- generează o valoare, peste și sub care numărul de valori diferite este același, adică este valoarea centrală într-o serie de date secvențiale. Se determină în funcție de numărul par / impar de elemente din eșantion prin formulele (3.2) sau (3.3). Algoritmul pentru estimarea medianei pentru eșantionul de date:

În primul rând, datele sunt clasificate (ordonate) în ordine descrescătoare / crescătoare.

Dacă eșantionul comandat are un număr impar de elemente, atunci mediana coincide cu valoarea centrală.

(3.2)

unde n

În cazul unui număr par de elemente, mediana este definită ca media aritmetică a celor două valori centrale.

(3.3)

unde este elementul mediu al eșantionului comandat;

- următorul element al selecției comandate;

Numărul de articole din eșantion.

Dacă toate elementele eșantionului sunt diferite, atunci exact jumătate din elementele eșantionului sunt mai mari decât mediana, iar cealaltă jumătate este mai mică. De exemplu, pentru eșantion (1, 5, 9, 15, 16), mediana este aceeași cu punctul 9.

În analiza statistică a datelor, mediana vă permite să determinați elementele eșantionului care influențează puternic valoarea mediei eșantionului.

Să presupunem că aveți un eșantion de 20 de persoane. Probele sunt informații despre venitul mediu lunar al fiecărei persoane. Să presupunem că 19 persoane au un venit mediu lunar de 20 tr. Dolari. și 1 persoană cu un venit de 300 tr. Venitul total lunar al întregului eșantion este de 680 RUB. Mediana, după ordonarea eșantionului, este determinată ca medie aritmetică a elementelor a zecea și a unsprezecea a eșantionului) și este egală cu Me \u003d 20 tr. Acest rezultat este interpretat după cum urmează: mediana împarte eșantionul în două grupuri, astfel încât se poate concluziona că, în primul grup, fiecare persoană are un venit mediu lunar de cel mult 20 de mii de ruble, iar în al doilea grup, cel puțin 20 de tone. R. În acest exemplu, putem spune că mediana se caracterizează prin cât câștigă persoana „medie”. În același timp, valoarea eșantionului mediu este depășită semnificativ S \u003d 34, ceea ce indică inacceptabilitatea acestei caracteristici în evaluarea câștigurilor medii.

Astfel, cu cât este mai mare diferența dintre mediană și eșantion, cu atât este mai mare dispersia datelor eșantionului (în exemplul luat în considerare, o persoană cu un câștig de 300 de mii de ruble diferă în mod clar de media oamenilor dintr-un anumit eșantion și are un impact semnificativ asupra estimării venitului mediu). Ce este de făcut cu astfel de elemente se decide în fiecare caz individual. Dar, în cazul general, pentru a asigura fiabilitatea eșantionului, acestea sunt eliminate, deoarece au o influență puternică asupra evaluării indicatorilor statistici.

3. Moda (Moe) - formează valoarea cea mai des întâlnită în eșantion, adică valoarea cu cea mai mare frecvență. Algoritmul de estimare a modului:

În cazul în care un eșantion conține elemente care apar la fel de des, atunci se spune că nu există modă într-un astfel de eșantion.

Dacă două pubele adiacente au aceeași frecvență, care este mai mare decât frecvența celorlalte pubele, atunci modul este determinat ca media celor două valori.

Dacă două eșantioane au aceeași frecvență, care este mai mare decât frecvența celorlalte eșantioane, iar aceste elemente nu sunt adiacente, atunci se spune că există două moduri în eșantionul dat.

Modul în analiza statistică este utilizat în situațiile în care este necesară evaluarea rapidă a măsurii tendinței centrale și nu este necesară o precizie ridicată. De exemplu, moda (din punct de vedere al mărimii sau al mărcii) este convenabilă pentru a determina hainele și încălțămintea cele mai solicitate în rândul clienților.

Măsuri de dispersie (variabilitate)- un grup de indicatori statistici care caracterizează diferențele dintre valorile individuale ale eșantionului. Pe baza indicatorilor măsurilor de dispersie, este posibilă estimarea gradului de omogenitate și compactitate a elementelor eșantionului. Măsurile de împrăștiere se caracterizează prin următorul set de indicatori:

1. Glisați - este intervalul dintre valorile maxime și minime ale rezultatelor observației (unități de probă). O măsură de swing indică răspândirea valorilor într-o populație de date. Dacă intervalul este mare, atunci valorile din agregat sunt foarte împrăștiate, altfel (intervalul este mic) se spune că valorile din agregat se află una lângă alta. Intervalul este determinat de formula (3.4).

(3.4)

Unde - element maxim de probă;

este elementul minim de eșantionare.

2.Abaterea medie- diferența medie aritmetică (în valoare absolută) între fiecare valoare din eșantion și media eșantionului său. Abaterea medie este determinată de formula (3.5).

(3.5)

unde - eual treilea element al eșantionului;

Valoarea mediei eșantionului, calculată prin formula (3.1);

Numărul de articole din eșantion.

Modul este necesară datorită faptului că abaterile de la medie pentru fiecare element specific pot fi atât pozitive, cât și negative. Prin urmare, dacă nu luați modulul, atunci suma tuturor abaterilor va fi aproape de zero și va fi imposibil să judecați gradul de variabilitate a datelor (aglomerarea datelor în jurul eșantionului mediu). În analiza statistică, modul și mediana pot fi luate în loc de media eșantionului.

3. Dispersie - o măsură de împrăștiere care descrie abaterea comparativă între valorile datelor și media. Se calculează ca suma abaterilor pătrate ale fiecărui element eșantion de la medie. Varianța este estimată în diferite moduri, în funcție de mărimea eșantionului:

Pentru eșantioane mari (n\u003e 30) după formula (3.6)

(3.6)

Pentru probe mici (n<30) по формуле (3.7)

(3.7)

unde X i este al i-lea element al eșantionului;

S este valoarea medie a eșantionului;

Numărul de elemente din eșantion;

(X i - S) este abaterea de la media pentru fiecare valoare din setul de date.

4. Deviație standard -o măsură a cât de dispersate sunt punctele de date în raport cu media lor.

Procesul de pătrat al abaterilor individuale în calcularea varianței crește gradul de abatere a abaterii rezultate de la abaterile inițiale, care la rândul său introduce erori suplimentare. Astfel, pentru a aproxima estimarea răspândirii punctelor de date în raport cu media lor la valoarea deviației medii, rădăcina pătrată este extrasă din varianță. Rădăcina extrasă a varianței caracterizează o măsură a variabilității numită pătrată medie sau deviație standard (3.8).

(3.8)

Să presupunem că sunteți un manager de proiect de dezvoltare software. Aveți cinci programatori subordonați dvs. Prin gestionarea procesului de execuție a proiectului, distribuiți sarcini între programatori. Pentru simplitatea exemplului, vom trece de la faptul că sarcinile sunt echivalente ca complexitate și timp de execuție. Ați decis să analizați activitatea fiecărui programator (numărul de sarcini finalizate în cursul săptămânii) în ultimele 10 săptămâni, în urma cărora ați primit următoarele eșantioane:

Numele săptămânii

După estimarea numărului mediu de sarcini finalizate, ați obținut următorul rezultat:

Numele săptămânii S
22,3
22,4
22,2
22,1
22,5

Pe baza indicatorului S, toți programatorii lucrează în medie cu aceeași eficiență (aproximativ 22 de sarcini pe săptămână). Cu toate acestea, indicatorul variabilității (intervalului) este foarte ridicat (de la 5 sarcini ale celui de-al patrulea programator la 24 de sarcini pentru al cincilea).

Numele săptămânii S P
22,3
22,4
22,2
22,1
22,5

Să estimăm abaterea standard, care arată modul în care valorile din eșantioane sunt distribuite în raport cu media, și anume, în cazul nostru, estimăm cât de mare este răspândirea sarcinilor de la o săptămână la alta.

Numele săptămânii S P ASA DE
22,3 1,56
22,4 1,8
22,2 2,84
22,1 1,3
22,5 5,3

Estimarea rezultată a deviației standard sugerează următoarele (să estimăm două cazuri extreme 4 și 5 programatori):

Fiecare valoare dintr-un eșantion de 4 programatori deviază în medie cu 1,3 activități de la valoarea medie.

Fiecare valoare din eșantionul 5 al programatorului se abate în medie cu 5,3 activități de la valoarea medie.

Cu cât deviația standard este mai aproape de 0, cu atât este mai fiabilă media, deoarece aceasta indică faptul că fiecare valoare a eșantionului este aproape egală cu media (în exemplul nostru, aceasta este de 22,5 itemi). În consecință, cel de-al 4-lea programator este cel mai consistent în contrast cu cel de-al 5-lea. Variabilitatea performanței sarcinii de la o săptămână la alta pentru programatorul 5 este de 5,3 sarcini, ceea ce indică o răspândire semnificativă. În cazul celui de-al 5-lea programator, media nu poate fi de încredere și, prin urmare, este dificil să se prevadă numărul de sarcini finalizate pentru săptămâna următoare, ceea ce la rândul său complică planificarea și respectarea programelor de lucru. Ce decizie de management luați în acest curs este irelevantă. Este important să fi primit o evaluare pe baza căreia să poată fi luate decizii de management adecvate.

Astfel, se poate trage o concluzie generală că media nu întotdeauna estimează corect datele. Corectitudinea estimării medii poate fi judecată după valoarea abaterii standard.