1. Засоби статистичної обробки даних в Excel

2. Використання спеціальних функцій

3. Використання інструменту ПАКЕТ АНАЛІЗУ

література:

основна:

1. Берк. Аналіз даних за допомогою Microsoft Excel. : Пер. з англ. / Берк, Кеннет, Кейрі, Патрік. - М.: Видавничий дім "Вільямс", 2005. - С. 216 - 256.

2. Мішин А.В. Інформаційні технологіїв юридичній діяльності: практикум / А.В. Мішин. - М .: РАП, 2013. - С. 2-11.

додаткова:

3. Інформатика для юристів та економістів: підручник для вузів / Під ред. С.В. Симоновича. - СПб .: Пітер, 2004. - С. 498-516.

Практичне заняття № 30

Тема № 11.1. Ведення баз даних в СУБД Access

Заняття проводиться методом проектів.

Мета проекту: розробити базу даних про роботу суду.

Технічне завдання:

1. Створіть базу даних «Суд» з двох таблиць «Судді» і «Позови», що мають наступну структуру, відповідно:

Таблиця «Судді»

ім'я поля код судді Ф_І_О дні прийому Години прийому Стаж роботи
Тип даних числовий текстовий текстовий текстовий числовий
Розмір поля довге ціле довге ціле
формат поля Основний Основний
Число десяткових знаків
Значення за замовчуванням «Ср» «15: 00-17: 00»
Умова на значення > 36200 And<36299 Пн Or Вт Or Ср Or Чт Or Пт > 0 And<40
Повідомлення про помилку Можна вибрати зі значень «Пн», «Вт», «Ср», «Чт» або «Пт». Повторіть введення! ! Допустимі значення від 1 до 39. Повторіть введення!
Обов'язкове поле Так Так немає немає немає
Індексовані поле немає немає немає немає

Примітка. Оголосити ключовим поле «Код судді».

Таблиця «Позови»

ім'я поля Номер справи позивач Відповідь-чик код судді Дата засідання
Тип даних числовий текстовий текстовий числовий Дата час
Властивості поля: вкладка «Загальні»
Розмір поля довге ціле довге ціле Повний формат дати
формат поля Основний
Число десяткових знаків
Значення за замовчуванням
Умова на значення > 0 And<99999 > 36200 And<36299
Повідомлення про помилку Помилковий введення - повторіть! Допустимі значення від 36201 до 36298. Повторіть введення!
Обов'язкове поле Так немає немає немає немає
Індексовані поле Так (Збіги не допускаються) немає немає Так (Допускаються збіги) немає

2. У таблицю «Судді» введіть такі записи даних:

У таблицю «Позови» введіть такі записи даних:

3. По полю «Код судді» встановити зв'язок «один-ко-многим» між таблицями суддіі позови. При цьому задайте «Забезпечення цілісності даних» і «каскадне оновлення пов'язаних полів».

література:

основна:

1. Мішин А.В. Інформаційні технології в професійній діяльності: навчальний посібник / А.В. Мішин, Л.Є. Містера, Д.В. Картавцев. - М .: РАП, 2011. - С. 259-264.

додаткова:

Практичне заняття № 31

Тема № 11.2. Принципи створення форм і запитів в СУБД Access

1. Розробка вхідних форм для введення даних.

2. Методика проведення розрахунків і аналізу введених даних.

література:

основна:

1. Мішин А.В. Інформаційні технології в професійній діяльності: навчальний посібник / А.В. Мішин, Л.Є. Містера, Д.В. Картавцев. - М .: РАП, 2011. - С. 265-271.

додаткова:

2. Інформатика та інформаційні технології: навчальний посібник для студентів вищих навчальних закладів / І.Г. Ліснича, І.В. Міссінг, Ю.Д. Романова, В.І. Шестаков. - 2-е вид. - М .: Ексмо, 2006. - 544 с.

3. Міхєєва Є.В. Інформаційні технології в професійній діяльності: навчальний посібник для студентів установ СПО / Є.В. Міхеєва. - 2-е изд., Стер. - М .: Академія, 2005. - 384 с.

Надіслати свою хорошу роботу в базу знань просто. Використовуйте форму, розташовану нижче

Студенти, аспіранти, молоді вчені, які використовують базу знань в своє навчання і роботи, будуть вам дуже вдячні.

Розміщено на http://www.allbest.ru/

Обробка статистичних даних

Вступ

статистичний дисперсія вибірка кореляція

Методами статистичної обробки результатів експерименту називаються математичні прийоми, формули, способи кількісних розрахунків, за допомогою яких показники, одержувані в ході експерименту, можна узагальнювати, приводити в систему, виявляючи приховані в них закономірності. Йдеться про такі закономірності статистичного характеру, які існують між досліджуваними в експерименті змінними величинами.

Деякі з методів математико-статистичного аналізу дозволяють обчислювати так звані елементарні математичні статистики, що характеризують вибіркове розподіл даних, наприклад вибіркове середнє, вибіркова дисперсія, мода, медіана і ряд інших. Інші методи математичної статистики, наприклад дисперсійний аналіз, регресійний аналіз, дозволяють судити про динаміку зміни окремих статистик вибірки. За допомогою третьої групи методів, скажімо, кореляційного аналізу, факторного аналізу, методів порівняння вибіркових даних, можна достовірно судити про статистичні зв'язки, що існують між змінними величинами, які досліджують у даному експерименті.

1. Методи первинної статистичної обробки результатів експерименту

Всі методи математико-статистичного аналізу умовно діляться на первинні і вторинні. Первинними називають методи, за допомогою яких можна отримати показники, безпосередньо відображають результати вироблених в експерименті вимірювань. Відповідно під первинними статистичними показниками маються на увазі ті, які застосовуються в самих психодіагностичних методиках і є підсумком початкової статистичної обробки результатів психодіагностики. Вторинними називаються методи статистичної обробки, за допомогою яких на базі первинних даних виявляють приховані в них статистичні закономірності.

До первинних методів статистичної обробки відносять, наприклад, визначення вибіркової середньої величини, вибіркової дисперсії, вибіркової моди і вибіркової медіани. У число вторинних методів зазвичай включають кореляційний аналіз, регресійний аналіз, методи порівняння первинних статистик у двох або декількох вибірок.

Розглянемо методи обчислення елементарних математичних статистик.

1.1 Мода

Числовою характеристикою вибірки, як правило, не вимагає обчислень, є так звана мода. Модою називають кількісне значення досліджуваної ознаки, найбільш часто зустрічається у вибірці. Для симетричних розподілів ознак, в тому числі для нормального розподілу, значення моди збігається зі значеннями середнього і медіани. Для інших типів розподілі, несиметричних, це не характерно. Наприклад, в послідовності значень ознак 1, 2, 5, 2, 4, 2, 6, 7, 2 модою є значення 2, так як воно зустрічається частіше за інших значень - чотири рази.

Моду знаходять згідно з такими правилами:

1) В тому випадку, коли всі значення у вибірці зустрічаються однаково часто, прийнято вважати, що цей вибірковий ряд не має моди. Наприклад: 5, 5, 6, 6, 7, 7 - в цій вибірці моди немає.

2) Коли два сусідніх (суміжних) значення мають однакову частоту і їх частота більше частот будь-яких інших значень, мода обчислюється як середнє арифметичне цих двох значень. Наприклад, в вибірці 1, 2, 2, 2, 5, 5, 5, 6 частоти поруч розташованих значень 2 і 5 збігаються і дорівнюють 3. Ця частота більше, ніж частота інших значень 1 і 6 (у яких вона дорівнює 1). Отже, модою цього ряду буде величина = 3,5

3) Якщо два несуміжних (несусідніх) значення у вибірці мають рівні частоти, які більше частот будь-якого іншого значення, то виділяють дві моди. Наприклад, в ряду 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами є значення 11 і 14. У такому випадку говорять, що вибірка є бімодальною.

Можуть існувати і так звані мультимодальні розподілу, що мають більше двох вершин (мод).

4) Якщо мода оцінюється по безлічі згрупованих даних, то для знаходження моди необхідно визначити групу з найбільшою частотою ознаки. Ця група називається модальної групою.

1.2 Медіана

Медианой називається значення досліджуваного ознаки, яке ділить вибірку, впорядковану за величиною цього показника, навпіл. Праворуч і ліворуч від медіани в упорядкованому ряду залишається по однаковій кількості ознак. Наприклад, для вибірки 2, 3, 4, 4, 5, 6, 8, 7, 9 медианой буде значення 5, так як зліва і праворуч від нього залишається по чотири показники. Якщо ряд включає в себе парне число ознак, то медіаною буде середнє, взяте як полусумма величин двох центральних значень ряду. Для наступного ряду 0, 1, 1, 2, 3, 4, 5, 5, 6, 7 медіана буде дорівнює 3,5.

Знання медіани корисно для того, щоб встановити, чи є розподіл приватних значень вивченого ознаки симетричним і наближається до так званого нормального розподілу. Середня і медіана для нормального розподілу зазвичай збігаються або дуже мало відрізняються один від одного. Якщо вибіркове розподіл ознак нормально, то до нього можна застосовувати методи вторинних статистичних розрахунків, засновані на нормальному розподілі даних. В іншому випадку цього робити не можна, так як в розрахунки можуть украстися серйозні помилки.

1.3 Вибіркове середнє

Вибіркове середнє (середнє арифметичне) значення як статистичний показник являє собою середню оцінку досліджуваного в експерименті психологічного якості. Ця оцінка характеризує ступінь його розвитку в цілому у тієї групи випробовуваних, яка була піддана психодиагностическому обстеження. Порівнюючи безпосередньо середні значення двох або декількох вибірок, ми можемо судити про відносну ступеня розвитку у людей, що складають ці вибірки, оцінюється якості.

1.4 Розкид вибірки

Розкид (іноді цю величину називають розмахом) вибірки позначається буквою R. Це найпростіший показник, який можна отримати для вибірки - різниця між максимальною і мінімальною величинами даного конкретного варіаційного ряду, тобто

R = хmax - хmin

Зрозуміло, що чим сильніше варіює вимірюваний ознака, тим більше величина R, і навпаки. Однак може трапитися так, що у двох вибіркових рядів і середні, і розмах збігаються, проте характер варіювання цих рядів буде різний. Наприклад, дано дві вибірки:

Х = 10 15 20 25 30 35 40 45 50X = 30 R = 40

Y = 10 28 28 30 30 30 32 32 50 Y = 30 R = 40

У разі рівного розподілу середніх і разбросов для цих двох вибіркових рядів характер їх варіювання різний. Для того щоб більш чітко уявляти характер варіювання вибірок, слід звернутися до їх розподілом.

1.5 Дисперсія

Дисперсія - це середнє арифметичне квадратів відхилень значень змінної від її середнього значення.

Дисперсія як статистична величина характеризує, наскільки приватні значення відхиляються від середньої величини в даній вибірці. Чим більше дисперсія, тим більше відхилення або розкид даних.

Із суми квадратів, поділеній на число членв ряду витягувати квадратний корінь.

Іноді вихідних приватних первинних даних, які підлягають статистичній обробці, буває досить багато, і вони вимагають проведення величезної кількості елементарних арифметичних операцій. Для того щоб скоротити їх число і в той же час зберегти потрібну точність розрахунків, іноді вдаються до заміни вихідної вибірки приватних емпіричних даних на інтервали. Інтервалом називається група впорядкованих за величиною значень ознаки, замінна в процесі розрахунків середнім значенням.

2. Методи вторинної статистичної обробки результатів експерименту

За допомогою вторинних методів статистичної обробки експериментальних даних безпосередньо перевіряються, доводяться або спростовуються гіпотези, пов'язані з експериментом. Ці методи, як правило, складніше, ніж методи первинної статистичної обробки, і вимагають від дослідника хорошої підготовки в області елементарної математики і статистики. (7).

Обговорювану групу методів можна розділити на кілька підгруп:

1. Регресійне обчислення.

2. Методи порівняння між собою двох або декількох елементарних статистик (середніх, дисперсій і т.п.), що відносяться до різних вибірках.

3. Методи встановлення статистичних взаємозв'язків між змінними, наприклад їх кореляції між собою.

4. Методи виявлення внутрішньої статистичної структури емпіричних даних (наприклад, факторний аналіз). Розглянемо кожну з виділених підгруп методів вторинної статистичної обробки на прикладах.

2.1 Регресійне обчислення

Регресійне обчислення - це метод математичної статистики, що дозволяє звести приватні, розрізнені дані до деякого лінійному графіку, приблизно відбиває їх внутрішню взаємозв'язок, і отримати можливість за значенням однієї з змінних приблизно оцінювати ймовірне значення іншої змінної (7).

Графічне вираження регресійного рівняння називають лінією регресії. Лінія регресії виражає найкращі передбачення залежною зміною (Y) з незалежних змінних (X).

Регресію висловлюють за допомогою двох рівнянь регресії, які в самому прямому випадку виглядають, як рівняння прямої.

Y = a 0 + a 1 * X

X = b 0 + b 1 * Y

У рівнянні (1) Y - залежна змінна, X - незалежна змінна, a 0 - вільний член, a 1 - коефіцієнт регресії, або кутовий коефіцієнт, який визначає нахил лінії регресії по відношенню до осей координат.

У рівнянні (2) X - залежна змінна, Y - незалежна змінна, b 0 - вільний член, b 1 - коефіцієнт регресії, або кутовий коефіцієнт, який визначає нахил лінії регресії по відношенню до осей координат.

Кількісне уявлення зв'язку (залежності) між Х і Y (між Y і X) називається регресійним аналізом. Головне завдання регресійного аналізу полягає в знаходженні коефіцієнтів a 0, b 0, a1і b 1 і визначенні рівня значущості отриманих аналітичних виразів, що зв'язують між собою змінні Х і У.

Для застосування методу лінійного регресійного аналізу необхідно дотримуватися таких умов:

1. Порівнянні змінні Х і Y повинні бути виміряні в шкалі інтервалів або відносин.

2. Передбачається, що змінні Х і Y мають нормальний закон розподілу.

3. Число варіюють ознак в порівнюваних змінних має бути однаковим. (5).

2.2 Кореляція

Наступний метод вторинної статистичної обробки, за допомогою якого з'ясовується зв'язок або пряма залежність між двома рядами експериментальних даних, носить назву метод кореляцій. Він показує, яким чином одне явище впливає на інше або пов'язане з ним у своїй динаміці. Такі залежності існують, наприклад, між величинами, які у причинно-наслідкових зв'язках один з одним. Якщо з'ясовується, що два явища статистично достовірно корелюють один з одним і якщо при цьому є впевненість в тому, що одне з них може виступати в якості причини іншого явища, то звідси виразно випливає висновок про наявність між ними причинно-наслідкового залежності. (7)

Коли підвищення рівня однієї змінної супроводжується підвищенням рівня інший, то мова йде про позитивну кореляцію. Якщо ж зростання однієї змінної відбувається при зниженні рівня інший, то говорять про негативну кореляцію. При відсутності зв'язку змінних ми маємо справу з нульовою кореляцією. (1)

Є кілька різновидів даного методу: лінійний, рангові, парний і множинний. Лінійний кореляційний аналіз дозволяє встановлювати прямі зв'язки між змінними величинами з їх абсолютними значеннями. Ці зв'язки графічно виражаються прямою лінією, звідси назва «лінійний». Ранговая кореляція визначає залежність не між абсолютними значеннями змінних, а між порядковими місцями, або рангами, займаними ними в упорядкованому за величиною ряду. Парний кореляційний аналіз включає вивчення кореляційних залежностей тільки між парами змінних, а множинний, або багатовимірний, - між багатьма змінними одночасно. Поширеною в прикладній статистиці формою багатовимірного кореляційного аналізу є факторний аналіз. (5)

До коефіцієнтом рангової кореляції в психолого-педагогічних дослідженнях звертаються в тому випадку, коли ознаки, між якими встановлюється залежність, є якісно різними і не можуть бути досить точно оцінені за допомогою так званої інтервального вимірювальної шкали. Інтервального називають таку шкалу, яка дозволяє оцінювати відстані між її значеннями і судити про те, яке з них більше і наскільки більше іншого. Наприклад, лінійка, за допомогою якої оцінюються і порівнюються довжини об'єктів, є інтервального шкалою, так як, користуючись нею, ми можемо стверджувати, що відстань між двома і шістьма сантиметрами в два рази більше, ніж відстань між шістьма і вісьмома сантиметрами. Якщо ж, користуючись деяким вимірювальним інструментом, ми можемо тільки стверджувати, що одні показники більше інших, але не в змозі сказати на скільки, то такий вимірювальний інструмент називається не інтервальним, а порядковим.

Більшість показників, які отримують в психолого-педагогічних дослідженнях, належать до порядковим, а не до інтервальним шкалами (наприклад, оцінки типу «так», «ні», «скоріше ні, ніж так» і інші, які можна переводити в бали), тому коефіцієнт лінійної кореляції до них непридатний.

Метод множинних кореляцій на відміну від методу парних кореляцій дозволяє виявити загальну структуру кореляційних залежностей, які існують всередині багатовимірного експериментального матеріалу, що включає більше двох змінних, і представити ці кореляційні залежності у вигляді деякої системи.

Для застосування приватного коефіцієнта кореляції необхідно дотримуватися таких умов:

1. Порівнянні змінні повинні бути виміряні в шкалі інтервалів або відносин.

2. Передбачається, що всі змінні мають нормальний закон розподілу.

3. Число варіюють ознак в порівнюваних змінних має бути однаковим.

4. Для оцінки рівня достовірності кореляційного відносини Пірсона слід користуватися формулою (11.9) і таблицею критичних значень для t-критерію Стьюдента при k = n - 2. (5)

2.3 Аналіз

Факторний аналіз - статистичний метод, який використовується при обробці великих масивів експериментальних даних. Завданнями факторного аналізу є: скорочення числа змінних (редукція даних) і визначення структури взаємозв'язків між змінними, тобто класифікація змінних, тому факторний аналіз використовується як метод скорочення даних або як метод структурної класифікації.

Важлива відмінність факторного аналізу від всіх описаних вище методів полягає в тому, що його не можна застосовувати для обробки первинних, або, як кажуть, «сирих», експериментальних даних, тобто отриманих безпосередньо при обстеженні піддослідних. Матеріалом для факторного аналізу служать кореляційні зв'язки, а точніше - коефіцієнти кореляції Пірсона, які обчислюються між змінними (тобто психологічними ознаками), включеними в обстеження. Іншими словами, факторному аналізу піддають кореляційні матриці, або, як їх інакше називають, матриці интеркорреляций. Найменування стовпців і рядків в цих матрицях однакові, так як вони представляють собою перелік змінних, включених в аналіз. З цієї причини матриці интеркорреляций завжди квадратні, тобто число рядків в них дорівнює числу стовпців, і симетричні, тобто на симетричних місцях щодо головної діагоналі стоять одні й ті ж коефіцієнти кореляції.

Головне поняття факторного аналізу - фактор. Це штучний статистичний показник, що виникає в результаті спеціальних перетворень таблиці коефіцієнтів кореляції між досліджуваними психологічними ознаками, або матриці интеркорреляций. Щоб вийняти факторів з матриці интеркорреляций називається факторизації матриці. В результаті факторизації з кореляційної матриці може бути вилучено різну кількість факторів аж до числа, рівного кількості вихідних змінних. Однак фактори, що виділяються в результаті факторизації, як правило, нерівноцінні за своїм значенням. (5)

За допомогою виявлених чинників пояснюють взаємозалежність психологічних явищ. (7)

Найчастіше в результаті факторного аналізу визначається не один, а кілька факторів, по-різному пояснюють матрицю интеркорреляций змінних. В такому випадку фактори ділять на генеральні, загальні та одиничні. Генеральними називаються чинники, все факторні навантаження яких значно відрізняються від нуля (нуль навантаження свідчить про те, що дана змінна ніяк не пов'язана з іншими і не робить на них ніякого впливу в житті). Загальні - це фактори, у яких частина факторних навантажень відмінна від нуля. Поодинокі - це фактори, в яких істотно відрізняється від нуля тільки одна з навантажень. (7)

Факторний аналіз може бути доречний, якщо виконуються наступні критерії.

1. Не можна факторізовать якісні дані, отримані за шкалою найменувань, наприклад, такі, як колір волосся (чорний / каштановий / рудий) і т.п.

2. Всі змінні повинні бути незалежними, а їх розподіл має наближатися до нормального.

3. Зв'язки між змінними повинні бути приблизно лінійні або, по крайней мере, не мати явно криволінійного характеру.

4. У вихідній кореляційної матриці має бути кілька кореляцій по модулю вище 0,3. В іншому випадку досить важко витягти з матриці будь-які чинники.

5. Вибірка досліджуваних повинна бути досить великою. Рекомендації експертів варіюють. Найбільш жорстка точка зору рекомендує не застосовувати факторний аналіз, якщо число випробовуваних менше 100, оскільки стандартні помилки кореляції в цьому випадку виявляться занадто великі.

Однак якщо чинники добре визначені (наприклад, з навантаженнями 0,7, а не 0,3), експериментатору потрібна менша вибірка, щоб виділити їх. Крім того, якщо відомо, що отримані дані відрізняються високою надійністю (наприклад, використовуються валідниє тести), то можна аналізувати дані і по меншому числу випробуваних. (5).

2.4 Іспользование факторного аналізу

Факторний аналіз широко використовується в психології в різних напрямках, пов'язаних з вирішенням як теоретичних, так і практичних проблем.

У теоретичному плані використання факторного аналізу пов'язано з розробкою так званого факторно-аналітичного підходу до вивчення структури особистості, темпераменту і здібностей. Використання факторного аналізу в цих сферах засноване на широко прийнятому допущенні, згідно з яким спостерігаються і доступні для прямого виміру показники є лише непрямими і / або приватними зовнішніми проявами більш загальних характеристик. Ці характеристики, на відміну від перших, є прихованими, так званими латентними змінними, оскільки вони представляють собою поняття або конструкти, які не доступні для прямого виміру. Однак вони можуть бути встановлені шляхом факторизації кореляційних зв'язків між що спостерігаються рисами і виділенням чинників, які (за умови оптимальної структури) можна інтерпретувати як статистичне вираз шуканої латентної змінної.

Хоча чинники мають суто математичний характер, передбачається, що вони репрезентують приховані змінні (теоретично постуліруемие конструкти або поняття), тому назви факторів нерідко відображають сутність досліджуваного гіпотетичного конструкту.

В даний час факторний аналіз широко використовується в диференціальної психології та психодіагностики. З його допомогою можна розробляти тести, встановлювати структуру зв'язків між окремими психологічними характеристиками, вимірюваними набором тестів або завданнями тесту.

Факторний аналіз використовується також для стандартизації тестових методик, яка проводиться на репрезентативній вибірці випробовуваних.

висновок

Якщо дані, отримані в експерименті, якісного характеру, то правильність зроблених на основі їх висновків повністю залежить від інтуїції, ерудиції та професіоналізму дослідника, а також від логіки його міркувань. Якщо ж ці дані кількісного типу, то спочатку проводять їх первинну, а потім вторинну статистичну обробку. Первинна статистична обробка полягає у визначенні необхідного числа елементарних математичних статистик. Така обробка майже завжди передбачає як мінімум визначення вибіркового середнього значення. У тих випадках, коли інформативним показником для експериментальної перевірки запропонованих гіпотез є розкид даних відносного середнього, обчислюється дисперсія або відхилення. Значення медіани рекомендується обчислювати тоді, коли передбачається використовувати методи вторинної статистичної обробки, розраховані на нормальний розподіл, Для такого роду розподілу вибіркових даних медіана, а також мода збігаються або досить близькі до середньої величини. Цим критерієм можна скористатися для того, щоб приблизно судити про характер отриманого розподілу первинних даних.

Вторинна статистична обробка (порівняння середніх, дисперсій, розподілів даних, регресійний аналіз, кореляційний аналіз, факторний аналіз і ін.) Проводиться в тому випадку, якщо для вирішення завдань або докази запропонованих гіпотез необхідно визначити статистичні закономірності, приховані в первинних експериментальних даних. Приступаючи до вторинної статистичної обробки, дослідник передусім повинен вирішити, які з різних вторинних статистик йому слід застосувати для обробки первинних експериментальних даних. Рішення приймається на основі врахування характеру перевіряється гіпотези і природи первинного матеріалу, отриманого в результаті проведення експерименту. Наведемо кілька рекомендацій з цього приводу.

Рекомендація 1. Якщо експериментальна гіпотеза містить припущення про те, що в результаті проведеного психолого-педагогічного дослідження зростуть (або зменшаться) показники будь-якого якості, то для порівняння до - і постексперіментальних даних рекомендується використовувати критерій Ст'юдента або ч2-критерій. До останнього звертаються в тому випадку, якщо первинні експериментальні дані відносні і виражені, наприклад, у відсотках.

Рекомендація 2. Якщо експериментально перевіряється гіпотеза включає в себе твердження про причинно-наслідкового залежності між деякими змінними, то її доцільно перевіряти, звертаючись до коефіцієнтів лінійної або рангової кореляції. Лінійна кореляція використовується в тому випадку, коли вимірювання незалежної і залежної змінних виробляються за допомогою інтервального шкали, а зміни цих змінних до і після експерименту невеликі. До рангової кореляції звертаються тоді, коли досить оцінити зміни, що стосуються порядку проходження один за одним по величині незалежних і залежних змінних, або коли їх зміни досить великі, або коли вимірювальний інструмент був порядковим, а не інтервальним.

Рекомендація 3. Іноді гіпотеза включає припущення про те, що в результаті експерименту зростуть або зменшаться індивідуальні відмінності між піддослідними. Таке припущення добре перевіряється за допомогою критерію Фішера, що дозволяє порівняти дисперсії до і після експерименту. Зауважимо, що, користуючись критерієм Фішера, можна працювати тільки з абсолютними значеннями показників, але не з їх рангами.

Розміщено на Allbest.ru

...

подібні документи

    Основні прийоми і методи обробки та аналізу статистичних даних. Обчислення арифметичної, гармонійної і геометричній середніх величин. Ряди розподілу, їх основні характеристики. Методи вирівнювання поруч динаміки. Система національних рахунків.

    курсова робота, доданий 24.10.2014

    Поняття економічного аналізу як науки, його сутність, предмет, загальна характеристика методів і соціально-економічна ефективність. Основні групи економетричних методів аналізу і обробки даних. Факторний аналіз економічних даних підприємства.

    реферат, доданий 04.03.2010

    Середнє арифметичне вибірки, дисперсія, середньоквадратичне відхилення. Відбраковування за критерієм Шовен. Правило "трьох сигм". Оцінка значущості відмінності середніх значень двох вибірок. Парний, множинні регресійні аналізи. Повний факторний аналіз.

    курсова робота, доданий 05.12.2012

    Застосування різних способів подання та обробки статистичних даних. Просторові статистичні вибірки. Парна регресія і кореляція. Тимчасові ряди. Побудова тренда. Практичні приклади і методика їх вирішення, формули і їх значення.

    курс лекцій, доданий 26.02.2009

    Статистична обробка результатів вимірювань; середнє арифметичне, квадратичне, дисперсія. Визначення параметрів вибірки: закон трьох сигм, гістограма, контрольні карти, діаграма Ісікава. Застосування інструментів якості при виготовленні диванів.

    курсова робота, доданий 17.10.2014

    Середня величина в статистиці, її сутність і умови застосування. Види і форми середніх: за наявністю ознаки-ваги, за формою розрахунку, за охопленням сукупності. Мода, медіана. Статистичне вивчення динаміки прибутку та рентабельності на прикладі ВАТ "Башмебель".

    контрольна робота, доданий 14.06.2008

    Принципи статистичної обробки даних, що використовуються в даному процесі методи і прийоми. Методика і основні етапи побудови контрольних карт, їх класифікація та типи, функціональні особливості, визначення переваг та недоліків застосування.

    курсова робота, доданий 23.08.2014

    Розрахунок числових характеристик і обробка результатів вибіркових спостережень. Обчислення і аналіз статистичних показників в економіці. Національне багатство: елементи, оцінка; баланс активів і пасивів; основні фонди, показники оборотних коштів.

    курсова робота, доданий 25.12.2012

    Дескриптивная статистика і статистичний висновок. Способи відбору, що забезпечують репрезентативність вибірки. Вплив виду вибірки на величину помилки. Завдання при застосуванні вибіркового методу. Поширення даних спостереження на генеральну сукупність.

    контрольна робота, доданий 27.02.2011

    Розкриття поняття: інтервального шкали, середнього арифметичного, рівня статистичної значущості. Як інтерпретувати моду, медіану і середнє. Рішення задач з використанням критерію Фрідмана, Розенбаума. Розрахунок коефіцієнта кореляції Спрімена.

Лекція 12. Методи статистичної обробки результатів.

Методами статистичної обробки результатів називаються математичні прийоми, формули, способи кількісних розрахунків, за допомогою яких показники, одержувані в ході експерименту, можна узагальнювати, приводити в систему, виявляючи приховані в них закономірності. Йдеться про такі закономірності статистичного характеру, які існують між досліджуваними в експерименті змінними величинами.

1. Методи первинної статистичної обробки результатів експерименту

Всі методи математико-статистичного аналізу умовно діляться на первинні і вторинні. Первинними називають методи, за допомогою яких можна отримати показники, безпосередньо відображають результати вироблених в експерименті вимірювань. Відповідно під первинними статистичними показниками маються на увазі ті, які застосовуються в самих психодіагностичних методиках і є підсумком початкової статистичної обробки результатів психодіагностики. Вторинними називаються методи статистичної обробки, за допомогою яких на базі первинних даних виявляють приховані в них статистичні закономірності.

До первинних методів статистичної обробки відносять, наприклад, визначення вибіркової середньої величини, вибіркової дисперсії, вибіркової моди і вибіркової медіани. У число вторинних методів зазвичай включають кореляційний аналіз, регресійний аналіз, методи порівняння первинних статистик у двох або декількох вибірок.

Розглянемо методи обчислення елементарних математичних статистик.

модоюназивають кількісне значення досліджуваної ознаки, найбільш часто зустрічається у вибірці.

медианойназивається значення досліджуваного ознаки, яке ділить вибірку, впорядковану за величиною цього показника, навпіл.

вибіркове середнє(Середнє арифметичне) значення як статистичний показник являє собою середню оцінку досліджуваного в експерименті психологічного якості.

розкид(Іноді цю величину називають розмахом) вибірки позначається буквою R. Це найпростіший показник, який можна отримати для вибірки - різниця між максимальною і мінімальною величинами даного конкретного варіаційного ряду.

дисперсія- це середнє арифметичне квадратів відхилень значень змінної від її середнього значення.

2. Методи вторинної статистичної обробки результатів експерименту

За допомогою вторинних методів статистичної обробки експериментальних даних безпосередньо перевіряються, доводяться або спростовуються гіпотези, пов'язані з експериментом. Ці методи, як правило, складніше, ніж методи первинної статистичної обробки, і вимагають від дослідника хорошої підготовки в області елементарної математики і статистики.

Обговорювану групу методів можна розділити на кілька підгруп:

1 регресійне обчислення

Регресійне обчислення - це метод математичної статистики, що дозволяє звести приватні, розрізнені дані до деякого лінійному графіку, приблизно відбиває їх внутрішню взаємозв'язок, і отримати можливість за значенням однієї з змінних приблизно оцінювати ймовірне значення іншої змінної.

2.Корреляція

Наступний метод вторинної статистичної обробки, за допомогою якого з'ясовується зв'язок або пряма залежність між двома рядами експериментальних даних, носить назву метод кореляцій. Він показує, яким чином одне явище впливає на інше або пов'язане з ним у своїй динаміці. Такі залежності існують, наприклад, між величинами, які у причинно-наслідкових зв'язках один з одним. Якщо з'ясовується, що два явища статистично достовірно корелюють один з одним і якщо при цьому є впевненість в тому, що одне з них може виступати в якості причини іншого явища, то звідси виразно випливає висновок про наявність між ними причинно-наслідкового залежності.

3 Аналіз

Факторний аналіз - статистичний метод, який використовується при обробці великих масивів експериментальних даних. Завданнями факторного аналізу є: скорочення числа змінних (редукція даних) і визначення структури взаємозв'язків між змінними, тобто класифікація змінних, тому факторний аналіз використовується як метод скорочення даних або як метод структурної класифікації.

Питання для повторення

1. Що таке методи статистичної обробки?

2.На які підгрупи ділять вторинні методи статистичної обробки?

3. Поясніть сутність методу кореляції?

4.У яких випадках застосовують методи статистичної обробки?

5. Як Ви вважаєте, наскільки ефективним є застосування методів статистичної обробки в науковому дослідженні?

2.Рассмотреть особливості методів статистичної обробки даних.

література

1 .. Горбатов Д.С. Практикум із психологічного дослідження: Учеб. посібник. - Самара: "БАХРАХ - М", 2003. - 272 с.

2. Єрмолаєв О.Ю. Математична статистика для психологів. - М .: Московський психолого-соціальний інститут: Флінта, 2003.336с.

3. Корнілова Т.В. Введення в психологічний експеримент. Підручник для ВНЗ. М .: Изд-во ЧеРо, 2001..

Лабораторна робота №3. Статистична обробка даних в системі MatLab

Загальна постановка задачі

Основною метою виконання лабораторної роботи є ознайомлення з основами роботи зі статистичною обробкою даних в середовищі MatLAB.

Теоретична частина

Первинна статистична обробка даних

Статистична обробка даних грунтується на первинних і вторинних кількісних методах. Мета первинної обробки статистичних даних є структурування отриманих відомостей, що припускає угруповання даних в зведені таблиці за різними параметрами. Первинні даних повинні бути представлені в такому форматі, щоб людина змогла провести наближену оцінку отриманої сукупності даних і виявити інформацію про розподіл даних отриманої вибірки даних, наприклад, однорідність або компактність даних. Після первинного аналізу даних застосовуються методи вторинної статистичної обробки даних, на підставі яких визначаються статистичні закономірності в наявному наборі даних.

Проведення первинного статистичного аналізу над масивом даних дозволяє отримати знання про наступне:

Яке значення найбільш характерно для вибірки? Для відповіді на це питання визначаються заходи центральної тенденції.

Чи великий розкид даних щодо цього характерного значення, т. Е. Яка «розмитість» даних? В даному випадку визначаються заходи мінливості.

Варто відзначити той факт, що статистичні показники заходи центральної тенденції і ізменчівостіопределяются тільки на кількісних даних.

Заходи центральної тенденції- група величин, навколо яких групуються інші данние.Такім чином, заходи центральної тенденції узагальнюють масив даних, що уможливлює формування умовиводів як про вибірку в цілому, так і проведення порівняльного аналізу різних вибірок один з одним.

Припустимо є вибірка даних, тоді заходи центральної тенденції оцінюються наступними показниками:

1. вибіркове середнє- це результат ділення суми всіх значень вибірки на їх колічество.Определяется за формулою (3.1).

(3.1)

де - i-й елемент вибірки;

n- кількість елементів вибірки.

Вибіркове середнє дозволяє отримати найбільшу точність у процесі оцінки центральної тенденції.

Припустимо є вибірка з 20 чоловік. Елементами вибірки є відомості про повну загальну середню щомісячному доході кожної людини. Припустимо, що 19 осіб мають середній щомісячний дохід в 20 т.р. та 1 особу з доходом в 300 т.р. Сумарний щомісячний дохід всієї вибірки становить 680 т.р. Вибіркове середнє в даному випадку S = 34.


2. медіана- формує значення, вище і нижче якого кількість відмінних значень однаково, т. Е. Це центральне значення в послідовному ряду даних. Визначається в залежності парності / непарності кількості елементів вибірці за формулами (3.2) або (3.3) .Алгорітм оцінки медіани для вибірки даних:

Насамперед дані ранжуються (упорядковуються) по спадаючій / зростанню.

Якщо в упорядкованій вибірці непарне число елементів, то медіана збігається з центральним значенням.

(3.2)

де n

У разі парного числа елементів медіана визначається як як середнє арифметичне двох центральних значень.

(3.3)

де - середній елемент впорядкованої вибірки;

- елемент впорядкованої вибірки наступний за;

Кількість елементів вибірки.

У тому випадку, якщо всі елементи вибірки різні, то рівно половина елементів вибірки більше медіани, а інша половина менше. Наприклад, для вибірки (1, 5, 9, 15, 16) медіана збігається з елементом 9.

У статистичному аналізі даних медіана дозволяє визначити елементи вибірки, які сильно впливають на значення вибіркового середнього.

Припустимо є вибірка з 20 чоловік. Елементами вибірки є відомості про повну загальну середню щомісячному доході кожної людини. Припустимо, що 19 осіб мають середній щомісячний дохід в 20 т.р. та 1 особу з доходом в 300 т.р. Сумарний щомісячний дохід всієї вибірки становить 680 т.р. Медіана, після упорядкування вибірки, визначається як середньоарифметичне десятого і одинадцятого елементів вибірки) і дорівнює Ме = 20 т.р. Даний результат інтерпретується наступним чином: медіана ділить вибірку на дві групи, таким чином, що можна зробити висновок про те, що в першій групі у кожної людини середній щомісячний дохід не більше 20 т.р., а в другій групі не менше 20 т. р. В даному прикладі можна говорити про те, що медіана характеризується тим, скільки заробляє «середній» людина. У той час як значення вибіркового середнього значно перевищено S = 34, що вказує на неприйнятність даної характеристики при оцінці середнього заробітку.

Таким чином, чим більше розходження між медіаною і вибірковим середнім, тим більший розкид даних вибірки (в розглянутому прикладі, людина з заробітком в 300 т.р. явно відрізняється від середньостатистичних людей конкретної вибірки і робить істотний вплив на оцінку середнього доходу). Що робити з подібними елементами вирішується в кожному індивідуальному випадку. Але в загальному випадку для забезпечення достовірності вибірки вони вилучаються, так як роблять сильний вплив на оцінку статистичних показників.

3. Мода (Мо)- формує значення, найбільш часто зустрічається у вибірці, т. Е. Значення з найбільшою частотой.Алгорітм оцінки моди:

У тому випадку, коли вибірка містить елементи, що зустрічаються однаково часто, то кажуть, що мода в подібній вибірці відсутня.

Якщо два сусідні елементи вибірки мають однакову частоту, що є більше частоти інших елементів вибірки, то мода визначається як середнє цих двох значень.

Якщо два елементи вибірки мають однакову частоту, що є більше частоти інших елементів вибірки, і при цьому дані елементи не є сусідніми, то кажуть, що в даній вибірці дві моди.

Мода в статистичному аналізі використовується в ситуаціях, коли необхідно проведення швидкої оцінки заходів центральної тенденції і не потрібна висока точність. Наприклад, моду (за показником розмір або бренд) зручно застосовувати для визначення одягу і взуття, яка користується найбільшим попитом у покупців.

Заходи розкиду (мінливості)- група статистичних показників, що характеризують відмінності між окремими значеннями вибірки. Грунтуючись на показниках заходів розкиду можна оцінювати ступінь однорідності і компактності елементів вибірки. Заходи розкиду, характеризуються наступним набором показників:

1. розмах -це інтервал між максимальним і мінімальним значеннями результатів спостережень (елементів вибірки). Показник розмаху вказує на розкид значень в сукупності даних. Якщо розмах великий, то значення в сукупності сильно розкидані, в іншому випадку (розмах невеликий) говориться про те, що значення в сукупності лежать близько один до одного. Розмах визначається за формулою (3.4).

(3.4)

де - максимальний елемент вибірки;

- мінімальний елемент вибірки.

2.середнє відхилення- середньоарифметична різниця (по абсолютній величині) між кожним значенням у вибірці і її вибірковим середнім. Середнє відхилення визначається за формулою (3.5).

(3.5)

де - i-й елемент вибірки;

Значення вибіркового середнього, розраховане за формулою (3.1);

Кількість елементів вибірки.

модуль необхідний у зв'язку з тим, що відхилення від середнього по кожному конкретному елементу можуть бути як позитивними так і негативними. Отже, якщо не взяти модуль, то сума всіх відхилень буде близька до нуля і неможливо буде судити про ступінь мінливості даних (скупченості даних навколо вибіркового середнього). При проведенні статистичного аналізу можуть бути взяті мода і медіана замість вибіркового середнього.

3. дисперсія- міра розсіювання, що описує порівняльне відхилення між значеннями даних і середньою величиною. Обчислюється як сума квадратів відхилень кожного елемента вибірки від середньої величини. Залежно від розміру вибірки дисперсія оцінюється різними способами:

Для великих вибірок (n> 30) за формулою (3.6)

(3.6)

Для малих вибірок (n<30) по формуле (3.7)

(3.7)

де X i - i-й елемент вибірки;

S - середнє значення вибірки;

Кількість елементів вибірки;

(X i - S) - відхилення від середньої величини для кожного значення набору даних.

4. Стандартне відхилення-заходи того, наскільки широко розкидані точки даних відносно свого середнього.

Процес зведення в квадрат окремих отклоненійпрі обчисленні дисперсії підсилює ступінь відхилення отриманої величини відхилення від початкових відхилень, що в свою чергу вносить додаткові похибки. Таким чином, з метою наближення оцінки розкиду точок даних щодо їх середнього до значення середнього відхилення, з дисперсії витягають квадратний корінь. Витягнутий корінь з дисперсії характеризує міру коливання, іменовану среднеквадратическим або стандартним відхиленням (3.8).

(3.8)

Припустимо ви керівник проекту з розробки програмного забезпечення. У вас в підпорядкуванні п'ять програмістів. Керуючи процесом виконання проекту, ви розподіляєте завдання між програмістами. Для простоти прикладу будемо виходити з того факту, що завдання рівнозначні по складності і часу виконання. Ви вирішили проаналізувати роботу кожного програміста (число виконаних завдань протягом тижня) за останні 10 тижнів, в результаті чого вами отримані наступні вибірки:

тиждень ПІБ

Провівши оцінку середнього числа виконаних завдань, ви отримали такий результат:

тиждень ПІБ S
22,3
22,4
22,2
22,1
22,5

Виходячи з показника S все програмісти в середньому працюють з однаковою ефективністю (близько 22 завдань в тиждень). Однак, показник варіабельності (розмах) дуже високий (від 5 завдань четвертого програміста до 24 завдань у п'ятого).

тиждень ПІБ S P
22,3
22,4
22,2
22,1
22,5

Оцінимо стандартне відхилення, що показує як розподілені значення в вибірках щодо середнього, а саме в нашому випадку оцінити на скільки великий розкид виконання завдань від тижня до тижня.

тиждень ПІБ S P SO
22,3 1,56
22,4 1,8
22,2 2,84
22,1 1,3
22,5 5,3

Отримана оцінка стандартного відхилення говорить про наступне (оцінимо два крайніх випадки 4 і 5 програмісти):

Кожне значення у вибірці 4 програміста в середньому відхиляється на 1,3 завдання від середнього значення.

Кожне значення у вибірці 5 програміста в середньому відхиляється на 5,3 завдання від середнього значення.

Чим ближче стандартне відхилення до 0, тим надійніше середнє, так як це вказує на те, що кожне значення вибірки практично дорівнює середньому (в нашому прикладі це 22,5 завдання). Отже, 4 програміст найбільш послідовний на відміну від 5-го. Варіабельність виконання завдань від тижня до тижня 5-го програміста становить 5,3 завдання, що говорить про значне розкид. У випадку з 5-м програмістом не можна довіряти середньому, а, отже, важко спрогнозувати число виконаних завдань на наступний тиждень, що в свою чергу ускладнює процедуру планування та дотримання графіків виконання робіт. Яке управлінське рішення ви приймете в даному курсі неважливо. Важливо, що ви отримали оцінку, на підставі якої можна прийняти відповідні управлінські рішення.

Таким чином, можна сделатьобщій висновок, що говорить про те, що середнє значення не завжди правильно оцінює дані. Про коректності оцінки середнього можна судити за значенням стандартного відхилення.