Статистические характеристики. Аналитический анализ. Основные статистические характеристики ряда измерений Статистические характеристики результатов наблюдений

Класс: 7

Презентация к уроку

















Назад Вперёд

Внимание! Предварительный просмотр слайдов используется исключительно в ознакомительных целях и может не давать представления о всех возможностях презентации. Если вас заинтересовала данная работа, пожалуйста, загрузите полную версию.

Цели:

  • познакомить с основными статистическими характеристиками (средним арифметическим, размахом, модой ряда);
  • учить находить среднее арифметическое, размах, моду ряда;
  • способствовать развитию внимания, логического мышления, наблюдательности учащихся;
  • способствовать формированию экономически осознанного отношения к окружающему миру.

Материальное обеспечение:
мультимедийный проектор, карточки для проведения самостоятельной работы.
ХОД УРОКА
1. Домашнее задание: п.9, №№ 168, 172, 178 (учебник «Алгебра. 7класс» под редакцией С. А. Теляковского, Москва «Просвещение», 2009 год)

2. Сообщение темы урока.

2.1. Разгадывание кроссворда:

  1. Результат действия сложения (сумма) .
  2. Равенство, верное при любых значениях переменной (тождество) .
  3. Координата точки по оси Ох (абсцисса) .
  4. Утверждение, требующее доказательства (теорема) .
  5. Неизвестный элемент, который требуется найти (искомое) .
  6. Компонент действия сложения (слагаемое) .
  7. Простейшая геометрическая фигура (точка) .
  8. Компьютер – это инструмент для хранения, обработки и передачи … (информации) .
  9. Прямоугольный параллелепипед, у которого все измерения равны (куб) .
  10. Установленный порядок действий (алгоритм) .

2.2. – Прочитайте слово, образованное первыми буквами разгаданных слов. (Статистика)

– Как вы думаете, чем занимается статистика?
Статистика – это наука, которая занимается получением, обработкой и анализом количественных данных о разнообразных явлениях, происходящих в природе и обществе. (Слайд 2)
Экономическая статистика изучает изменение цен, спроса и предложения на товары, прогнозирует спрос и падение производства и потребления.
Медицинская статистика изучает эффективность различных лекарств и методов лечения, вероятность возникновения некоторого заболевания в зависимости от возраста, пола, наследственности, условий жизни, вредных привычек, прогнозирует распространение эпидемий.
Демографическая статистика изучает рождаемость, численность населения, его состав (возрастной, национальный, профессиональный).
А ещё есть статистика финансовая, налоговая, биологическая, метеорологическая и т.д.
Для обработки информации существуют определённые методы. (Слайд 3)
Раздел математики, посвящённый методам и правилам обработки и анализа статистических данных, называется математической статистикой. (Слайд 4)

2.3. Сообщение темы урока.

– Сегодня мы будем знакомиться с некоторыми статистическими характеристиками, будем учиться их определять. (Слайд 5).

3. Изучение нового материала.

3.1. – Рассмотрим данные о производстве пшеницы в России в период с 1995 года по 2001 год. (Слайд 6)

1995 г. – 30,1 млн. тонн;
1996 г. – 34,9 млн. тонн;
1997 г. – 44,3 млн. тонн;
1998 г. – 27 млн. тонн;
1999 г. – 31 млн. тонн;
2000 г. – 34,5 млн. тонн;
2001 г. – 47 млн. тонн.

– Как видим, производство пшеницы в разные годы различается. Как вы думаете, почему?
– Да, оно зависит от погодных условий, площади посева, качества семян и других обстоятельств. Поэтому производство пшеницы за 1 год не даёт полного представления об уровне производства пшеницы в стране. Для этой цели лучше использовать среднее значение за ряд лет. По данным таблицы мы можем вычислить среднее производство пшеницы за 7 лет. Как это можно сделать?
(30,1 + 34,9 + 44,3 + 27 + 31 + 34,5 + 47) : 7 = 35,5 (Слайд 7)
– Что мы нашли? (Среднее арифметическое)
– Среднее арифметическое является одной из статистической характеристик ряда чисел. Запишите определение этого понятия в тетрадь. (Слайд 8)
Средним арифметическим ряда чисел называется частное от деления суммы этих чисел на их количество.
– В каком году производство пшеницы было ближе всего к среднему значению? (в 1996 году)

3.2. Выполните задания (слайд 9) :

1) Вычислите среднее арифметическое чисел 6, 10, 16 и 20. (6 + 10 + 16 + 20) : 4 = 52: 4 = 13
2) Все числа равны между собой. Чему рано их среднее арифметическое? (Самому этому числу.)
3) Может ли среднее арифметическое не совпадать ни с одним из чисел данного ряда? (Да)
4) Придумайте три числа, среднее арифметическое которых совпадает со вторым по величине числом.

3.3. В одном из седьмых классов измерили рост мальчиков. Получили такие данные:
155 см, 167 см, 159 см, 168 см, 161 см, 170 см, 162 см, 153 см, 165 см. (Слайд 10) Найдите среднее арифметическое этого ряда чисел.
(155 + 167 + 159 + 168 + 161 + 170 + 162 + 153 + 165) : 9 = 1460: 9 = 162,(2) = 162
– Какой рост имеет самый высокий мальчик из этого класса? (170 см)
– Самый низкий мальчик? (153 см)
– Найдите разницу в росте ребят?
170 – 153 = 17 (см)
Разность между наибольшим и наименьшим значениями ряда данных называется размахом ряда и также является одной из статистических характеристик. (Слайд 11)
– Запишите определение в тетрадь.

3.4. Петя и Вася поспорили, кто лучше прыгает в длину с места. Чтобы избежать случайности, они решили, что будут прыгать по очереди 5 раз. (Слайд 12) Результаты своих прыжков они записали в таблицу (слайд 13) :

Номер прыжка

– Какую статистическую характеристику каждого ряда надо определить, чтобы выяснить, кто из ребят прыгает дальше? (Среднее арифметическое)
– Выясните это.

Петя: (190 + 205 + 195 + 210 + 210) : 5 = (190 + 400 + 420) : 5 = 1010: 5 = 202 (см)
Вася: (185 + 200 + 215 + 190 + 190) : 5 = (600 + 380) : 5 = 980: 5 = 196 (см)

Вывод: Петя прыгает дальше, чем Вася.
– Найдите по данной таблице разность между лучшим и худшим результатом каждого мальчика (размах ряда).
Петя: 210 – 190 = 20 (см); Вася: 215 – 185 = 30 (см)
– Можно ли утверждать, что Петя прыгает стабильнее? (Да)

3.5. В одном из седьмых классов решили выяснить, обувь какого размера носят девочки этого класса. (Слайд 14) Получили такие результаты:

35, 39, 37, 36, 38, 37, 38, 36, 37, 37, 38, 37, 37.

– Какой размер обуви встречается чаще всего? (37)
Число ряда, которое встречается в данном ряду наиболее часто, называется модой ряда . (Слайд 15)
– Запишите это определение в тетрадь.

3.6. (Слайд 16)

1) Любой ли ряд чисел имеет моду? (Нет)
2) Может ли ряд чисел иметь более одной моды? (Да)
3) Может ли мода ряда чисел не совпадать ни с одним из этих чисел? (Нет)

3.7. (Слайд 17)

Дан числовой ряд: 7, 8, 9, 7, 7, 6, 7, 6, 9, 7. Найдите среднее арифметическое, моду и размах этого ряда.
Среднее арифметическое: (7 + 8 + 9 + 7 + 7 + 6 + 7 + 6 + 9 + 7) : 10 = 73: 10 = 7,3.
Мода: 7.
Размах: 9 – 6 = 3.

4. Самостоятельная работа

Вариант 1.

  1. Найдите среднее арифметическое ряда чисел: 18, 11, 20, 19, 2, 10.
  2. Определите моду ряда чисел: 12, 13, 13, 15, 19, 13, 12, 14, 12, 14, 13.
  3. Вычислите размах ряда чисел: 31, 14, 25, 18, 29, 11, 16.
  4. Найдите среднее арифметическое, размах и моду ряда чисел: 21, 21, 21, 21, 21, 21, 21.
  5. В течение четверти Лена получила по алгебре такие оценки: три двойки, две тройки, четыре четвёрки и одну пятёрку. Какую статистическую характеристику Лена предпочла бы при выставлении четвертной оценки: среднее арифметическое, размах или моду ряда?

Вариант 2.

  1. Найдите среднее арифметическое ряда чисел: 21, 5, 18, 19, 15, 12.
  2. Определите моду ряда чисел: 18, 17, 17, 15, 11, 17, 18, 16, 18, 16, 17.
  3. Вычислите размах ряда чисел: 29, 16, 25, 12, 19, 11, 14.
  4. Найдите среднее арифметическое, размах и моду ряда чисел: 15, 15, 15, 15, 15, 15, 15.
  5. В течение четверти Лена получила по алгебре такие оценки: две двойки, три тройки, шесть четвёрок и две пятёрки. Какую статистическую характеристику Лена предпочла бы при выставлении четвертной оценки: среднее арифметическое, размах или моду ряда?

5. Подведение итогов урока. (Слайд 18)

1) С какими статистическими характеристиками мы познакомились на уроке?
2) Как найти среднее арифметическое ряда чисел?
3) Как находится размах ряда чисел?
4) Что показывает мода ряда чисел?

Использованная литература:

  1. Учебник «Алгебра. 7класс» под редакцией С. А. Теляковского, Москва «Просвещение», 2009 год;
  2. Ю. Н. Тюрин, А. А. Макаров, И. Р. Высоцкий, И. В. Ященко «Теория вероятностей и статистика», МЦНМО АО «Московские учебники», Москва, 2004 год;
  3. Г. Н. Иванова , www.openklass.ru ;
  4. «Математическая статистика»; kl10sch55.narod.ru;
  5. s21.my1.ru/metodi/tema uroka stat kharak 7 klass.doc

Отчет по лабораторным работам

по предмету «Методы и средства статистической обработки данных»

Выполнила: Галимова А.Р., гр. 4195

Проверил: Мокшин В.В.

Казань, 2013

1. Индивидуальное задание. 3

2. Планирование экспериментов. 4

2.1. Стратегическое планирование. 4

2.1.1. D - оптимальные планы.. 5

3. Основные статистические характеристики ИСД. 8

4. Оценка нормальности ИСД. 9

5. Временное прогнозирование. 13

6. Корреляционный анализ. 15

7. Кластерный анализ. 16

8. Факторный анализ. 22

9. Регрессионный анализ. 27

10. Дисперсионный анализ. 35

11. Оптимизация значений факторов и результативных показателей эффективности. 35

Выводы.. 36

Приложение. 37

Индивидуальное задание

BUF1 – на 3 места;

BUF2 − неограниченное количество мест;

GOT − экспоненциальный закон, среднее 20000 единиц времени;

VOSSТ −спец. эрл.закон, среднее в одной фазе 25 ед. вр., кол. фаз 3;

GT− равномерный закон, 225±25 единиц времени;

РК1 – экспоненциальный закон, среднее Х1=100 ед. времени;

РК2− нормальный закон, среднее Х2=90, ст. откл. 8 ед. вр.;

KAN1-KANМ– равномерный закон, 75±15 единиц времени;

Х3=М – количество каналов.

Выбор KANала для передачи по наименьшему количеству задач, по которым передана информация. Режим недоступности накладывается и снимается по KANалам независимо друг от друга.

Завершить моделирование после вывода из системы 300 задач (решённых плюс отказы).

Оптимизируемые факторы: Х1 – среднее время решения на ПК1, Х2 – среднее время решения на ПК2, Х3 – количество каналов. Х1 и Х2 менять на ±20% от указанных средних значений; Х3 от 2 до 6.

Построим модель в системе Arena

Рис.1 – Имитационная модель, построенная в системе моделирования Arena

Планирование экспериментов

Цель планирования – получить результаты с заданной достоверностью при наименьших затратах. Различают стратегическое и тактическое планирование.

Стратегическое планирование

Для стратегического планирования будем использовать концепцию «черного ящика», суть которого – абстрагирование от физической сущности процессов, происходящих в моделируемой системе и выдаче заключений о ее функционировании только на основании входных и выходных переменных. Входные, независимые переменные называются факторами. Выходные – откликами, их величина зависит от значений факторов и параметров ОИ.

Факторы в нашем случае – это показатели (параметры), которые мы будем оптимизировать; отклики – это результативные показатели эффективности функционирования моделируемой системы. Структурная схема чёрного ящика представлена на Рисунке 1.

Рис.1 Структурная схема концепции чёрного ящика

Планы второго порядка позволяют сформировать функцию отклика в виде полного квадратичного полинома, который содержит большее число членов, чем неполный квадратичный полином, сформированный по планам первого порядка, и поэтому требует большего числа выполняемых опытов. Полный квадратичный полином при m=3 имеет вид:

D - оптимальные планы

В D -оптимальных планах значения факторов не выходят за установленные границы диапазонов их изменения. Кроме того, они обладают еще одним существенным достоинством, обеспечивая минимальную ошибку во всем принятом диапазоне изменения факторов. На практике наиболее часто применяются планы Коно и планы Кифера.

Рис. 2 Геометрическая интерпретация трехфакторного плана Кифера на кубе

Стратегический план определяет количество вариантов системы, которые требуется промоделировать, и значения факторов в каждом варианте. Для 3-х оптимизируемых факторов предлагается D-оптимальный план по алгоритму Кифера, который состоит из 26 вариантов и представлен в Таблице 1.

Таблица 1 – План Кифера для 3-х факторного эксперимента

x 1 x 2 x 3 x 1 x 2 x 1 x 3 x 2 x 3 x 1 x 2 x 3 x 4 x 5 x 6
-1 -1 -1 -1 -1
-1 -1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1
-1 -1
-1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1
-1 -1
-1 -1 -1 -1

Здесь: ; ;

Вычисляем значения X 1 , X 2 , X 3 по индивидуальному заданию. По условию индивидуального задания оптимизируемые факторы: Х1 – среднее время решения на ПК1, Х2 – среднее время решения на ПК2, Х3 – количество каналов. Х1 и Х2 менять на ±20% от указанных средних значений; Х3 от 2 до 6.

На PK1 условие экспоненциального закона, среднее 100 ед.времени, следовательно значение 0 - 100, 1-120, -1 -80 (так как меняем на ±20% от указанного среднего значения.

РК2 подчиняется по условию задания нормальному закону и среднее значение 90 ед. времени и модификатором ±20 ед.времени, следовательно 0-90, 1 – 108, -1-72. Все данные заносим Таблицу 2.

Таблица 1 - Данные для факторов X 1 , X 2 , X 3

-1
х1
х2
х3

Y 1 –Коэффициент использования ПК1 (0÷1)*100%;

Y 2 - Коэффициент использования ПК2 (0÷1)*100%;

Y 3 –Среднее общее время выполнения задач.

D-оптимальный план по алгоритму Кифера для индивидуального задания и Отклики Y 1 ,Y 2 ,Y 3 по факторам индивидуального задания, представлены в Таблице 3.

Таблица 2 - D-оптимальный план по алгоритму Кифера (для индивид.зад.)

x 1 x 2 x 3 x 1 x 2 x 1 x 3 x 2 x 3 x 1 x 2 x 3 x 4 x 5 x 6

Таблица 4 - Отклики Y 1 , Y 2 ,Y 3

Y 1 Y 2 Y 3
32,24 30,41 309,16
36,41 28,81 322,98
43,54 26,95 322,92
32,23 38,00 326,79
36,42 36,00 339,98
43,54 33,75 338,75
32,22 45,6 344,71
36,44 43,18 357,16
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,82 310,97
43,54 26,95 322,91
32,23 38,00 326,79
36,42 36,01 327,97
32,22 45,59 344,70
36,44 43,19 345,15
43,54 40,56 354,91
32,24 30,41 309,16
36,41 28,77 314,34
43,54 26,95 322,91
32,23 38,00 326,79
36,42 35,96 331,34
43,54 33,75 338,75
32,22 45,59 344,70
36,44 43,14 348,51
43,54 40,56 354,91

Основные статистические характеристики ИСД.

Основными статистическими характеристиками являются:

1. Valid N - объем выборки;

2. Mean- среднее арифметическое. Среднее значение случайной величины представляет собой наиболее типичное, наиболее вероятное ее значение, своеобразный центр, вокруг которого разбросаны все значения признака.

3. Median– медиана. Медианой является такое значение случайной величины,которое разделяет все случаи выборки на две равные почисленности части.

4. StandardDeviation- стандартное отклонение. Стандартное отклонение (или среднее квадратическое отклонение) является мерой изменчивости (вариации) признака. Оно показывает на какую величину в среднем отклоняются случаи от среднего значения признака.

5. Variance– дисперсия. Дисперсия является мерой изменчивости, вариации признака и представляет собой средний квадрат отклонений случаев от среднего значения признака. В отличии от других показателей вариации дисперсия может быть разложена на составные части, что позволяет тем самым оценить влияние различных факторов на вариацию признака.

6. Standard error of mean –стандартнаяошибкасреднего. Стандартная ошибка среднего - это величина, на которую отличается среднее значение выборки от среднего значения генеральной совокупности при условии, что распределение близко к нормальному.

7. 95% confidencelimitsofmean- 95%-ый доверительный интервал для среднего. Интервал, в который с вероятностью 0,95 попадает среднее значение признака генеральной совокупности.

8. Minimum, maximum- минимальное и максимальное значения.

9. Skewness–асимметрия. Асимметрия характеризует степень смещения вариационного ряда относительно среднего значения по величине и направлению.

10. Standard error of Skewness–стандартнаяошибкаасимметрии.

11. Kurtosis– эксцесс. Эксцесс характеризует степень концентрации случаев вокруг среднего значения и является своеобразной мерой крутости кривой.

12. Standard error of Kurtosis –стандартнаяошибкаэксцесса.

Таблица 5 - Результаты описательной статистики


Оценка нормальности ИСД.

Нормальный закон является наиболее употребительным. Он применяется для представления самых различных случайных процессов, таких, как продолжительность жизни людей, изменения экономических и технических показателей.

Выскажем гипотезу, что исходные статистические данные подчинены нормальному закону, и в качестве параметров нормального закона примем оценки математического ожидания и среднего квадратического отклонения, вычисленные по формулам.

Функция плотности нормального закона имеет вид:

; .

Если коэффициент доверия P к предположению о нормальности эмпирического распределения, который можно найти по статистическим таблицам, не меньше 0,20, то предположение о нормальности не отвергается. Если Р к <0,20, то предположение о нормальности рекомендуется отвергнуть.

Соответствие эмпирического и гипотетического распределений можно визуально проследить по графикам. При использовании критерия согласия Колмогорова предпочтительнее использовать функции распределения. Такие графики строятся и выдаются в специальных программных процедурах ППП Statistica 6.0 и Excel 2007 , на которые производится ориентация вычислений по излагаемому математическому аппарату. Представим распределение переменных на гистограммах (рис.3.-рис.8.).

На гистограммах наложена плотность нормального распределения, для проверки близости распределения к нормальному виду при помощи критерия Колмогорова-Смирнова.


Похожая информация.


Предварительная информация по МЕТОДАМ ОБРАБОТКИ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА

ПОДГОТОВКА ПЕРВИЧНЫХ ДАННЫХ К АНАЛИЗУ

Наблюдая и измеряя характеристики объекта, экспериментатор собирает первичный статистический материал. Дальнейшая задача состоит в такой обработке и представлении первичных данных, которые позволили бы оценить и сопоставить результаты для проверки гипотез, для выявления существенных свойств и закономерностей изучаемого процесса. В основе методов обработки лежит предварительное упорядочение, cиcтeмaтизaция первичных данных и вычисление их статистических характеристик.

Обобщенный алгоритм подготовки данных может быть представлен следующим операциями:
а) все данные формулируются и записываются в необходимой краткой форме;
б) проводится группировка данных, то есть распределение их на однородные группы в соответствии с интересующими экспериментатора признаками. Данные в каждой группе упорядочиваются - классифицируются, сортируются, структурируются в соответствии с той моделью, которая разрабатывалась при составлении плана-программы устанавливаются характеристики (признаки, параметры каждой группы данных и производится подсчет абсолютного числа факторов, характеризующих группуг) данные внутри каждой сформированной группы располагаются в ряд (вариационный ряд) по убыванию или возрастанию признака. Определяется наибольшее и наименьшее значения признака;
д) вариационные ряды данных, полученных в номинальной или порядковой шкале, ранжируются. Интервалы группировки по рангам выбираются оптимальными (слишком крупные интервалы скрывают нюансы явлений, слишком дробные - затрудняют o6pаботку). В результате этой операции появляются новые количественные данные;
е) проводится статистическая обработка полученных количественных данных, заключающаяся в вычислении некоторых статистических характероистик и оценок, позволяющих глубже понять особенности экспериментальных явлений;
ж) составляются наглядные материалы, отображающие полученную информацию: таблицы, графики, диаграммы, схемы и др., по которым в дальнейшем устанавливаются и анализируются связи между параметрами экспериментальных объектов.

СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ

Экспериментатору необходимо знание ряда простейших понятий математической статистики и умение с ними работать.
Все множество интересующих исследователя однородных явлений, событий или их показателей называется генеральной совокупностью данных объектов. Та часть последней, которая подвергается экспериментальному изучению, называется выборочными совокупностью или выборкой.
Величина (объем) выборки представляет собой абсолютное (счетное) количество однородных объектов исследования (явлений, событий или их характеристик).
Выборка характеризуется рядом статистических характеристик, наиболее употребительными из которых являются: среднее арифметическое значение, дисперсия, среднее квадратичное отклонение среднего арифметического.

Среднее значение данного показателя выборочной совокупности (арифметическое среднее, выборочное среднее ) - это отношение суммы всех измеренных значений показателя к величине выборки.

Если в выборке есть повторяющиеся значения, то составляется таблица сгруппированных данных, следующего вида:

Тогда = , где n= .

Среднее значение недостаточно полно характеризует выборку; за ним скрывается “поведение” самого показателя явления-“разброс”, различное распределение его значений около среднего (так называемая “функция распределения”).

Выборочной дисперсией (s 2) статистического показателя называется среднее значение квадратов отклонений отдельных его значений от среднего выборочного; дисперсия определяется по формуле:

S 2 = (2)

Для сгруппированных данных S 2 = .

Выборочнымсредним квадратическим отклонением называется корень квадратный из выборочной дисперсии.

Выборочные дисперсия и среднее квадратичное отклонение играют большую роль при определении степени достоверности результатов.
Генеральная совокупность также обладает всеми вышеперечисленными статистическими характеристиками, которые в общем случае не совпадают с характеристиками выборки. Для эксперимента особое значение, имеет оценка той ошибки, которая допускается, если по выборочным характеристикам судить о генеральной совокупности.
В практике вычислений величина расхождения средних значений генеральной и выборочной совокупностей определяется средней квадратической ошибкой выборочного среднего, которая вычисляется по формуле

Мода - это наиболее часто встречающеесязначение в выборке. Мода применяется, например, при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является значение, обладающая наибольшей частотой.

Медиана - это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение признака приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то значение среднего в упорядоченном ряду будет медианой, порядковый номер медианы вычисляют по формуле:

(n + 1)/2,

в случае четного числа признаков медиана будет равна среднему арифметическому из двух признаков находящихся в середине ряда.

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения (средние характе­ристики, или центральная тенденция выборки ); характеристики рассеяния (ва­риации, или колеблемости ) и характеристики формы распределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение ), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости ) относятся: размах вариации , дисперсия , среднее квадратическое (стандартное ) отклонение , ошибка средней арифметической (ошибка средней ), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

Характеристики положения

Среднее арифметическое значение – одна из основных характеристик вы­борки.

Она, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных.

Точность вычисления по необработанным данным выше, но процесс вычисления оказывается трудоёмким при большом объёме выборки.

Для несгруппированных данных среднее арифметическое определяется по формуле:

где n - объем выборки, х 1 , х 2 , ... х n - результаты измерений.

Для сгруппированных данных:

где n - объем выборки, k – число интервалов группировки, n i – частоты интервалов, x i – срединные значения интервалов.

Мода

Определение 1. Мода - наиболее часто встречающаяся величина в данных вы­борки. Обозначается Мо и определяетсяпо формуле:

где - нижняя граница модального интервала, - ширина интервала группи­ровки, - частота модального интервала, - частота интервала, предшествую­щего модальному, - частота интервала, последующего за модаль­ным.

Определение 2. Модой Мо дискретной случайной величины называется наиболее вероятное её значение.

Геометрически моду можно интерпретировать как абсциссу точки максимума кривой распределения. Бывают двухмодальные и многомодальные распределения. Встречаются распределения, которые имеют минимум, но не имеют максимума. Такие распределения называются антимодальными .

Определение. Модальным интервалом называется интервал группировки с наибольшей частотой.

Медиана

Определение . Медиана - результат измерения, который находится в сере­дине ранжированного ряда, иначе говоря, медианой называется значение признака Х , когда одна половина значений экспериментальных данных меньше её, а вторая половина – больше, обозначается Ме .

Когда объем выборки n - четное число, т. е. результатов измерений четное количество, то для определения медианы рассчитывается среднее значение двух показателей выборки, находящихся в середине ранжированного ряда.

Для данных, сгруппированных в интервалы, медиану определяют по фор­муле:

,

где - нижняя граница медианного интервала; ширина интервала группи­ровки, 0,5n – половина объёма выборки, - частота медианного интервала, - накопленная частота интервала, предшествующего медианному.

Определение. Медианным интервалом называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n/ 2) или накопленная частость окажется больше 0,5.

Численные значения среднего, моды и медианы отличаются, когда имеет место несимметричная форма эмпирического распределения.

Характеристики рассеяния результатов измерений

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

s 2 = , (1)

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

Цель работы: научиться обрабатывать статистические данные в электронных таблицах с помощью встроенных функций; изучить возможности Пакета анализа в MS Excel 2010 и его некоторые инструменты: Генерация случайных чисел, Гистограмма, Описательная статистика.

Теоретическая часть

Очень часто для обработки данных, полученных в результате обследования большого числа объектов или явлений (статистических данных ), используются методы математической статистики.

Современная математическая статистика подразделяется на две обширные области: описательную и аналитическую статистику . Описательная статистика охватывает методы описания статистических данных, представления их в форме таблиц, распределений и пр.

Аналитическая статистика называется также теорией статистических выводов. Ее предметом является обработка данных, полученных в ходе эксперимента, и формулировка выводов, имеющих прикладное значение для самых различных областей человеческой деятельности

Полученный в результате обследования набор чисел называетсястатистической совокупностью.

Выборочной совокупностью (или выборкой ) называется совокупность случайно отобранных объектов. Генеральной совокупностью называется совокупность объектов, из которой производится выборка. Объемом совокупности (генеральной или выборочной) называется число объектов этой совокупности.

Для статистической обработки результаты исследования объектов представляют в виде чисел x 1 , x 2 , …, x k . Если значение x 1 наблюдалось n 1 раз, значение x 2 наблюдалось n 2 раз, и т.д., то наблюдаемые значения x i называются вариантами , а числа их повторений n i называются частотами . Процедура подсчета частот называется группировкой данных.

Объем выборки n равен сумме всех частот n i :

Относительной частотой значения x i называется отношение частоты этого значения n i к объему выборки n :

. (2)

Статистическим распределением частот (или просто распределением частот ) называется перечень вариант и соответствующих им частот, записанных в виде таблицы:

Распределением относительных частот называется перечень вариант и соответствующих им относительных частот.

1. Основные статистические характеристики.

Современные электронные таблицы имеют огромный набор средств для анализа статистических данных. Наиболее часто используемые статистические функции встраиваются в основное ядро программы, то есть эти функции доступны с момента запуска программы. Другие более специализированные функции входят в дополнительные подпрограммы. В частности, в Excel, такая подпрограмма называется Пакетом анализа. Команды и функции пакета анализа называют Инструментами анализа. Мы ограничимся изучением нескольких основных встроенных статистических функций и наиболее полезных инструментов анализа из пакета анализа в электронной таблице Excel.

Среднее значение.

Функция СРЗНАЧ вычисляет выборочное (или генеральное) среднее, то есть среднее арифметическое значение признака выборочной (или генеральной) совокупности. Аргументом функции СРЗНАЧ является набор чисел, как правило, задаваемый в виде интервала ячеек, например, =СРЗНАЧ (А3:А201).

Дисперсия и среднее квадратическое отклонение.

Для оценки разброса данных используются такие статистические характеристики, как дисперсия D и среднее квадратическое (или стандартное) отклонение . Стандартное отклонение есть квадратный корень из дисперсии:
. Большое стандартное отклонение указывает на то, что значения измерения сильно разбросаны относительно среднего, а малое – на то, что значения сосредоточены около среднего.

В Excel имеются функции, отдельно вычисляющие выборочную дисперсиюD в и стандартное отклонение в и генеральные дисперсиюD г и стандартное отклонение г. Поэтому, прежде чем вычислять дисперсию и стандартное отклонение, следует четко определиться, являются ли ваши данные генеральной совокупностью или выборочной. В зависимости от этого нужно использовать для расчетаD г и г,D в и в .

Для вычисления выборочной дисперсии D в и выборочного стандартного отклонения в имеются функции ДИСП) и СТАНДОТКЛОН. Аргументом этих функций является набор чисел, как правило, заданный диапазоном ячеек, например, =ДИСП (В1:В48).

Для вычисления генеральной дисперсии D г и генерального стандартного отклонения г имеются функции ДИСПР и СТАНДОТКЛОНП, соответственно.

Аргументы этих функций такие же как и для выборочной дисперсии.

Объем совокупности.

Объем совокупности выборочной или генеральной – это число элементов совокупности. Функция СЧЕТ определяет количество ячеек в заданном диапазоне, которые содержат числовые данные. Пустые ячейки или ячейки, содержащие текст, функция СЧЕТ пропускает. Аргументом функции СЧЕТ является интервал ячеек, например: =СЧЕТ (С2:С16).

Для определения количества непустых ячеек, независимо от их содержимого, используется функция СЧЕТ3. Ее аргументом является интервал ячеек.

Мода и медиана.

Мода – это значение признака, которое чаще других встречается в совокупности данных. Она вычисляется функцией МОДА. Ее аргументом является интервал ячеек с данными.

Медиана – это значение признака, которое разделяет совокупность на две равные по числу элементов части. Она вычисляется функцией МЕДИАНА. Ее аргументом является интервал ячеек.

Размах варьирования. Наибольшее и наименьшее значения.

Размах варьирования R – это разность между наибольшимx max и наименьшим x min значениями признака совокупности (генеральной или выборочной):R =x max –x min . Для нахождения наибольшего значенияx max имеется функция МАКС (или MAX), а для наименьшегоx min – функция МИН (или MIN). Их аргументом является интервал ячеек. Для того, чтобы вычислить размах варьирования данных в интервале ячеек, например, от А1 до А100, следует ввести формулу: =МАКС (А1:А100)-МИН (А1:А100).

Отклонение случайного распределения от нормального.

Нормально распределенные случайные величины широко распространены на практике, например, результаты измерения любой физической величины подчиняются нормальному закону распределения. Нормальным называется распределение вероятностей непрерывной случайной величины, которое описывается плотностью

,

где
дисперсия, - среднее значение случайной величины .

Для оценки отклонения распределения данных эксперимента от нормального распределения используются такие характеристики как асимметрия А и эксцессЕ . Для нормального распределенияА =0 иЕ =0.

Асимметрия показывает, на сколько распределение данных несимметрично относительно нормального распределения: если А >0, то большая часть данных имеет значения, превышающие среднее ; еслиА <0, то большая часть данных имеет значения, меньшие среднего . Асимметрия вычисляется функцией СКОС. Ее аргументом является интервал ячеек с данными, например, =СКОС (А1:А100).

Эксцесс оценивает «крутость», т.е. величину большего или меньшего подъема максимума распределения экспериментальных данных по сравнению с максимумом нормального распределения. Если Е >0, то максимум экспериментального распределения выше нормального; еслиЕ <0, то максимум экспериментального распределения ниже нормального. Эксцесс вычисляется функцией ЭКСЦЕСС, аргументом которой являются числовые данные, заданные, как правило, в виде интервала ячеек, например: =ЭКСЦЕСС (А1:А100).

Задание 1. Применение статистических функций

Одним и тем же вольтметром было измерено 25 раз напряжение на участке цепи. В результате опытов получены следующие значения напряжения в вольтах: 32, 32, 35, 37, 35, 38, 32, 33, 34, 37, 32, 32, 35, 34, 32, 34, 35, 39, 34, 38, 36, 30, 37, 28, 30.Найдите выборочные среднюю, дисперсию, стандартное отклонение, размах варьирования, моду, медиану. Проверить отклонение от нормального распределения, вычислив асимметрию и эксцесс.

    Наберите результаты эксперимента в столбец А.

    В ячейку В1 наберите «Среднее», в В2 – «выборочная дисперсия», в В3 – «стандартное отклонение», в В4 – «Максимум», в В5 – «Минимум», в В6 – « Размах варьирования», в В7 – «Мода», в В8 – «Медиана», в В9 – «Асимметрия», в В10 – «Эксцесс». Выровняйте ширину этого столбца с помощью Автоподбора ширины.

    Выделите ячейку С1 и нажмите на знак «=» в строке формул. С помощью Мастера функций в категорииСтатистические найдите функцию СРЗНАЧ, затем выделите интервал ячеек с данными и нажмитеEnter .

    Выделите ячейку С2 и нажмите на знак «=» в строке формул. С помощью помощью Мастера функций в категорииСтатистические найдите функцию ДИСП, затем выделите интервал ячеек с данными и нажмитеEnter .

    Проделайте самостоятельно аналогичные действия для вычисления стандартного отклонения, максимума, минимума, моды, медианы, асимметрии и эксцесса.

    Для вычисления размаха варьирования в ячейку С6 следует ввести формулу: =МАКС (А1:А25)-МИН(А1:А25).