Статистика шкалы. Место теории измерений в методах анализа данных

ЛЕКЦИЯ 2. ИСТОЧНИКИ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ. СТАТИСТИЧЕСКОЕ ИЗМЕРЕНИЕ И НАБЛЮДЕНИЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ И ПРОЦЕССОВ. МЕТОДЫ СПЛОШНОГО НАБЛЮДЕНИЯ.

План.

1. Теория измерений. Основные шкалы измерения.

2. Сущность и виды статистического наблюдения. Методы сплошного наблюдения

3. План статистического наблюдения

4. Точность статистического наблюдения

Понятийный материал:

статистическое наблюдение, цель наблюдения, объект наблюдения, единица наблюдения, программа наблюдения. критический момент, отчетность, перепись, регистровое наблюдение, непосредственное наблюдение, документальный способ наблюдения, опрос, текущее наблюдение, единовременное обследование, сплошное наблюдение, несплошное наблюдение, точность статистического наблюдения, ошибка наблюдения.

Литература .

1. Елисеева И.И. Статистика: учебник. М.: Финансы и статистика, 2005.

2. Статистика / под ред. В.С. Мхитаряна. М.: Академия, 2006.

3. Гусаров В.М. Статистика: учеб. пособие для студентов вузов, обучающихся по экономическим специальностям / В.М.Гусаров, Е.И. Кузнецова. – 2-е изд., перераб. и доп. – М.: ЮНИТИ-ДАНА, 2007.

Теория измерений. Основные шкалы измерения.

Почему необходима теория измерений? Теория измерений является одной из составных частей прикладной статистики. Она входит в состав статистики объектов нечисловой природы.

Использование чисел в жизни и хозяйственной деятельности людей отнюдь не всегда предполагает, что их можно складывать и умножать, производитъ иные арифметические действия. Что бы вы сказали о человеке, который занимается умножением телефонных номеров? И отнюдь не всегда 2+2=4. Ес-ли вы вечером поместите в клетку двух животных, а потом еще двух, то отнюдь не всегда можно утром найти в этой клетке четырех животных. Их может быть и намного больше - если вечером вы загнали в клетку овцематок или беременных кошек. Их может быть и меньше - если к двум волкам вы поместили двух ягнят. Числа используются гораздо шире, чем арифметика.

Так, например, мнения экспертов часто выражены в порядковой шкале , т.е. эксперт может сказать (и обосновать), что один показатель качества продукции более важен, чем другой, первый технологический объект более опасен, чем второй, и т.д. Но он не в состоянии сказать, во сколько раз или на сколько более важен, соответственно - более опасен. Экспертов часто просят дать ранжировку (упорядочение) объектов экспертизы, т.е. расположить их в порядке возрастания (или убывания) интенсивности интересующей организаторов экспертизы характеристики. Ранг - это номер объекта экспертизы в упорядоченном ряду значений характеристики у различных объектов. Такой ряд в статистике называется вариационным . Формально ранги выражаются числами 1, 2, 3, ..., но с этими числами нельзя совершать привычные арифметические операции. Например, хотя в арифметике 1 +2 = 3, нельзя утверждать, что для объекта, стоящем на третьем месте в упорядочении, интенсивность изучаемой характеристики равна сумме интенсивностей объектов с рангами 1 и 2. Так, один из видов экспертного оценивания - оценки учащихся. Вряд ли кто-либо будет утверждать, что знания отличника равны сумме знаний двоечника и троечника (хотя 5 = 2 + 3), хорошист соответствует двум двоечникам (2 + 2 = 4), а между отличником и троечником такая же разница, как между хорошистом и двоечником (5 - 3 = = 4 - 2). Поэтому очевидно, что для анализа подобного рода качественных данных необходима не всем известная арифметика, а другая теория, дающая базу для разработки, изучения и применения конкретных методов расчета. Это и есть теория измерений (ТИ).

При чтении литературы надо иметь в виду, что в настоящее время термин «теория измерений» применяется для обозначения целого ряда научных дисциплин. А именно - классической метрологии (науки об измерениях физических величин), рассматриваемой здесь ТИ, некоторых других направлений, например, алгоритмической теории измерений. Обычно из контекста понятно, о какой конкретно теории идет речь.

Краткая история теории измерений. Сначала ТИ развивалась как теория психофизических измерений. В послевоенных публикациях американский психолог С.С. Стивенс основное внимание уделял шкалам измерения. Во второй половине XX в. сфера применения ТИ стремительно расширяется. Один из томов выпущенной в США в 1950-х гг. «Энциклопедии психологических наук» назывался «Психологические измерения». Составители этого тома расширили сферу применения РТИ с психофизики на психологию в целом. А в основной статье в этом сборнике под названием «Основы теории измерений», изложение шло на абстрактно-математическом уровне, без привязки к какой-либо конкретной области применения.

Уже в одной из первых отечественных статей по РТИ (конец 1960-х гг.) было установлено, что баллы, присваиваемые экспертами при оценке объектов экспертизы, измерены, как правило, в порядковой шкале. Отечественные работы, появившиеся в начале 1970-х гг., привели к существенному расширению области использования РТИ. Ее применяли в педагогической квалимет-рии (измерении качества знаний учащихся), в системных исследованиях, в различных задачах теории экспертных оценок, для агрегирования показателей качества продукции, в социологических исследованиях, и др.

Применение тех или других статистических методов определяется тем, к какой статистической шкале относится полученный материал. С. Стивенс предложил различать четыре статистические шкалы:

1. шкалу наименований (или номинальную);

2. шкалу порядка;

3. шкалу интервалов;

4. шкалу отношений.

Зная типические особенности каждой шкалы, нетрудно установить, к какой из них следует отнести подлежащий статистической обработ-ке материал.

Шкала наименований. К этой шкале относятся материалы, в ко-торых изучаемые объекты отличаются друг от друга по их качеству.

При обработке таких материалов нет никакой нужды в том, чтобы располагать эти объекты в каком-то порядке, исходя из их характери-стик. В принципе, объекты можно располагать в любой последователь-ности.

Вот пример: изучается состав международной научной конференции. Среди участников есть французы, англичане, датчане, немцы и русские. Имеет ли значение порядок, в котором будут расположены участники при изучении состава конференции? Можно расположить их по алфавиту, это удобно, но ясно, что никакого принципиального значения в этом распо-ложении нет. При переводе этих материалов на другой язык (а значит и на другой алфавит) этот порядок будет нарушен. Можно расположить национальные группы по числу участников. Но при сравнении этого ма-териала с материалом другой конференции найдем, что вряд ли этот порядок окажется таким же. Отнесенные к шкале наименований объек-ты можно размещать в любой последовательности в зависимости от цели исследования.

При статистической обработке такого рода материалов нужно счи-таться с тем, каким числом единиц представлен каждый объект. Име-ются весьма эффективные статистические методы, позволяющие по этим числовым данным прийти к научно значимым выводам (напри-мер, метод хи-квадрат).

Шкала порядка. Если в шкале наименований порядок следования изучаемых объектов практически не играет никакой роли, то в шкале порядка -- это видно из ее названия -- именно на эту последователь-ность переключается все внимание.

К этой шкале в статистике относят такие исследовательские ма-териалы, в которых рассмотрению подлежат объекты, принадлежа-щие к одному или нескольким классам, но отличающиеся при их сравне-нии одного с другим -- «больше-меньше», «выше-ниже»- и т. п.

Проще всего показать типические особенности шкалы порядка, если об-ратиться к публикуемым итогам любых спортивных соревнований. В этих итогах последовательно перечисляются участники, занявшие соответ-ственно первое, второе, третье и следующие по порядку места. Но в этой информации об итогах соревнований нередко отсутствуют или отходят на второй план сведения о фактических достижениях спортсменов, а на первый план ставятся их порядковые места.

Допустим, шахматист Д. занял в соревнованиях первое место. Како-вы же его достижения? Оказывается, он набрал 12 очков. Шахматист Е. занял второе место. Его достижение -- 10 очков. Третье место занял Ж. с восемью очками, четвертое -- 3. с шестью очками и т. д. В сообщениях о соревновании разница в достижениях при размещении шахматистов отходит на второй план, а на первом остаются их порядковые места. В том, что именно порядковому месту отводится главное значение, есть свой смысл. В самом деле, в нашем примере З. набрал шесть, а Д. -- 12 очков. Это абсолютные их достижения -- выигранные ими партии. Если попытаться истолковать эту разницу в достижениях чисто арифме-тически, то пришлось бы признать, что 3. играет вдвое хуже, чем Д. Но с этим нельзя согласиться. Обстоятельства соревнований не всегда про-сты, как не всегда просто и то, как провел их тот или другой участник. Поэтому, воздерживаясь от арифметической абсолютизации, ограничи-ваются тем, что устанавливают: шахматист 3. отстает от занявшего пер-вое место Д. на три порядковых места.

Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных еди-ницах.

Вернемся к опытам, которые провел психолог с Сашей. В опытах учиты-валось, сколько точек могут поставить, работая с максимально доступ-ной им скоростью, сам Саша и каждый из его сверстников. Оценочными единицами в опытах служило число точек. Подсчитав их, исследователь получил то абсолютное число точек, которое оказалось возможным по-ставить за отведенное время каждому участнику опытов. Главная труд-ность при отнесении материалов к шкале интервалов состоит в том, что нужно располагать такой единицей, которая была бы при всех повтор-ных измерениях тождественной самой себе, т. е. одинаковой и неизмен-ной. В примере с шахматистами (шкала порядка) такой единицы вообще не существует.

В самом деле, учитывается число партий, выигранных каждым участ-ником соревнований. Но ясно, что партии далеко не одинаковы. Воз-можно, что участник соревнований, занявший четвертое место -- он выиграл шесть партий, -- выиграл труднейшую партию у самого лидера! Но в окончательных итогах как бы принимается, что все выигранные партии одинаковы. В действительности же этого нет. Поэтому при рабо-те с подобными материалами уместно их оценивать в соответствии с требованиями шкалы порядка, а не шкалы интервалов. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения.

Шкала отношений. К этой шкале относятся материалы, в которых учитываются не только число фиксированных единиц, как в шкале ин-тервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолют-ную точку, от которой и ведется отсчет. При изучении психологиче-ских объектов эта шкала практически неприменима.

Каждое измерение над объектом производится в определенной шкале. Различные координаты одного вектора наблюдений могут быть выражены в разных шкалах. Так, в § 5.1 приведен пример вектора наблюдений (табл. 5.1), у которого первые координаты носят характер условных меток (социальная принадлежность семьи, пол и профессия главы семьи, качество жилищных условий), в то время как остальные выражаются числами (число членов семьи, количество детей, среднегодовой доход и т. п.). Свойства этих шкал сильно различаются между собой. Так, про пол главы семьи можно сказать только, что он или мужской или женский и что пол мужской отличается от пола женского; про жилищные условия - что они совпадают или отличаются и что в отдельных случаях одни жилищные условия лучше других; про расходы можно сказать, что расходы на питание одной семьи меньше, равны, больше расходов другой, можно оценить разность в расходах между семьями и подсчитать, во сколько раз расходы одной семьи отличаются от расходов другой.

Ниже описываются основные типы шкал и математические приемы унификации данных, выраженных в разных шкалах, которые обычно предшествуют применению методов многомерного анализа.

10.2.1. Номинальная шкала.

Эта шкала используется только для того, чтобы отнести индивидуум, объект в определенный класс. Если описаны заранее возможные классы и правила отнесения объекта в них, то говорят о категоризованной шкале, если нет, то о некатегоризованной. Примером категоризованной шкалы является пол. В исследовании индивидууму приписывается одно из двух значений: буква М или Ж, специальный знак или число 1 или 2. В принципе можно было бы приписывать и другие буквы и цифры, важно только, чтобы сохранялось взаимно-однозначное соответствие между кодами. Для ввода категоризованных данных удобно использовать «меню», т. е. перечень возможных категорий с их кодами. Примерами некатегоризованных номинальных переменных являются имя, фамилия, место рождения.

Другой важный источник некатегоризованных номинальных данных указан в § 5.3. Это случай, когда наблюдение задается над парой объектов, и переменная указывает только, принадлежат ли объекты, к одному классу или нет, и не указывает, к каким классам они принадлежат.

Последнее обстоятельство не надо рассматривать в качестве курьеза. Конечно, если классы заранее определены и нетрудно каждый объект отнести в определенный класс, то это следует сделать и записать, к какому классу объект принадлежит. Но иногда классы заранее не описаны, создание их полной классификации как раз и является целью работы, а вместе с тем оценить принадлежность объектов одному классу можно. Например, можно говорить о «близком», «похожем» течении болезни у двух больных, хотя все варианты течения заболевания и не описаны. Более того, выделение эмпирически близких вариантов течения болезни может служить отправным пунктом для выделения и описания всех возможных вариантов развития патологического процесса. То же относится к выделению социально-экономических групп и т. п.

Одна и та же переменная может в зависимости от цели использования выступать в разных качествах. Так, например, некатегоризованная номинальная переменная - имя программы - служит только для индивидуализации программы и, если программ немного, может быть найдена прямым просмотром списка программ. Вместе с тем если имена программ в списке каким-либо образом упорядочить (например, в алфавитно-цифровом порядке), то имя программы как поисковый образ несет в себе элементы порядковой величины. Про каждые два имени можно сказать, что они или совпадают, или одно из них предшествует другому при принятом способе упорядочивания. При изменении способа упорядочивания меняется и отношение следования.

Арифметические операции над величинами, измеренными в номинальной шкале, лишены смысла. Следовательно, и медиана, и среднее арифметическое не могут быть использованы в качестве осмысленной меры центральной тенденции. Более подходящая статистика здесь мода.

10.2.2. Порядковая (ординальная) шкала.

В дополнение к функции отнесения объектов в определенный класс эта шкала также упорядочивает классы по степени выраженности заданного свойства. Каждому классу приписывается свой собственный символ таким образом, чтобы заранее установленный порядок символов соответствовал порядку классов. Так, если классам будут приписаны числовые значения, то классы будут упорядочены согласно числовой последовательности; если буквы, то классы будут упорядочены в алфавитном порядке, а если слова, то классы будут упорядочены согласно значениям слов.

Например, в § 5.3 приводится пример порядковой шкалы для описания качества жилищных условий с четырьмя градациями (классами): «плохое», «удовлетворительное», «хорошее», «очень хорошее». Естественно, что эти классы могли бы быть занумерованы числами 1,2,3,4, или 4,3,2,1, или буквами а,б,в,г и т. п.

Другими известными примерами порядковых шкал являются: в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско - Василенко - Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии - шкала Мооса (тальк -1, гипс - 2, кальцит - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которой минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров («штиль», «слабый ветер», «умеренный ветер» и т. д.).

Структура порядковой шкалы не разрушается при любом взаимно-однозначном преобразовании кодов, которое сохраняет порядок. Так же, как и в случае номинальной шкалы, арифметические операции не сохраняют своего смысла при преобразовании порядковых шкал, поэтому желательно ими не пользоваться. Нетрудно показать, что если опираться только на свойства шкал и не привлекать дополнительных, внешних по отношению к шкалам соображений, то единственными разрешенными статистиками при использовании порядковых шкал являются члены вариационного ряда .

10.2.3. Количественные шкалы.

Шкала, в которой можно отразить, на сколько по степени выраженности заданного свойства один из объектов отличается от другого, называется интервальной. Для того чтобы задать интервальную шкалу, надо определить объекты, соответствующие начальной точке и единице измерения. И далее при измерении ставить в соответствие каждому объекту число, показывающее, на сколько единиц измерения этот объект отличается от объекта, принятого за начальную точку. Простейшим примером интервальной шкалы является температура в градусах Цельсия, где 0° - начальная точка и 1° - единица измерения.

Структура интервальной шкалы не меняется при линейных преобразованиях вида Эффект такого преобразования заключается в сдвиге начальной точки на b единиц и умножении единицы измерения на а.

Например, путем преобразования , где - температура в можно перейти к температуре в градусах Фаренгейта.

Если начало в интервальной шкале является абсолютной нулевой точкой, то возникает возможность отразить в шкале, во сколько раз одно измерение отличается от другого. Соответствующая шкала называется шкалой отношений. Шкала отношений допускает преобразования вида . Большинство шкал, используемых в физике, являются либо интервальными (для измерения температуры, потенциальной энергии), либо шкалами отношений (для измерения времени, массы тела, заряда, расстояния).

Поскольку количественные шкалы допускают арифметические преобразования, среднее арифметическое может использоваться для описания интегральной тенденции в группировке данных.

10.2.4. Унифицированное представление разнотипных данных.

Каждому типу шкалы соответствует своя статистическая техника. Так, для переменных, измеренных в номинальной шкале, можно использовать -критерий для полиномиальных распределений, -критерий для проверки отсутствия ассоциаций в таблицах сопряженности, критерии для проверки гипотез о вероятности в биномиальном распределении. Порядковой шкале отвечают методы, основанные на использовании рангов (ранговая корреляция, непараметрические критерии для проверки гипотез типа ) и т. п.). При интервальной шкале может быть использован весь арсенал статистических методов.

Более того, разработаны статистические процедуры для случаев, когда наблюдаются векторы, одни координаты которых измерены в одной шкале, а другие - в другой. Типичным примером является обычный дисперсионный анализ (см. § 3.5), в котором факторы измеряются в номинальной шкале, а соответствующие их комбинациям отклики - в интервальной.

Тем не менее в целом ряде статистических методов, особенно в современных методах многомерного анализа, предполагается, что данные измерены в однотипных шкалах. Чтобы иметь возможность применять эти методы в общем случае разнотипных данных, были предложены различные приемы унификации данных. Познакомимся с важнейшими из них.

Сведение к двоичным переменным. В основе этого метода лежит введение вместо каждой исходной случайной переменной серии случайных величин, принимающих только два значения: 0 и 1.

Для номинальной величины имеющей k градаций вводится k таких величин что когда когда

Этот же прием иногда используют и при сведении к двоичным переменным случайной величины, измеренной в порядковой шкале. Однако в ряде случаев оказывается удобным выделять не событие , а событие Для сравнения относительных достоинств этих двух способов рассмотрим следующую модельную задачу. Пусть - равномерно распределенная на отрезке случайная величина, - малое число;

Функция моделирует, очевидно, первый способ перехода к двоичным переменным, а функция - второй. После несложных подсчетов получаем:

Основной недостаток изложенной техники - это введение большого числа новых переменных и частичная потеря информации, содержащейся в данных, как из-за квантования, так и из-за искусственного снижения уровня используемой шкалы.

Оцифровка номинальных и порядковых переменных. Этот метод прямо противоположен только что изложенному, в нем все переменные поднимаются, подтягиваются до уровня количественных путем приписывания их градациям числовых значений. Иногда приписываемые значения называют метками.

Выбор меток существенно зависит от цели, с которой производится оцифровка. Так, если изучается величина связи между двумя номинальными признаками, то метки можно выбрать из условия максимизации коэффициента корреляции между ними , . Если речь идет об отнесении наблюдений к одному из заранее определенных классов (дискриминантный анализ), то выбор меток можно связать с условием максимизации нормированного расстояния в многомерном выборочном пространстве между центрами изучаемых популяций (расстояния Махаланобиса). Иногда эту задачу упрощают и метки приписываются покоординатно так, чтобы максимизировать только нормированное расстояние между средними значениями данной координаты. Статистическое сравнение на примере одной частной задачи эффективности глобального и покоординатного подхода к оцифровке в дискриминантном анализе может быть найдено в .

Изложенные приемы оцифровки, когда метки выбираются из условия максимизации соответствующим образом подобранного функционала, укладываются в рамки упомянутого в § 1.2 экстремального подхода к формулировке основных проблем математической статистики.

В целом оцифровка качественных переменных является задачей сложной как в вычислительном, так и в чисто статистическом плане. Отдельные аспекты этой проблемы обсуждаются в работах .


Теоретическая валидизация в социологическом исследовании: Методология и методы

Благодаря Стенли Стивенсону, в нашей исследовательской практике мы оперируем несколькими типами шкал. Некоторые критикуют эту типологию, но судя по-всему никто не придумал ничего лучше.

0 Нажми, если пригодилось =ъ

Независимо от того, какой сложности анкетные вопросы или же тестовые методики вы рассматриваете, все их можно разделить на три типа в зависимости от того, к какой измерительной шкале они относятся. Речь в данном случае идет не о специфических методиках построения измерительных инструментов (например, шкала Гутмана или шкала Терстоуна), а о классификации измерительных шкал, предложенной Стэнли Стивенсом в 1946 году. Знание этой классификации имеет решающее значение с точки зрения использования количественного подхода, поскольку применение тех или иных методов математической статистики опирается, в том числе, и на измерительные шкалы, в которой отображены интересующие исследователя переменные.

Более подробно о понятии "переменная"
"Переменная" является часто употребляемым понятием в рамках научных исследований (не только в социальных и поведенческих науках) и особенно, если мы говорим о количественном подходе и применении статистических методов. Фактически переменная - это любое свойство изучаемых объектов, которое меняется от одного наблюдения к другому. Под наблюдениями в данном случае понимаются объекты изучения (люди, организации, страны или что-либо другое - зависит от самого исследования).
Если же некоторое свойство не изменяется от одного наблюдения к другому, то оно не дает никакой ценной в математическом смысле информации (большинство методов будет просто непригодно для использования).
Таким образом, в рамках количественного подхода изучаемые объекты представляются в виде набора переменных, составляющих интерес и подлежащих изучению. Нетрудно догадаться что переменные, прежде всего, делятся в зависимости от шкал, в которых они отображены. Так, можно выделить, например, номинальные, порядковые и метрические переменные. При этом, порядковые можно разделить на свернутые и непрерывные порядковые. Непрерывные порядковые переменные имеют множество численных значений и выглядят (по крайней мере, на первый взгляд), как метрические. Свернутые порядковые переменные имеют лишь несколько категорий или численных значений (не более пяти-шести). Они могут быть получены либо путем сбора данных в свернутой форме, либо сворачивания непрерывной порядковой или метрической шкалы.
Еще одним важным делением переменных является деление на зависимые и независимые. Часто в процессе анализа выдвигаются гипотезы о влиянии одних переменных на другие. В таких случаях, влияющие переменные называются независимыми, а переменные, на которые влияние оказывается, - зависимыми. Например, если мы говорим о взаимосвязи между полом студента и успешностью его обучения, то пол будет - независимой переменной, а успешность обучения - зависимой.

Согласно классификации Стивенсона, в самом общем виде, можно выделить три типа шкал:
- номинальную,
- порядковую,
- метрическую.

Номинальная шкала включает в себя класс переменных, значения которых можно разделить на группы, но невозможно проранжировать. Примерами соответствующих переменных являются пол, национальность, религия и т.д. Рассмотрим более подробно такую переменную как национальность. В данном случае респондентов можно разделить на разные группы в зависимости от того, к какой национальности они себя относят. Вместе с тем, на основе этой информации, респондентов невозможно упорядочить в смысле количественной выраженности интересующего нас параметра, ведь национальность не является измеряемым, в традиционном значении этого слова, свойством.
Порядковая шкала включает в себя класс переменных, значения которых можно не только разделить на группы, но и проранжировать в зависимости от выраженности измеряемого свойства. Классическим примером порядковой шкалы является Шкала Богардуса, предназначенная для измерения национальной дистанциированности. Ниже приведен адаптированный для населения Украины вариант (Н.Панина, Е.Головаха):

Анкетное задание
Относительно каждой национальности, приведенной ниже, выберите одно из положений, наиболее близкое для вас лично, на которое бы вы допустили представителей этой национальности.
Шкала ответов
1) как членов моей семьи;
2) как близких друзей;
3) как соседей;
4) как колег по работе;
5) как жителей Украины;
6) как поситителей Украины;
7) вообще не допускал бы в Украину.

Эта шкала позволяет упорядочить респондентов в зависимости от их отношения к той или иной национальности. Вместе с тем, она предоставляет лишь приблизительную информацию, которая не дает возможности точно оценить различия между градациями шкалы. Так, например, мы может утверждать, что респондент, готовый допустить евреев в качестве членов своей семьи будет относится к ним лучше, чем тот, кто готов допустить их лишь как соседей. Вместе с тем, мы не можем сказать "на сколько?" или "во сколько?" раз первый респондент лучше относится к представителям еврейской национальности чем второй. Другими словами, у нас нет никаких аргументов, которые бы подтверждали равенство интервалов между пунктами шкалы.
Метрическая шкала включает в себя класс переменных, значения которых можно как разделить на группы и проранжировать, так и определить их величину в точных терминах (те самые "на сколько?" и "во сколько?"). Типичными примерами соответствующих переменных являются возраст, заробтная плата, количество детей и т.д. Измерение каждой из них можно осуществить максимально точно: возраст в годах, зароботнуню плату в гривнах, количество детей в... штуках;)
Естественно, если переменная может быть потенциально выражена в метрической шкале, то эту же переменную можно выразить и в порядковой.

Например, возраст можно выразить в возрастных группах (молодежь, средний возраст, пожилой возраст), которые дают лишь приблизительную информацию о респонденте, несмотря на возможность их ранжирования.
Принадлежность переменной к метрической шкале открывает возможность использования любых статистических методов. В свою очередь принадлежность к порядковой или номинальной ограничивает выбор математических инструментов (в случае порядковой шкалы в меньшей мере, а в случае номинальной - в большой). Классификация статистических методов приведена .
Для того, чтобы сделать различия между номинальной, порядковой и метрической шкалами еще более очевидными, приведу дополнительный пример, посвященный рейтингу профессиоанальных боксеров в супертяжелом весе по версии сайта boxrec.com (информация актуальна по состоянию на 31.01.2012). При этом мы рассмотрим данные относительно боксеров первой десятки по трем переменным: этническая принадлежность боксера, его место в рейтинге и количество рейтинговых очков, которые имелись у него в активе 31.01.2012.

А) Этническая принадлежность (номинальная шкала ). Три боксера (братья Кличко и Димитренко) являются украинцами, один (Поветкин) - русским, один (Адамек) - Поляком, два (Чемберс и Томпсон) - американцами, один (Фьюри) - британцем, один (Хелениус) - фином, один (Пулев) - болгарином. Таким образом переменная "национальность" помогла нам разделить всех боксеров на 7 групп, в зависимости от их этнической принадлежности. Владея этими данными, человек далекий от бокса ничего не сможет сказать об успешности перечисленных боксеров, хотя и получит информацию об этнической принадлежности 10-ти наилучших тяжеловесов (мы и далее будет обращаться к гипотетическому эксперту):
украинцы - 30%;
американцы - 20%;
русские, поляки, британцы, фины и болгары - по 10%.
Б) Место в рейтинге (порядковая шкала ) дает приблизительную информацию об успешности боксера. Ситуация следующая:
1. Владимир Кличко
2. Виталий Кличко
3. Александр Поветкин
4. Томаш Адамек
5. Эдди Чемберс
6. Тайсон Фьюри
7. Роберт Хелениус
8. Тони Томпсон
9. Александр Димитренко
10. Кубрат Пулев
Теперь наш неосведомленный аналитик знает последовательность первой десятки боксеров супертяжелого веса. И хотя здесь уже присутствуют числа от 1 до 10, он все еще не может осуществлять никаких математических операций кроме сравнения. К примеру, он не может сказать, что Владимир Кличко лучше Эдди Чемберса на 4 единицы. Выражение "5 минус 1" в данном случае не имеет смысла. В отношении этих двух боксеров он может утверждать лишь то, что Владимир Кличко лучше Эдди Чемберса как боксер (как впрочем и всех остальных из десятки). Причина невозможности осуществления математических действий заключается в том, что между пунктами с 1-го по 10-й нет равенства интервалов. Каковы на самом деле интервалы между пунктами, можно увидеть благодаря последней переменной.
В) Количество рейтинговых очков (метрическая шкала ). Данный показатель

В статистических исследованиях используют различные типы признаков, характеризующих состояние экономического объекта. Признаки могут иметь различный вид в зависимости от шкалы измерения, что в дальнейшем сказывается на выборе методов статистического анализа.

В зависимости от шкалы измерения различают количественные (числовые) и категориальные (нечисловые, качественные) данные (см. рис. 3.1).

Количественные (числовые ) данные - это показатели, принимающие числовые значения, которые получаются путем некоторых измерений или подсчетов.

С точки зрения шкал измерений, количественные данные считают измеренными в интервальной шкале, которая применяется для отображения величины различия между характеристиками элементов. Интервальная (количественная) шкала показывает, насколько одно значение больше другого в принятых единицах измерения (например, шкала температур, времени, количества объектов). Интервальная шкала может иметь произвольные начало отсчета и масштаб. Множество допустимых преобразований данной шкалы составляют все линейные преобразования. Основное свойство шкалы - сохранение отношения длин интервалов. Частными случаями шкалы интервалов служат шкала отношений (нулевое начало отсчета) и шкала разностей (произвольное начало отсчета и единичный масштаб), а также абсолютная шкала (нулевое начало отсчета и единичный масштаб отсчета). Количественные шкалы допускают все арифметические действия над результатами измерения (например, заработная плата, остатки банковского счета, число работников на фирме).

В случае если данные получены путем измерений и могут принимать абсолютно любые значения из некоторого промежутка или всей числовой оси, их называют непрерывными. Если данные образуют счетное множество и принимают только некоторые изолированные значения на числовой оси, между которыми значений быть не может, то такие признаки называют дискретными.

Примеры количественных дискретных данных

  • Число вызовов «скорой помощи», поступающих в больницы г. Москвы ежедневно.
  • Количество страховых компаний в Российской Федерации, имеющих лицензии.
  • Число страховых случаев, наступивших в портфеле договоров страхования автокаско страховой компании в течение года.
  • Число беженцев и вынужденных переселенцев, официально зарегистрированных Федеральной миграционной службой за 2011 г.

Источник: URL: http://rating.rbc.ru/article.shtml92008/09/30/32143066.

Данные представлены в табличной форме, в виде линейного графика и столбиковой диаграммы.

Две переменные - «количество автомобилей в городе» и «население города» - дискретные количественные. Для наглядности на графике представлена переменная, рассчитанная как их отношение - число автомобилей на тысячу жителей.

Примеры количественных непрерывных данных

  • Динамика учетных цен на золото в России за последние 20 лет.
  • Рост, вес, давление крови и другие измеряемые показатели человека.
  • Урожайность сельскохозяйственных культур фермерских хозяйств Российской Федерации.
  • Удои молока в животноводческих хозяйствах Центрального федерального округа.
  • Дальность полета выпускаемого из орудия снаряда.

Источник: URL: http://rating.rbc.ru/articles/201 l/ll/09/33470757_tbl.shtml?2011/ 11/08/33470320.

Для представления данных по непрерывной количественной переменной «Чистые активы» использованы табличная форма и столбиковая диаграмма.

Другую группу, существенно отличающуюся от количественных данных, составляют нечисловые - категориальные или качественные данные. В этом случае объект может принадлежать только к одной из множества категорий (классов). Особенно часто это имеет место при создании и обработке анкет, опросников, рейтингов и т.д. Даже если обозначить эти категории числами (например, перекодировать: 0 - женский, 1 - мужской пол), то с такими данными все равно нельзя работать как с числовыми, а только как с категориальными.

В зависимости от того, можно ли эти категории упорядочивать, различают признаки, измеренные в номинальной или порядковой шкалах. В соответствии с этим, данные разделяют на номинальные и порядковые.

Шкала наименований (номинальная или классификационная шкала). Данные по этой шкале определяются в терминах категорий, которые нельзя содержательно упорядочить (профессия; регион страны; город; номер студенческой группы; банк, в котором имеется вклад). Номинальная шкала используется для описания принадлежности элементов к определенным классам. Всем элементам одного и того же класса присваивается одно и то же текстовое значение или число, а элементам разных классов - разные значения или числа. Допустима любая замена чисел для обозначения классов, лишь бы это было взаимно однозначное преобразование, и каждый класс получил бы свое число. Это обстоятельство и определяет множество допустимых преобразований номинальной шкалы как множество всех взаимооднозначных функций. Нет оснований полагать, что одна категория лучше (или хуже), чем другая, поэтому при обработке таких данных применяются только операции сравнения: «равно» и «не равно».

  • Город Российской Федерации (Владивосток, Сургут, Тюмень и т.д.).
  • Группа крови человека (О, А, В, АВ).
  • Семейное положение (холост, женат, разведен, в гражданском браке).
  • Банк России (Сбербанк России, ВТБ, Газпромбанк и т.д.).
  • Федеральные округа России (Центральный, Дальневосточный и т.д.).

Пример 3.12


Данные по номинальной категориальной переменной «цвет глаз» представлены в табличной форме и в виде круговой диаграммы (piechart).

Другой тип категориальных переменных - порядковые (ординальные ) - отличаются тем, что данные измеряются в порядковой шкале. Порядковые шкалы используются для упорядочения элементов по одному или нескольким признакам. Они позволяют установить, что один элемент лучше, важнее, предпочтительнее другого или равноценен другому. Порядковая шкала отражает лишь порядок следования элементов и не дает возможности сказать, на сколько или во сколько раз один элемент предпочтительнее другого. Иными словами, в этой шкале нельзя определить меру степени предпочтительности. Для сравнения таких данных допускаются уже не только операции «равно» и «не равно», но и «больше» - «меньше» (без определения на сколько).

  • Ответы на вопросы анкеты, содержащей следующие варианты ответов: да; больше да, чем нет; больше нет, чем да; нет.
  • Оценки, полученные студентами на экзамене (отлично, хорошо, удовлетворительно, неудовлетворительно).
  • Должность, занимаемая сотрудником в научной лаборатории (младший научный сотрудник, научный сотрудник, старший научный сотрудник и т.д.);
  • Воинские звания в Российской армии (лейтенант, капитан, майор, полковник и т.д.).

Л (высокий), В (удовлетворительный), В+ (достаточный), В++ (приемлемый),

С (неудовлетворительный), D (банкротство), Е (отзыв лицензии или ликвидация))


Загрузка...
Top