Процесс группировки данных по определенным признакам. Приемы построения группировок

Аналитическая группировка

Аналитические – такие группировки, которые применяются для исследования взаимосвязей между явлениями. Для проведения аналитической группировки нужно определить факторный и результативный признак.

Факторные – это те признаки, которые оказывают влияние на другие связанные с ними признаки.

Результативные – это признаки, которые изменяются под влиянием факторных.

Аналитические группировки позволяют изучить многообразие связей и зависимостей между варьирующими признаками. Чтобы исследовать взаимосвязь между признаками, производится группировка единиц совокупности по факторному признаку. В каждой группе вычисляется среднее значение результативного признака. Изменение признака от группы к группе под влиянием факторного будет говорить о наличии или отсутствии связи между факторами.


Группировки, построенные за один и тот же период времени, но для разных регионов или, наоборот, для одного региона, но за два разных периода, могут оказаться несопоставимыми из-за различного числа групп или неодинаковости границ интервалов. Для того, чтобы привести такие группировки к сопоставимому виду (это позволяет провести их сравнительный анализ), используется метод вторичной группировки.

Вторичная группировка – операция по образованию новых групп на основе ранее осуществленной группировки.

Применяют два способа образования новых групп. Первым, наиболее простым и распространенным способом является объединение первоначальных интервалов. Он используется в случае перехода от мелких к более крупным интервалам и когда границы новых и старых интервалов совпадают. Второй способ получил название долевой перегруппировки и состоит в образовании новых групп на основе закрепления за каждой группой определенной доли единиц совокупности. Этот способ употребляется, когда необходимо в ходе перегруппировки данных определить, какая часть (доля) единиц совокупности перейдет из старых групп в новые.

Рассмотрим первый способ проведения вторичной группировки.

Пример1 Пусть даны две группировки кредитов по сроку выдачи за ноябрь и декабрь (таблица 3.1, таблица 3.2).

Таблица 3.1руппировка кредитов коммерческих банков по сроку выдачи, ноябрь 2011 г. (данные условные)



Таблица 3.2 – Группировка кредитов коммерческих банков по сроку выдачи, декабрь 2011г. (данные условные)

Для удобства сравнения группировки ноябрьских и декабрьских кредитов произведем вторичную группировку ноябрьских кредитов, приняв за основу группировку декабрьских кредитов. Составим таблицу 3.3.

Таблица 3.3 – Группировка кредитов коммерческих банков по сроку выдачи, ноябрь-декабрь 2011 г. (данные условные)

Теперь можно сравнить группировки ноябрьских и декабрьских кредитов. Доля заключенных договоров по краткосрочным кредитам снизилась почти на 11 процентных пунктов, доля среднесрочных кредитов осталась без изменения, а количество долгосрочных кредитов в анализируемом периоде значительно выросло. Несмотря на эти изменения, в декабре так же, как и в ноябре, в структуре суммы выданных кредитов преобладающую долю занимали краткосрочные кредиты, затем следовали среднесрочные, а на последнем месте – долгосрочные кредиты. Для решения данного примера использовали метод объединения первоначальных интервалов.

Пример2 Имеются данные о структуре колхозов по числу дворов. Исходные данные не позволяют произвести сравнительный анализ структуры, так как в разных районах имеется разное число групп.

Структура колхозов по числу дворов

1 район 2 район
№ группы Уд. вес колхозов, % № группы Группы колхозов по числу дворов Уд. вес колхозов, %
До 100 4,3 До 50 1,0
100-200 18,3 50-70 1,0
200-300 19,5 70-100 2,0
300-500 28,2 100-150 10,0
свыше 500 29,7 150-250 18,0
250-400 21,0
400-500 23,0
свыше 500 24,0
ИТОГО 100,0 100,0

Проведем вторичную группировку колхозов второго района, приняв за основу группировку первого района, используя метод долевой перегруппировки (таблица 3.5).Таблица 3.5 – Вторичная группировка

Поясним расчеты. В первую, вновь образованную группу колхозов второго района с числом дворов до 100 войдут первые три группы колхозов, удельный вес которых равен 4% (1+1+2).Теперь надо образовать вторую группу колхозов с числом дворов от 100 до 200. В нее входит четвертая группа колхозов с числом дворов от 100 до 150, составляющая 10% общего числа колхозов, а также часть пятой группы, из которой должны перейти 50 дворов. Для определения числа колхозов, которые надо взять из пятой группы во вновь образованную, условно принимается, что оно должно быть пропорционально удельному весу отобранных дворов. Удельный вес 50 дворов в пятой группе равен: , или 50%.

Следовательно, в новую группу надо взять половину колхозов из пятой группы: .

Таким образом, удельный вес колхозов новой группы с числом дворов 100–200 составит 19% (10+9).

При формировании группы колхозов с числом дворов 200 – 300 видно, что в нее войдет часть пятой группы с удельным весом колхозов 9% и часть шестой группы, из которой надо добавить в третью группу 50 дворов, пропорционально которым должно быть отобрано из этой группы 7% колхозов: .Тогда группа колхозов с числом дворов 200–300 составит 16% (9+7).

Аналогично производится расчет при образовании других групп. Если наряду с удельными весами имеются абсолютные значения показателей по группам, то все расчеты показателей по вновь образованным группам ведутся в тех же соотношениях, что и численность распределения единиц. Таким образом, сравнивая оба района по числу дворов в колхозах, видно, что во втором районе оно было более дифференцировано, чем в первом районе.

Группировки, построенные за один и тот же период времени, но для разных объектов или, наоборот, для одного объекта, но за два разных периода времени могут оказаться несопоставимыми из-за различного числа выделенных групп или неодинаковости границ интервалов.

Вторичная группировка, или перегруппировка сгруппированных данных применяется для лучшей характеристики изучаемого явления (в случае, когда первоначальная группировка не позволяет четко выявить характер распределения единиц совокупности), либо для приведения к сопоставимому виду группировок с целью проведения сравнительного анализа.

Вторичная группировка - операция по образованию новых групп на основе ранее осуществленной группировки.

Применяют два способа образования новых групп. Первым, наиболее простым и распространенным способом является изменение (чаще укрупнение) первоначальных интервалов. Второй способ получил название долевой перегруппировки и состоит в образовании новых групп на основе закрепления за каждой группой определенной доли единиц совокупности. Проиллюстрируем методику вторичной группировки на следующем примере.

Распределение сотрудников предприятия по уровню дохода

Произведем перегруппировку данных, образовав новые группы с интервалами до 5, 5-10,10-20,20-30, свыше 30 тыс. руб.

В первую новую группу войдет полностью первая группа сотрудников и часть второй группы. Чтобы образовать группу до 5 тыс. руб., необходимо от интервала второй группы взять 1,0 тыс. руб. Величина интервала этой группы составляет 6,0 тыс. руб. Следовательно, необходимо взять от нее 1/6 (1,0:6,0) часть. Аналогичную же часть во вновь образуемую первую группу надо взять и от численности работающих, то есть 20 х 1/6 = 3 чел. Тогда в первой группе будет работающих: 16+3 = 19 чел.

Вторую новую группу образуют работающие второй группы за вычетом отнесенных к первой, то есть 20-3 = 17 чел. Во вновь образованную третью группу войдут все сотрудники третьей группы и часть сотрудников четвертой. Для определения этой части от интервала 18-30 (ширина интервала равна 12) нужно добавить к предыдущему 2,0 (чтобы верхняя граница интервала была равна 2,0 тыс. руб.). Следовательно, необходимо взять часть интервала, равную . В этой группе 74 человека, значит надо взять 74х(1:6) = 12 чел. В новую третью группу войдут 44+12 = 56 чел. Во вновь образованную четвертую группу войдут 74-12 = 62 чел., оставшихся от прежней четвертой группы. Пятую вновь образованную группу составят работающие пятой и шестой прежних групп: 37+9 = 46 чел.

Группировка данных производится в соответствии с программой сводки для того, чтобы впоследствии представить полученную информацию доступно для восприятия.

Группировка — объединение единиц совокупности в некоторые группы, имеющие свои характерные особенности, общие черты и сходные размеры изучаемого признака.

Результаты группировки оформляются в виде группировочных таблиц , делающих информацию обозримой. Таблица содержит сводную числовую характеристику исследуемой совокупности по одному или нескольким существенным признакам, взаимосвязанным логикой анализа.

Пример 5.2. Основа группировочной таблицы

Название таблицы (общий заголовок)

Группировочная таблица содержит три вида заголовков: общий, верхний и боковые. Заголовки таблиц должны быть краткими и раскрывать содержание показателей.

Общий заголовок отражает содержание всей таблицы с указанием, к какому месту и времени она относится. Он располагается над макетом по центру и является внешним заголовком. Верхние заголовки характеризуют содержание граф (заголовки сказуемого), а боковые (заголовки подлежащего) — строк. Подлежащее статистической таблицы — объект, характеризующийся цифрами. Сказуемое — система показателей, которыми характеризуется объект изучения, т.е. подлежащее. Следует избегать появления клеток, в которых не может быть исходных данных. В клетках, где отсутствуют данные по причине неполноты исходной информации, делают специальные пометки.

Пример 5.3. Пример группировочной таблицы

Отношение студентов факультета ГиСЭО к понижению размера стипендии (по результатам исследования в январе 1999 г.)

Таким образом, группировка — это разделение единиц совокупности на группы по выбранным варьирующим признакам.

Группировки различают по:

Задачам систематизации данных;

Числу группировочных признаков;

Используемой информации.

По задачам систематизации данных различают: типологические, структурные и аналитические.

Типологические группировки предназначены для выявления качественно однородных групп совокупностей, т.е. объектов, близких друг к другу одновременно по всем группировочным признакам. Например, группировка предприятий города по формам собственности. Типологическая группировка разбивает разнородную совокупность единиц наблюдения на качественно однородные группы (классы, типы явлений). При ее построении в качестве группировочных признаков могут использоваться количественные и атрибутивные признаки.

Структурные группировки— это разделение однородной совокупности на группы, характеризующие ее структуру по определенному группировочному признаку. Например, группировка рабочих цеха по квалификации. Другим примером структурной группировки является группировка отраслей экономики в топливно-энергетическую, нефтехимию, аграрно-промышленный комплекс, горнодобывающую, телекоммуникационную, транспортную, металлургию, оборонные отрасли и т.п. По своей природе структурная группировка является также достаточно общей, хотя в отдельных случаях по общности она и уступает типологическим группировкам.

Аналитические группировки предназначены для выявления зависимости между признаками. Строят аналитические группировки, выделив результирующие признаки, т.е. признаки, которые изменяются под влиянием факторных признаков, и факторные признаки, т.е. те, зависимость результирующих признаков от которых исследуется. Аналитическая группировка отличается следующими особенностями: единицы совокупности группируются по факторному признаку; каждая выделенная группа характеризуется средними значениями результативного признака, по изменению величины которых определяется наличие связи и зависимостей между признаками. Каждая выделенная группа должна содержать статистически однородные единицы совокупности по группировочному признаку. Количество единиц в каждой выделенной группе должно быть достаточным для получения надежных статистических характеристик исследуемого явления или процесса.

По используемой информации различают первичные и вторичные группировки.

Первичные группировки производятся на основе исходных данных, полученных в результате статистических наблюдений.

Вторичные группировки — результат объединения или расщепления первичных группировок, они позволяют преодолевать несопоставимость исходных данных в первичных группировках и тем самым объединять их в одну общую и выполнять сравнение, сопоставление данных, представленных в них после проведения вторичной группировки.

При разработке первичной группировки существенное значение имеет выбор числа групп . Число групп зависит от типа признака, положенного в основу группировки (основания группировки), от объема совокупности, степени вариации признака.

При построении группировок по качественному признаку количество групп соответствует количеству уровней градации признака. При группировании по количественному признаку все множество значений признака делится на интервалы. При этом возможно два подхода: группировка с равными и неравными интервалами.

Для определения этих параметров в первом случае рекомендуется формула Стерджесса:

n = 1 + (3,322× lgN) , (5.1)

где N — количество наблюдений.

В этом случае величина интервала:

I = (Хmax - Xmin)/n . (5.2)

Основные этапы построения статистических группировок включают:

Выбор группировочного признака;

Определение необходимого числа групп, на которые следует разбить изучаемую совокупность;

Установление границ интервалов группировки;

Установление для каждой группировки показателей или их системы, которыми должны характеризоваться выделенные группы.

Группировка с неравными интервалами порождает массу проблем при обработке данных, поэтому следует, по мере возможности, избегать таких группировок.

Вопросы для самопроверки:

Что такое сводка?

Что представляет собой группировка данных?

Какие вы знаете виды группировок?

В чем особенности каждого вида группировки?

Какова связь между группировкой, таблицей и сводкой?

В чем особенность сложных многомерных группировок?

Что означает вторичная группировка?

Для чего нужна вторичная группировка?

Перегруппировка ранее сгруппированных статистических данных называется вторичной группировкой. К этому методу прибегают в тех случаях, когда в результате первоначальной группировки нечетко проявился характер распределения изучаемой совокупности.

В этом случае производят укрупнение или уменьшение интервалов. Также вторичная группировка используется для приведения к сопоставимому виду группировок с различными интервалами с целью их сравнения. Рассмотрим приемы вторичной группировки на примере.

Пример 1.

Произвести укрупнение интервалов на основе данных таблицы 2.7.:

Таблица 2.7.

Число магазинов

Приведенная группировка недостаточно наглядна, потому что не показывает четкой и строгой закономерности в изменении товарооборота по группам.

Уплотним ряды распределения, образовав шесть групп. Новые группы образованы путем суммирования первоначальных групп (табл. 2.8.).

Таблица 2.8.

Группы магазинов по размеру товарооборота за IV квартал, тыс.руб.

Число магазинов

Товарооборот за IV квартал, тыс.руб.

Товарооборот в среднем на 1 магазин, тыс.руб.

Совершенно четко видно, чем крупнее магазины, тем выше уровень товарооборота.

Пример 2.

Имеются следующие данные о распределении колхозов по числу дворов (табл. 2.9.).

Таблица 2.9.

Удельный вес колхозов группы в процентах к итогу

Группы колхозов по числу дворов

Эти данные не позволяют провести сравнение распределения колхозов в 2-х районах по числу дворов, так как в этих районах имеется различное число групп колхозов. Необходимо ряды распределения привести к сопоставимому виду.

За основу сравнения необходимо взять распределение колхозов 1 района. Следовательно, по второму району надо произвести вторичную группировку, чтобы образовать такое же число групп и с теми же интервалами, как и в первом районе. Получим следующие данные (табл.2.10.).

Таблица 2.10.

Группы колхозов по числу дворов

Удельный вес колхозов группы в % к итогу

21-7=14, 14+23=37

Для определения числа колхозов, которые надо взять из пятой группы во вновь образованную, условно примем, что это число колхозов должно быть пропорционально удельному весу отобранных дворов в группе.

Определяем удельный вес 50 дворов в пятой группе.

(50 * 18) / (250 - 150) = 9

Определяем удельный вес 50 дворов в шестой группе.

(50 * 21) / (400 - 250) = 7 и т.д.