logo
Metod_ukazania

2.4.2 Метод группировки данных

Группировка - это расчленение совокупности данных на группы с целью изучения ее структуры или взаимосвязей между компонентами. В процессе группировки единицы совокупности распределяются по группам в соответствии со следующим принципом: различие между единицами, отнесенными к одной группе, должно быть меньше, чем различие между единицами, отнесенными к разным группам.

В анализе финансово-хозяйственной деятельности используются в основном два вида группировок: структурные и аналитические.

Структурные группировки предназначены для изучения структуры и состава совокупности, происходящих в ней сдвигов относительно выбранного варьирующего признака. Структурная группировка оформляется, как правило, в виде таблицы, в подлежащем которой находится группировочный признак, а в сказуемом - показатели, характеризующие структуру совокупности либо в динамике, либо в пространстве. Этот вид группировки характеризует структуру совокупности по какому-то одному признаку. Изменение структуры группировки чаще всего описывается одним из двух показателей.

Данные структурных группировок обычно представляются в форме соответствующей таблицы.

Пример. Структурная группировка

№ группы

Параметры групп, лет

Число рабочих в группе

Удельный вес рабочих в группе, %

Границы интервалов

Ширина интервала

Середина интервала

Нижняя

Верхняя

1

0

4

4

2

6

12

2

4

8

4

6

8

16

3

8

12

4

10

11

22

4

12

16

4

14

13

26

5

16

20

4

18

6

12

6

20

24

4

22

4

8

7

24

28

4

26

2

4

Итого

0

28

28

14

50

100

Аналитические группировки предназначены для изучения взаимосвязей между двумя и более показателями, характеризующими исследуемую совокупность. Один из показателей при этом рассматривается как результативный, а остальные - как факторные. По аналитической группировке можно рассчитать силу связи между факторами.

Групповые таблицы можно строить как по одному признаку (простые группировки) так и по нескольким (комбинационные группировки).

Информационная основа - генеральная совокупность однотипных объектов или выборочная совокупность.

Пример. Аналитическая группировка

Группировка коммерческих банков России по сумме активов баланса

Группа банков по сумме активов баланса, млн. руб.

Количество банков, ед.

В среднем на один банк

Численность занятых, чел.

Балансовая прибыль, млрд.руб.

1

До 20000

19

184

22,5

2

20000-30000

8

313

31,6

3

30000-40000

7

374

36

4

40000-50000

9

468

69,2

5

50000 и более

7

516

205,6

итого

50

323

60

Данные таблицы характеризуют зависимость между суммой активов банка и численностью занятых, а так же суммой балансовой прибыли. Чем больше сумма активов, тем выше прибыль банка и численность его сотрудников. У первой группы средняя численность занятых в 2,8 раза меньше, чем у пятой, а балансовая прибыль меньше в 9,1 раза.

2.4.3 Элементарные методы обработки расчетных данных

При изучении совокупности значений изучаемых величин, помимо средних, используют и другие характеристики. При анализе больших массивов данных обычно интересуются двумя аспектами: во-первых, величинами, которые характеризуют ряд значений как целого, т.е. характеристиками общности, во-вторых, величинами, которые описывают различия между членами совокупности, т.е. характеристиками разброса (вариации) значений.

Середина интервала возможных значений xi рассчитывается по формуле:

(50)

Мода - такое значение изучаемого признака, которое среди всех его значений встречается наиболее часто. Если чаще других встречаются два или более различных значений, такую совокупность данных называют бимодальной или мультимодальной. Если же ни одно из значений не встречается чаще других (т.е. если все значения встречаются по одному разу или равное количество раз), такая совокупность является безмодальной.

Чтобы рассчитать моду, постройте ряд данных. Слева перечислите классы с постоянными интервалами; справа частоты, соответствующие этим классам. Средний класс будет считаться классом моды, для которого вы должны отметить нижний предел и разницу в частоте для нижнего и верхнего пределов. Послемодальный класс - это следующий класс в ряду, который «выше»; заметьте разницу в частоте. Затем, чтобы найти значение моды, примените следующую формулу.

(51)

Пример. Определить моду

Доход за период, (руб.)

Класс

Объем реализации (тыс. руб.)

2000-2500

100,0

3000-3500

120,0

3000-3500

150,0

2500-3000

130,0

2200-2700

100,0

Классы (категории дохода за период) ранжированы так, что наиболее часто встречающееся значение находится в середине. Это модальный класс. Поскольку каждый класс должен иметь постоянный интервал, данный необходимо разбить на два класса 3,000-3,500; класс, где частота больше, был выбран модальным.

Интервал класса составляет 500. Нижний предел модального класса - 3000, разница между нижней и верхней частотами равна 30 (150,0 – 120,0). Послемодальный класс – 2500 - 3000, а разница между нижней и верхней частотами равна 20 (150,0 – 130,0).

Значение модального дохода равно 3300.

Медиана - такое значение изучаемой величины, которое делит изучаемую совокупность на две равные части, в которых количество членов со значениями меньше медианы равно количеству членов, которые больше медианы. Медиану можно найти только в совокупностях данных, содержащих нечетное количество значений. Только тогда и слева, и справа от медианного значения будет одинаковое число членов.

Пример. Рассмотрим данные по категориям объема реализации и количеству организаций в каждой категории.

Реализация, тыс. руб.

Количество организаций

Кумулятивная частота

0-199

40

40

200-299

60

100

300-399

100

200

400-499

100

300

500-599

100

400

600 и выше

80

480

480

Классовые интервалы - это пределы объема реализации в левой колонке.

Количество организаций в каждом классе - это частота (средняя колонка). В правой колонке находятся кумулятивные частоты; к каждой новой частоте добавляется сумма предыдущих. Классом медианы является 400.0-499.0, потому что средний показатель в колонке. Его средний предел - 400.0, а интервал - 100. Кумулятивная частота до класса медианы - 200, а общая кумулятивная частота (общее количество во всех классах) равна 480.

Медиана реализации для этого ряда равна 440000.

В качестве показателей размаха и интенсивности вариации показателей чаще всего используются следующие величины: размах вариации, среднее линейное отклонение, среднеквадратическое отклонение, дисперсия и коэффициент вариации.

Размах вариации рассчитывается по формуле:

(52)

Среднее линейное отклонение (средний модуль отклонения) от среднего арифметического исчисляется по формуле:

(53)

Если используются весовые коэффициенты, то формула средневзвешенного среднего линейного отклонения имеет вид:

(54)

где wi - частота, с которой в изучаемой совокупности встречается значение xi.

Пример. Рассмотрим пример расчета среднего линейного отклонения по исходным данным, приведенным в таблице.

Распределение фирм по оснащенности работников промышленно – производственными основными фондами

Группа фирм по величине ППОФ на одного работника, тыс. руб.

Число фирм, % к итогу

Середина интервалов

До 1,0

7,8

0,5

3,9

6,16

48,048

1,1-2,0

12,2

1,5

18,3

5,16

62,952

2,1-3,0

14,9

2,5

37,25

4,16

61,984

3,1-5,0

23,3

4,0

93,2

2,66

61,078

5,1-10,0

24,3

7,5

182,25

0,84

20,412

10,1-20,0

10,6

15,0

159

8,34

88,404

20,1 и более

6,9

25,0

172,5

18,34

126,56

Итого

100

666,4

470,324

Алгоритм расчета среднего взвешенного линейного отклонения.

1.Принимаем середины интервалов столбца А за варианты признака и определяем их значение хi′.

2. Находим произведение середин интервалов на их веса xiwi, в итоге получаем значение 666,4.

3. Рассчитываем среднее значение показателя по формуле средней арифметической взвешенной

тыс. руб.

  1. Определяем значение величины

  2. Рассчитываем произведение , в результате получим значение 470, 324

  3. Рассчитываем взвешенное среднее линейное отклонение

тыс. руб.

Среднее линейное отклонение позволяет определить обобщенную характеристику колеблемости признака в совокупности, однако при его исчислении приходится иметь дело с модулями алгебраических выражений, что при упрощенных конечных выражениях может приводить к ошибкам и неточностям.

Более удобно использовать показатели вариации, найденные с использованием вторых степеней отклонений.

Полученная при этом мера вариации называется дисперсией (σ2), а корень квадратный из дисперсии – средним квадратическим отклонением (σ).

Дисперсия - средняя величина квадратов отклонений индивидуальных значений признака от их средней величины.

Рабочие зависимости для расчета дисперсии имеют вид:

а) простая дисперсия для не сгруппированных данных:

(55)

б) взвешенная дисперсия для интервального вариационного ряда:

(56)

Среднеквадратическое отклонение – корень квадратный из дисперсии.

а) простое среднеквадратическое отклонение для не сгруппированных данных:

(57)

б) взвешенное среднеквадратическое отклонение для интервального вариационного ряда:

(58)

Среднеквадратическое отклонение выражается в тех же единицах измерения, что и значение признака.

Величина среднеквадратического отклонения, как следует из ее определения, зависит от абсолютных значений самого изучаемого признака. Чем больше величины xi, тем больше будет σ. Поэтому для сравнения рядов данных, отличающихся по абсолютным величинам, вводят коэффициент вариации:

(59)

Этот коэффициент является показателем "количественной" неоднородности совокупности данных. Критическое значение его считается равным 33%. Если r > 33%, то совокупность нельзя признать однородной.