Data analitikası öyrənirik: Statistik funksiyalar Exceldə
Describing datalar özləri mərkəzi tendensiyalara ( central tendency) və variasiyalara (variation) ayrılır.
Variasiyalara isə “Range”,” interquartile Range”,” Variance”,” Standard Deviation”,” coefficient of Variation” aiddir.
Mərkəzi tendensiyalara mean, median və mode daxildir.
Bu bloq yazısında ilk olaraq mean, median və mode haqqında oxuyacaqsız.
Mean, Median, Mode nədir?
Riyazi olaraq necə hesablandığına baxaq.
Mean nədir?
İlk olaraq ortanın yəni mean-in hesablanmasına nəzər salaq. Qeyd etmək istərdimki ana kütlədə yəni population mean və sample mean eyni olaraq hesablanır. Sadəcə burada işarə fərqi vardır. Aşağıda “Arithmetic mean” yəni hesabi ortanın ana kütlədə hesablanması qaydası verilib.
Burada
X1 ,X2 ,X3 ,…, Xn - variasiya əlamətlərinin (variantların) fərdi qiyməti,
n -məcmuu vahidlərinin sayı,
Σ – cəm işarəsi.
Hesabi orta Sampling datalarda isə X kimi işarə olunur və aşağıdakı kimi hesablanır.
Population və sampling data nədir soruşsaz , izahını belə verə bilərəmki, təsəvvür edin sizdə 10.000.000 data var bu bizim üçün population data olacaqdır, yəni ana kütlədə olan data. Əgər biz buradan yalnız 2000-lik datanı analiz etmək istəyiriksə bu bizim sampling datamız olacaqdır. Yəni "population" əlimizdə var olan data, "sampling" isə əlimizdə olan datadan nümunə kimi seçilmiş datadır.
Biznes və iqtisadiyyatda vacib olan mərkəzi tendensiyanın digər bir ölçüsü həndəsi ortadır. Həndəsi orta (geometric mean) aşağıdakı kimi hesablanır.
Mode (M0 ) nədir?
Mode təsadüfi kəmiyyətin qiymətidir, diskret variasiyalı sıralarda daha böyük ehtimalla rast gəlinir, həmin variant daha yüksək tezliyə malikdir. Başqa sözlə, öyrənilən ictimai hadisədə ən çox təsadüf edilən variant statistikada mode adlanır. Yəni, yüksək xüsusi çəkiyə malik olan varianta mode deyilir.
Median (Me ) nədir?
Median variasiya sırasının ortasında yerləşir. Müəyyən ranqlaşdırılmış qayda ilə (artan və ya azalan) düzülmüş sıranı iki bərabər hissəyə bölən ədədə median deyilir. Medianı tapmaq üçün, nizamlanmış sıranın ortasında yerləşən əlamətin kəmiyyətini axtarmaq lazımdır.
Tək sıra üçün medianın nömrəsi aşağıdakı düsturla tapılır.
burada, n - sıranın elemetlərinin sayı.
Əgər sıra cüt təşkil olunubsa, onda median, sıranın ortasında dayanan iki variantın ortasına bərabərdir.
Aşağıda birinci verdiyimiz misalda exceldə median 22,5 almışıq. Riyazi olaraq hesablasaq sıra cüt olğuna görə
alınır, yəni 5ci və 6cı sıradakı elementin ortası tapılır.
Tək sıralı medianı tapaq.
Fərz edək ki, sıra 11 fəhlənin aylıq əmək haqqından ibarətdir (man):
342,445,631,526,475,696,730,750,735,810,920
Dataları sıralayaq.
342,445,475,526,631,696,730,735,750,810,920.
Median 6cı sırada duran element olacaqdır, yəni 696.
Bu o deməkdir ki, fəhlələrin bir qrupunun əmək haqqı 696 manatdan aşağı, digərlərinin ki, isə ondan yuxarı olmalıdır.
İndi isə exceldə mean, median və mode necə hesablanır ona nəzər salaq.
Əgər biz ortanı (mean) tapmaq istəyiriksə bu zaman Average funksiyasından istifadə edə bilərik.
Məsələn,
Aşağıda verilənlərin orta qiymətini tapmalı:
13, 21, 12, 34, 31, 13, 22, 26, 25,23.
Bu zaman exceldə formulanı aşağıdakı şəkildə yaza bilərik.
=Average(A1;A10)
Medianın hesablanması zamanı =MEDİAN(A1;A10) daxil edərək mümkündür.
Bu misala əsasən bizim medianımız 22,5 alınır.
Qeyd: Median hesablanan zaman daxil etdiyimiz data sort olunmalıdır , yəni rəqəm məlumatlarını aşağıdan yuxarıya sırası ilə düzmək vacibdir.Bunu etmək üçün Home menyusundan Sort&Filter panelində “Sort Smallest to Largest” seçmək lazımdır. Məhz bu edildikdən sonra hesablama aparılmalıdır.
Mode hesablanması zamanı isə =MODE.SNGL(A1;A10) daxil edilir. Burada yüksək xüsusi çəkiyə malik olan variant 13- dü, çünki 13 dəyəri 2 dəfə təkrarlanmışdı.
Digər misala nəzər salaq:
Verilənlərə əsasən mode-ni tapmalı:
2,5,8,19,32
Burada Mode yoxdu. Çünki yüksək tezlikli variant yoxdu.