Data sahəsində yenicə addımlamağa başlamısınızsa və yeni bacarıqlar əldə edərək portofilonuzu yaratmaq istəyirsinizsə, açıq mənbələr köməyinizə çatacaq. Bunun üçün data əldə edə biləcəyiniz 7 mənbədən faydalana bilərsiniz.
1. Google Dataset Search
https://toolbox.google.com/datasetsearch
Google data setlər üçün xüsusi axtarış “motoru” yaradıb. Hələ də “beta” halında olduğundan istənilən mövzu üçün çox yaxşı nəticələr vəd etməsə də, datanı axtararkən ilk baxmalı olacağınız yerdir.
2. Kaggle
https://www.kaggle.com/datasets
Kaggle Data Science müsabiqə saytıdır. Burada müxtəlif qruplar məlumat və təkliflərini yayımlayırlar. Saytın istifadəçiləri müəyyən bir vaxt ərzində layihələri tamamlayırlar. Ən yaxşı tərəfi odur ki, onların saytda paylaşdıqlarını pulsuz yükləmək mümkündür. Hazırda saytda 12.000 data seti var.
3. Github
https://github.com/search?q=datasets
Github internetdə paylaşılan kod anbarları üçün dünya standartıdır. Github sadəcə koddan ibarət deyil. Data axtarmaq üçün yaxşı yer olmaqla bərabər, bir çox layihənin olduğu bu platformada data setlərindən istifadə edə bilərsiniz. Github-da verilmiş başqa ictimai data resursları listini aşağıdakı link vasitəsilə nəzərdən keçirə bilərsiniz.
(https://github.com/awesomedata/awesome-public-datasets)
4. Data.gov
Əksər dövlət agentliklərində ictimaiyyətin istifadəsi və yükləməsi üçün datalar mövcuddur. Siz şəhər, dövlət və federal data setlərini tapa bilərsiniz. Ətraf mühit, iqtisadiyyat, demoqrafiya və bir çox başqaları haqqında məlumat setləri də var.
https://www.usa.gov/statistics
https://www.federalreserve.gov/data.htm
5. The World Bank
Dünya Bankı bütün dünya ölkələri haqqında çoxlu sayda müxtəlif informasiyalar verir.
6. FiveThirtyEight
https://data.fivethirtyeight.com/
FiveThirtyEight xəbər mövzularının geniş çeşidini əhatə edir və həmişə məqalələrinizdə məlumatları ehtiva edir. Hazırda onlar istifadə etdikləri data setlərini paylaşırlar. Bu, idman, mədəniyyət və siyasət haqqında məlumatların əla mənbəyidir.
7.Data.World
DATA Dünyası məlumat dəstlərinin(data sets) geniş çeşidinə malikdir və bu, verilmiş məlumat layihəsinin digər iştirakçıları ilə asanlıqla əməkdaşlıq etməyə imkan verir. Bu saytda sizə data dəstlərinə daxil olmaq üçün giriş yaratmaq lazım olacaq.
Keyfiyyət Yoxlanışı (Quality Check)
İnternetdə tapa biləcəyiniz hər hansı bir məlumat dəsti üçün soruşmağınız vacib olan bir neçə sual var:
1. Bu məlumat mənbəyinə necə etibar edə bilərik?
Məlumat mənbəyinin reputasiyasını nəzərdən keçirin, onlar böyük bir təşkilat və ya bir şəxslərdirmi? Əgər siz çox şübhəçisizsə, eyni mövzu ilə bağlı başqa mənbələri də yoxlayın, beləliklə, rəqəmlərin doğruluğunu müqayisə edə biləcəksiniz. Yuxarıda verilən mənbələr yüksək reputasiyaya əsasən sıralanıb. Ancaq bəzi DataWorld və GitHub kimi kənardan müdaxilə oluna bilən vebsaytlar barədə ehtiyatlı olmaq lazımdır, çünki onlar çox güman ki, yoxlanılmır.
2. Bu məlumatlar qeyri-dəqiq ola bilərmi?
Məlumatları araşdırın,hər hansı bir sütun üçün maksimum və minimum olması lazım olanı qarşılaşdırın və sonra bu dəyərin həmin təxminin xaricində olub-olmadığını yoxlayın. Maksimum və minimumu tapmaq üçün ən yaxşı üsul onu hər bir sütuna görə artan və ya azalan şəkildə sıralamaqdır. Bu prosesi “Excel”-də və ya “Google Sheets”- də etmək üçün bütün datanı seçib, filter ikonuna kliklədikdən sonra A-dan Z-yə və ya Z-dən A-ya seçimlərindən birini seçmək lazımdır.
Çox vaxt isə daxil edilən data yanlış ola bilir, məsələn: kimsə $11,000.00 əvəzinə $1,100.00 və ya $11,00.00 yaza bilər. Başqa mümkün nümunələrdən biri: məsələn, bəzən insanlar həqiqi telefon nömrələrini daxil etmək yerinə çoxlu 9999999999 və ya 0000000000 lar daxil edirlər.
3. Bu məlumatlar natamam ola bilərmi?
Çox vaxt data setindəki data itmiş ola bilər. İstifadə etmək istədiyiniz hər hansı bir məlumat dəstində boş və ya itkin dəyərlərin mövcudluğunu yoxlamaq tövsiyə olunur. Bu prosesi etmək üçün Excel-də, məsələn, COUNTBLANK (boşluğu say) funksiyasından istifadə edə bilərsiniz. Məsələn, aşağıdakı şəkildəki COUNTBLANK (B1:B3) boş sahə sayının 1 olduğunu göstərir.
4. Məlumatlar təhrif edilirmi?
Məlumat dəstində müxtəlif məlumat sütunlarını görüntüləmək üçün cəhd edin. Rəqəmli sütunlar üçün histoqram istifadə edin. Hər bir sütun üçün hansı paylama növü mövcud olduğuna baxın (normal, sol, sağ, vahid, bimodal və s.). Qeyri-rəqəmli sütunlar üçün tezlik (frequency) cədvəlini istifadə edin, bu, əsasən bir dəyərdirmi? Bu şeylərin yoxlanılması məlumatların ümumi keyfiyyəti və analizdə hansı sütunların istifadə edilməsi barədə intuisiyanın yaranmasına imkan verəcək.
Ümumi Paylanma şəkildəki kimidir:
Bir çox data alətlər bütün bu növ problemləri keyfiyyətli,tez və asanlıqla yoxlamağa imkan verir. Excel və Google Sheets csv və ya excel fayllarını tez və asanlıqla istifadə edir. Burada çoxlu sütunları eyni zamanda yoxlamağı mümkün edən Alteryx kimi daha üstün alətlər var.