Antud sektsioonis on kirjeldatud profileerimise, andmekvaliteedi mõõtmise, andmekvaliteedi juhtimislaua loomise ja reeglite haldamise rakenduslikud näited. Näited on esitatud programmeerimiskeeles R[1], mida kasutatakse laialdaselt andmete analüüsiks. Näidisalgoritmide käivitamise eelduseks on, et arvutisse on paigaldatud programmeerimiskeele R interpretaator[2] ning arendustööriist RStudio[3].
Lisaks kasutavad järgnevalt esitatud andmekvaliteedi mõõtmise näited Mark van der Loo ja Edwin de Jonge poolt arendatud validate[4] paketti. Validate pakett lihtsustab R keeles andmete kvaliteedi mõõtmist ning andmekvaliteedi reeglite haldamist.
Pakett võimaldab:
- testida andmekomplekti vastu eeldefineeritud reegleid, kas siis andmekomplekti sees või nende üleselt;
- importida ja eksportida defineeritud andmekvaliteedi reegleid;
- uurida ja visualiseerida andmekvaliteedi tulemusi;
- teostada lihtsat reeglite haldust;
- defineerida ja hallata andmete kvaliteedi indikaatoreid andmetest eraldiseisvalt.
Paketi peamised objektid:
- validator – objekt, mis esitab hulka reegleid, millele andmed peavad vastama
- indicator – objekt, mis esitab hulka numbrilisi kvaliteedi indikaatoreid
- confrontation – objekt, mis esitab andmete andmekvaliteedi reeglite või indikaatoritega vastandamise tulemusi
Paketis on ka meetod confront, mis rakendab andmetele andmekvaliteedi reegleid või andmekvaliteedi indikaatoreid.
Lisaks validate paketile kasutatakse rakenduslikes näidetes paketti dlookr[5] andmete profileerimiseks ning pakette data.table[6], stringr[7] ja tidyr[8] andmete töötluse lihtsustamiseks.
[1] https://www.r-project.org/
[2] https://cran.r-project.org/bin/windows/base/
[3] https://rstudio.com/products/rstudio/download/
[4] https://cran.r-project.org/web/packages/validate/vignettes/introduction.html
[5] https://cran.r-project.org/web/packages/dlookr/
[6] https://cran.r-project.org/web/packages/data.table/
[7] https://cran.r-project.org/web/packages/stringr/
[8] https://cran.r-project.org/web/packages/tidyr/