Standardizazione di Dati: Definisce, Pruvate è Trasfurmà

Standardizazione di Dati

Mentre l'urganisazioni cambianu versu a creazione di una cultura di dati in tutta l'impresa, assai sò sempre in difficultà per ottene e so dati. Tirendu dati da fonti disparate è ottene formate è rapprisintazioni varianti di ciò chì hè suppostu esse a listessa infurmazione - pruvuca serii blocchi stradali in u vostru viaghju di dati.

E squadre sperimentanu ritardi è errori mentre realizanu e so operazioni di rutina o estrae insights da set di dati. Tali prublemi forzanu l'imprese à intruduce un mecanismu di standardizazione di dati - chì assicura chì e dati sò prisenti in una vista coherente è uniforme in tutta l'urganizazione. 

Fighjemu un ochju più profondu à u prucessu di standardizazione di dati: ciò chì significa, i passi chì implica, è cumu pudete ottene una vista di dati standard in a vostra impresa.

Cosa hè a Standardizazione di Dati?

Simply put, a standardizazione di dati hè u prucessu di trasfurmà i valori di dati da un formatu incorrectu à un furmatu currettu. Per attivà una vista di dati standardizata, uniforme è coherente in tutta l'urganizazione, i valori di dati devenu esse conformi à u standard necessariu - in u cuntestu di i campi di dati chì appartenenu.

Esempiu di errore di standardizazione di dati

Per esempiu, u stessu registru di u cliente chì risiede in dui lochi diffirenti ùn deve micca cuntene discrepanze in nome è cognome, indirizzu email, numeru di telefunu è indirizzu residenziale:

nomu Indirizzu mail Numeru di telefonu Data di nascita Francine Massiani Indirizzu Residenziale
Ghjuvanni Oneel john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 W Olimpic BL # 200
Fonte 1

Nome Casata Indirizzu mail Numeru di telefonu Data di nascita Francine Massiani Indirizzu Residenziale
Ghjuvanni O'neal john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 Male 11400 W Olimpic 200
Fonte 2

In l'esempiu sopra, pudete vede i seguenti tipi di inconsistenzi:

  1. Strutturale: A prima fonte copre u Nome di u Cliente cum'è un unicu campu, mentre chì a seconda si guarda cum'è dui campi - Nome è Cognome.
  2. Pattern: A prima fonte hà a mudellu di email validu infurzatu in u campu di l'indirizzu email, mentre chì u sicondu hè visibilmente mancante @ simbulu. 
  3. Tipu di dati: A prima surghjente permette solu i numeri in u campu di u Numeru Telefuninu, mentre chì u sicondu hà un campu di stringa chì cuntene simboli è spazii.
  4. Format: A prima fonte hà a data di nascita in u furmatu MM/GG/AAAA, mentre chì a seconda hà in u formatu GG/MM/AAAA. 
  5. Valore di u duminiu: A prima fonte permette u valore di Genere per esse guardatu cum'è M o F, mentre chì a seconda fonte guarda a forma cumpleta - Male o Female.

Tali inconsistenzi di dati vi portanu à fà sbaglii serii chì ponu fà chì a vostra attività perde assai tempu, costu è sforzu. Per quessa, implementà un mecanismu end-to-end per u standardizazione di dati hè cruciale per mantene a vostra igiene di dati.

Cumu standardizà i dati?

A standardizazione di dati hè un prucessu simplice di quattru passi. Ma sicondu a natura di l'inconsistenze prisenti in i vostri dati è ciò chì cercate di ottene, i metudi è e tecniche utilizati per a standardizazione pò varià. Quì, prisentamu una regula generica chì ogni urganizazione pò aduprà per superà i so errori di standardizazione. 

  1. Definite quale hè u standard

Per ottene ogni statu, devi prima definisce ciò chì u statu hè veramente. In u primu passu di ogni prucessu di standardizazione di dati hè di identificà ciò chì hè necessariu per esse rializatu. U megliu modu per sapè ciò chì avete bisognu hè di capisce i bisogni di l'affari. Avete bisognu di scansà i vostri prucessi di cummerciale per vede quale dati hè necessariu è in quale formatu. Questu vi aiuterà à stabilisce una basa per i vostri bisogni di dati.

Una definizione standard di dati aiuta à identificà:

  • L'assi di dati cruciali per u vostru prucessu cummerciale, 
  • I campi di dati necessarii di quelli assi,
  • U tipu di dati, u formatu è u mudellu i so valori devenu esse conformi,
  • A gamma di valori accettabili per questi campi, è cusì.

  1. Pruvate datasets contru à u standard definitu

Una volta avete una definizione standard, u prossimu passu hè di pruvà quantu bè i vostri datasets sò eseguite contru à elli. Una manera di valutà questu hè di utilizà profilazione di dati Strumenti chì generanu rapporti cumpleti è truvà infurmazioni cum'è u percentualità di i valori chì cunformanu à i requisiti di u campu di dati, cum'è:

  • I valori seguenu u tipu è u formatu di dati richiesti?
  • I valori si trovanu fora di u intervallu accettabile?
  • I valori usanu forme abbreviate, cum'è abbreviazioni è soprannomi?
  • Paghjella indirizzi standardizzati quantu bisognu - cum'è Standardizazione USPS per l'indirizzi US?

  1. Trasfurmà i valori non-conforming

Avà hè infine u tempu di trasfurmà i valori chì ùn sò micca conformi à u standard definitu. Fighjemu un ochju à e tecniche cumuni di trasfurmazioni di dati utilizati.

  • Analisi di dati - Certi campi di dati devenu esse prima analizati per uttene i cumpunenti di dati necessarii. Per esempiu, analizà u campu di u nome per separà u primu, u mediu è u cognome, è ancu qualsiasi prefissi o suffissi prisenti in u valore.
  • Tippu di dati è cunversione di furmatu - Pudete bisognu di caccià i caratteri non-conforming durante a cunversione, per esempiu, sguassate simbuli è alfabeti da un numeru di telefuninu solu di numeri.
  • Cunfrontu di mudellu è validazione - A cunversione di u mudellu hè fatta da cunfigurà una espressione regulare per u mudellu. Per i valori di l'indirizzu email chì conformanu à una espressione regulare, devenu esse analizati è trasfurmati in u mudellu definitu. un indirizzu email pò esse validatu usendu u regex:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Espansione di l'abbreviazione - I nomi di l'imprese, l'indirizzi è i nomi di persone spessu cuntenenu forme abbreviate chì ponu guidà u vostru dataset à cuntene diverse rapprisentazione di a stessa informazione. Per esempiu, pudete avè da espansione i stati di u paese, cum'è cunvertisce NY à New York.
  • Eliminazione di u rumore è correzione di ortografia - Certi parolle ùn aghjunghjenu micca veramente un significatu à un valore, è invece, intruduce assai rumore in un dataset. Tali valori ponu esse identificati in un inseme di dati eseguendulu contru à un dizziunariu chì cuntene queste parolle, marcanduli, è decide quale sguassate permanentemente. U listessu prucessu pò esse eseguitu per truvà errori d'ortografia è di scrittura.

  1. Retest u dataset contru à u standard definitu

In l'ultimu passu, u dataset trasfurmatu hè torna testatu contr'à u standard definitu per sapè u percentualità di l'errore di standardizazione di dati chì sò stati fissi. Per l'errore chì restanu sempre in u vostru dataset, pudete sintonizà o ricunfigurate i vostri metudi è eseguite i dati attraversu u prucessu di novu. 

Conclude

A quantità di dati chì sò generati oghje - è a varietà di strumenti è tecnulugii utilizati per catturà questi dati - portanu l'imprese à affruntà u terribile disordine di dati. Hanu tuttu ciò chì anu bisognu, ma ùn sò micca sicuru perchè e dati ùn sò micca prisenti in una forma è forma accettabile è utilizable. Aduttà strumenti di standardizazione di dati pò aiutà à rectificà tali inconsistenze è attivà una cultura di dati assai necessaria in tutta a vostra urganizazione.

Chì ne pensi?

Stu situ utilizeghja Akismet per reducisce u puzzicheghju. Sapete ciò chì i dati di i vostri dati è processatu.