Extract Transform Load

INFORMASAUN GERAL

Extract

Projetu data-warehousing barak liu kobre dadus hosi sistema fonte ne'ebé dezenu ka lahanesan.
Sistema ida-idak mós bele uza organizasaun ka formatu dadus ne'ebé la hanesan. Formatu fonte dadus ne'ebé baibain uza mak hanesan:
Relational databases
Flat-file databases
XML no JSON
Struutura database non-relational (ezemplu: IBM Information Management System)
Struutura dadus seluk hanesan VSAM (Virtual Storage Access Method) ka ISAM (Indexed Sequential Access Method)
Formatos ne'ebé foti hosi li'ur liuhosi web crawler ka data scraping.
Streaming ba dadus ne'ebé foti ona no mós loading kedas (on-the-fly) ba database destinasaun mak dalan seluk atu hala'o ETL bainhira la presiza armazenamentu dadus intermediáriu (iha klaran).

Validasaun Dadus
Parte importante ida hosi foti dadus (extraction) mak validasaun dadus atu konfirma katak dadus ne'ebé foti hosi fonte sira iha valór ne'ebé loos ka tuir kualkér padraun (pattern) ne'ebé hein hela.
Se dadus la liu validasaun: Dadus ne'e sei lakon hotu ka balun de'it.
Relatóriu: Dadus ne'ebé rejeita ona, di'ak liu fó fali relatóriu ba sistema fonte atu analiza no hadi'a rejistu sira ne'ebé sala, ka hala'o data wrangling.

Transform

Funsaun importante ida hosi transformasaun mak hamos dadus (data cleansing), ne’ebé ho objetivu atu foti de’it dadus ne’ebé "loos" ba destinasaun. Dezafiu boot bainhira sistema oioin ko’alia ba malu mak oinsá sistema sira-ne’e liga no komunikasaun ba malu. Karakter (character sets) ne’ebé iha sistema ida karik la disponivel iha sistema seluk.
Iha kazu seluk, tipu transformasaun ida ka liu bele presiza hodi kumpri nesesidade negósiu no tékniku hosi servidór ka data warehouse:
Hili koluna de’it: Hili koluna balu de’it atu hatama (ka la hili koluna ne’ebé mamuk/null). Ezemplu: se dadus fonte iha koluna tolu—roll_no, age, no salary—ita bele foti de’it roll_no ho salary. Ka, sistema bele ignore de’it rejistu sira ne’ebé la iha saláriu (salary = null).
Tradús valór kódigu: Ezemplu: se sistema fonte kofifika mane hanesan "1" no feto hanesan "2", maibé iha warehouse kódigu ba mane mak "M" no feto mak "F".
Kodifika valór livre (free-form): Ezemplu: entrega "Male" ba "M".
Kalkula valór foun: Ezemplu: sale_amount = qty * unit_price.
Hatur ka ordena dadus (Sorting): Bazeia ba lista koluna sira atu ajuda buka dadus ho lalais.
Haburas (Joining) no Hasai Duplikadu: Halibur dadus hosi fonte oioin (ezemplu: lookup, merge) no hamos dadus ne’ebé duplikadu (deduplicating).
Agregasaun: Ezemplu: rollup – rezumu dadus hosi liña barak – totál fa’an ba loja ida-idak, no ba rejiaun ida-idak, nst.
Jera valór surrogate-key.
Transpoze ka Pivoting: Nakfila koluna barak ba liña barak, ka kontráriu.
Fahe koluna ida ba koluna barak: Ezemplu: konverte lista ida ne’ebé uza vírgula (comma-separated) iha koluna ida de’it ba valór ketak-ketak iha koluna oioin.
Fahe fali koluna ne’ebé repete (Disaggregating).
Buka (Lookup) no valida: Valida dadus ne’ebé relevante hosi tabela ka arkivu referensiál sira.
Aplika kualkér forma validasaun dadus: Validasaun ne’ebé falla bele rezulta iha rejection (rejeisaun) totál, balun, ka la rejeita lakonsekwensia. Tan ne’e, depende ba regra ne’ebé halo, dadus balu de’it ka hotu-hotu mak sei pasadu ba etapa tuirmai. Transformasaun barak iha leten bele rezulta iha exception (esesaun), ezemplu: bainhira tradusaun kódigu hetan kódigu ruma ne’ebé la koñese iha dadus ne’ebé foti ona.

Load

Etapa loading (hatama dadus) mak prosesu ne’ebé hatama dadus ba destinasaun finál, ne’ebé bele sai kualkér fatin armazenamentu dadus, hanesan arkivu flat file ne’ebé simples ka data warehouse ne’ebé kompleksu. Depende ba nesesidade organizasaun nian, prosesu ida-ne’e bele variedade tebes.
Substitui (Overwrite): Data warehouse balu bele hamos tiha informasaun antigu no troka fali ho informasaun foun ne’ebé akumuladu ona; baibain ida-ne’e akontese loron-loron, semanál, ka fulan-fulan.
Aumenta (Append): Data warehouse seluk bele aumenta de’it dadus foun ho forma istóriku iha intervalu tempu ne’ebé regulár—ezemplu: oras-oras.
Atu komprende ida-ne’e, imajina data warehouse ida ne’ebé presiza rai de’it rejistu fa’an nian ba tinan ida ikus. Data warehouse ne’e sei hamos (overwrite) dadus hotu ne’ebé liu ona tinan ida ho dadus foun. Maibé, durante tinan ida nia laran, dadus sira-ne’e hatama de’it (append) ho formatu istóriku. Desizaun atu troka ka aumenta dadus mak hili estratéjiku ne’ebé depende ba tempu ne’ebé iha no nesesidade negósiu nian. Sistema ne’ebé kompleksu liután bele rai istória no audit trail (trasu auditoria) ba mudansa hotu ne’ebé akontese iha data warehouse.
Tanba etapa loading ne’e ko’alia ho database, regras (constraints) ne’ebé define ona iha eskema database nian—no mós triggers ne’ebé ativu bainhira hatama dadus—sei aplika mós (ezemplu: uniqueness, integridade referensiál, no kampu ne’ebé obrigatóriu). Ida-ne’e mós ajuda hadi’a kualidade dadus iha prosesu ETL nia laran.

Ezemplu Uza ETL
Konsolidasaun: Instituisaun finanseira ida karik iha informasaun kliente nian iha departamentu oioin, no departamentu ida-idak bele rai informasaun ne’e ho dalan ne’ebé la hanesan. Departamentu membru bele rai naran, maibé departamentu kontabilidade rai de’it númeru. ETL bele halibur elementu dadus hotu ne’e no konsolida sira ba aprezentasaun ida ne’ebé fiksa, atu rai iha database ka data warehouse.
Migrasao ba Aplicasaun Foun: Kompañia sira mós uza ETL atu muda informasaun ba aplikasaun seluk ba nafatin. Ezemplu: aplikasaun foun ne’e karik uza vendor database seluk ho eskema ne’ebé lahanesan duni. ETL bele uza atu transforma dadus ne’e ba formatu ne’ebé aplikasaun foun ne’e bele uza.
Sistima Despeza no Kustu: Ezemplu ida mak sistema ba despeza no rekoperasaun kustu ne’ebé kontadór, konsultór, ka advogadu sira uza. Baibain dadus ne’e sei tama ba sistema oras no faturasaun, maski empreza balu bele mós uza dadus ne’e ba relatóriu produtividade funsionáriu nian ba Rekursu Umanu (HR) ka relatóriu uza ekipamentu ba Facilities Management.