Hva er en datasjø?
Datasjø er vanligvis en enkeltstående database som inneholder rå kopier av en mengde kildesystemer, for eksempel databasene til alle forretningssystemene du har på jobben. Den engelsk tittelen er Data Lake.
En datasjø kan innholdet alle mulige typer filer og store binære objekter.
Strukturert data (sql, relasjonsdatabaser)
Semistrukturert data (csv, logger, xml, json)
Ustrukturert data (email, dokumenter, PDF)
Binære data (bilder, lyd, video)
Data kan komme fra sensorer, sosiale medier, vær sensorer, kundesystemer, økonomisystemer, blogger, inspeksjonssystemer, osv. og kan alle lagres i samme sjø. De store skytjenestene som Azure og Google cloud har tilrettelagte tjenester for denne type databaser.
Skytjenestene gjør det enkelt for utviklere, dataforskere og analytikere å lagre data i alle størrelser, former og hastigheter og utføre alle typer behandling og analyse på tvers av plattformer og språk. Det blir mindre komplisert å inkludere og lagre alle dataene dine, samtidig som du kommer raskere i gang enn ved tradisjonelle datavarehus.
Maskinlæring for alle
Datasjø er en løsning/metode som har vokst frem i etterkant av at maskinlæring virkelig skøyt fart med de kraftige grafikkkortene tilbake i 2015. Dette for nettopp å raskere få utnytte datanalysekapasiteten uten å bruke måneder og år på å strukturere data.
Oppsummert; hvorfor skal man samle data på denne måten? Jo, for å rapportere, visualisere, drive avansert dataanalyse og maskinlæring for å trekke ut ny innsikt som gir deg og din bedrift verdi.
Men det må gjøres riktig for ellers kan man ende opp med en datasump, engelsk tittel Data Swamp. Da har man en sjø med data, som selskapet ikke har tatt stilling til; hvilke data man vil ha og hvorfor man vil ha dem der. På sikt må man også begrense seg på mengde data man skal inkludere, hvis ikke oversvømmes løsningen av informasjon man ikke trenger.
De siste 30 årene har vi laget datavarehus for å oppnå mye av det samme som vi oppnår med en datasjø, men til en langt høyere kostnad. Den engelsk tittelen Data Warehouse.
Datavarehus
Et datavarehus er en database som organiserer data på en tematisk rettet måte, enklere forklart strukturere dataene slik at de egner seg for analytisk behandling: lage rapporter, trekke ut nøkkeltall, lage dashboards, foreta analyser, osv. Jobben med å strukturere data kan ta mye tid og krever som oftest spesialkompetanse.
Selve rapporteringen skjer på grunndataen i et datavarehus ved hjelp av kuber. Kuber er en effektiv måte å støtte temabasert analytisk uttrekk av data. Det er to tilnærmingene for grunndatastruktur, og omtales som sentraliserte og desentraliserte datavarehus. Hva som er best tilnærming avhenger av prosjektet, forskjellen går på hvorvidt man skal ha en konkret grunnmodell i bunnen av en datavarehussatsing, hvor alle dataene hentes fra, eller om et datavarehus bare skal være en abstrakt union mellom alle Temavarehusene.
Data hentes til de fleste datavarehus daglig, ukentlig eller månedlig, og i noen tilfeller nær sanntid. For å holde kontroll med kompleksiteten i lastemønsteret brukes vanligvis såkalte ETL verktøy som er en type IT-verktøy som henter store datamengder fra eksterne kilder, bearbeider dem og laster dem inn i et eller flere lokale målsystemer.
En datasjø må ikke forveksles med et datavarehus.
En datasjø er som en innsjø med rå data fra alle tenkelige og utenkelige kilder, der formålet ennå ikke er definert. Et datavarehus er derimot et lagringssted for strukturerte og filtrerte data som allerede er behandlet for et bestemt formål. Mange bedrifter har nok behov for begge deler. Ta kontakt og fortell oss om dine data så kommer vi fort i gang!