Soorten gegevensanalyse: een gids

Gegevensanalyse is een aspect van datawetenschap dat gaat allemaal over het analyseren van gegevens voor verschillende soorten doeleinden. Het gaat om het inspecteren, opschonen, transformeren en modelleren van data om er bruikbare inzichten uit te halen.

Wat zijn de verschillende soorten gegevensanalyse?

  1. Beschrijvende analyse
  2. Verkennende analyse
  3. Inferentiële analyse
  4. Voorspellende analyse
  5. Causale analyse
  6. Mechanistische analyse

Met zijn meerdere facetten, methodologieën en technieken, wordt data-analyse gebruikt op verschillende gebieden, waaronder bedrijfskunde, wetenschap en sociale wetenschappen. Aangezien bedrijven gedijen onder invloed van vele technologische ontwikkelingen, speelt data-analyse een grote rol in besluitvormingwaardoor een beter, sneller en effectiever systeem wordt geboden dat risico’s minimaliseert en de menselijke vooroordelen.

Dat gezegd hebbende, er zijn verschillende soorten analyses met verschillende doelen. We zullen ze hieronder allemaal onderzoeken.

Twee kampen voor gegevensanalyse

Data-analyse kan volgens het boek in twee kampen worden verdeeld R voor gegevenswetenschap:

  1. Hypothese generatieDit houdt in dat je diep naar de gegevens kijkt en je domeinkennis combineert om hypothesen te genereren over waarom de gegevens zich gedragen zoals ze doen.
  2. Hypothese bevestigingDit betrekt een nauwkeurig wiskundig model gebruiken om falsifieerbare voorspellingen te genereren met statistische verfijning om uw eerdere hypothesen te bevestigen.

Soorten gegevensanalyse

Gegevensanalyse kan worden gescheiden en georganiseerd in zes typen, gerangschikt in een toenemende volgorde van complexiteit.

  1. Beschrijvende analyse
  2. Verkennende analyse
  3. Inferentiële analyse
  4. Voorspellende analyse
  5. Causale analyse
  6. Mechanistische analyse

1. Beschrijvende analyse

Het doel van beschrijvend analyse is om een ​​reeks gegevens te beschrijven of samen te vatten. Dit is wat u moet weten:

  • Beschrijvende analyse is de allereerste analyse die wordt uitgevoerd.
  • Het genereert eenvoudige samenvattingen over monsters en metingen.
  • Het gaat om gemeenschappelijke, beschrijvende statistieken zoals maatregelen van centrale tendens, variabiliteit, frequentie en positie.

Voorbeeld van beschrijvende analyse

neem de Pagina met COVID-19-statistieken op Google bijvoorbeeld. De lijngrafiek is een pure samenvatting van de gevallen/sterfgevallen, een presentatie en beschrijving van de bevolking van een bepaald land dat besmet is met het virus.

Beschrijvende analyse is de eerste stap in de analyse waarbij u de gegevens die u heeft samenvat en beschrijft met behulp van beschrijvende statistieken, en het resultaat is een eenvoudige presentatie van uw gegevens.

Meer over data-analyse: Gegevenswetenschapper versus gegevensanalist: overeenkomsten en verschillen verklaard

2. Verkennende analyse (EDA)

Verkennende analyse omvat het onderzoeken of verkennen van gegevens en het vinden van relaties tussen variabelen die voorheen onbekend waren. Dit is wat u moet weten:

  • EDA helpt u bij het ontdekken van verbanden tussen meetwaarden in uw gegevens, die geen bewijs zijn voor het bestaan ​​van de correlatie, zoals aangegeven met de zin: „Correlatie impliceert geen oorzakelijk verband.“
  • Het is handig om nieuwe verbanden te ontdekken en hypothesen te vormen. Het stimuleert ontwerpplanning en gegevensverzameling.

Voorbeeld van verkennende analyse

Klimaatverandering is een steeds belangrijker onderwerp aangezien de temperatuur op aarde in de loop der jaren geleidelijk stijgt. Een voorbeeld van een verkennende data-analyse over klimaatverandering is het nemen van de temperatuurstijging in de jaren 1950 tot 2020 en de toename van menselijke activiteiten en industrialisatie om relaties uit de gegevens te vinden. U kunt bijvoorbeeld het aantal fabrieken, auto’s op de weg en vliegtuigvluchten vergroten om te zien hoe dat samenhangt met de stijging van de temperatuur.

Verkennende analyse verkent gegevens om relaties tussen maatregelen te vinden zonder de oorzaak te identificeren. Het is vooral handig bij het formuleren van hypothesen.

3. Inferentiële analyse

Inferentiële analyse omvat het gebruik van een kleine steekproef van gegevens om informatie over een grotere populatie gegevens af te leiden.

Het doel van statistische modellering zelf draait alles om het gebruik van een kleine hoeveelheid informatie om informatie te extrapoleren en te generaliseren naar een grotere groep. Dit is wat u moet weten:

  • Inferentiële analyse omvat het gebruik van geschatte gegevens die representatief zijn voor een populatie en die een maatstaf voor onzekerheid of standaarddeviatie geven aan uw schatting.
  • De nauwkeurigheid van gevolgtrekking hangt sterk af van uw steekproefschema. Als de steekproef niet representatief is voor de populatie, is de generalisatie onnauwkeurig. Dit staat bekend als de centrale limietstelling.

Voorbeeld van inferentiële analyse

Het idee om een ​​gevolgtrekking te maken over de populatie in het algemeen met een kleinere steekproefomvang is intuïtief. Veel statistieken die je in de media en op internet ziet, zijn inferentieel; een voorspelling van een gebeurtenis op basis van een kleine steekproef. Bij een psychologisch onderzoek naar de voordelen van slaap kunnen bijvoorbeeld in totaal 500 mensen betrokken zijn. Toen ze de kandidaten opvolgden, rapporteerden de kandidaten een betere algehele aandachtsspanne en een beter welzijn met zeven tot negen uur slaap, terwijl degenen met minder slaap en meer slaap dan het opgegeven bereik last hadden van verminderde aandachtsspanne en energie . Deze studie onder 500 mensen was slechts een klein deel van de 7 miljard mensen in de wereld, en is dus een gevolgtrekking van de grotere bevolking.

Inferentiële analyse extrapoleert en generaliseert de informatie van de grotere groep met een kleinere steekproef om analyses en voorspellingen te genereren.

4. Voorspellende analyse

Voorspellende analyse houdt in: historische of actuele gegevens gebruiken om patronen te vinden en voorspellingen te doen over de toekomst. Dit is wat u moet weten:

  • De nauwkeurigheid van de voorspellingen is afhankelijk van de invoervariabelen.
  • Nauwkeurigheid hangt ook af van het type modellen. Een lineair model kan in sommige gevallen goed werken en in andere gevallen misschien niet.
  • Het gebruik van een variabele om een ​​andere te voorspellen duidt niet op een causaal verband.

Voorbeeld van voorspellende analyse

De Amerikaanse verkiezingen van 2020 zijn een populair onderwerp en veel voorspellingsmodellen zijn gebouwd om de winnende kandidaat te voorspellen. FiveThirtyEight deed dit om de verkiezingen van 2016 en 2020 te voorspellen. Voorspellingsanalyse voor een verkiezing vereist invoervariabelen zoals historische peilinggegevens, trends en huidige peilinggegevens om een ​​goede voorspelling te kunnen geven. Iets zo groot als een verkiezing zou niet alleen een lineair model gebruiken, maar een complex model met bepaalde afstemmingen om zijn doel het beste te dienen.

Voorspellende analyse gebruikt gegevens uit het verleden en heden om voorspellingen te doen over de toekomst.

Meer over gegevens: Het empirische voor normale verdeling uitleggen

5. Causale analyse

Causale analyse kijkt naar oorzaak en gevolg van relaties tussen variabelen en is gericht op het vinden van de oorzaak van een correlatie. Dit is wat u moet weten:

  • Om de oorzaak te vinden, moet je je afvragen of de waargenomen correlaties die aan de basis liggen van je conclusie geldig zijn.Als je alleen naar de oppervlaktegegevens kijkt, kun je de verborgen mechanismen die aan de correlaties ten grondslag liggen niet ontdekken.
  • Causale analyse wordt toegepast in gerandomiseerde studies gericht op het identificeren van causaliteit.
  • Causale analyse is de gouden standaard in data-analyse en wetenschappelijke studies waarbij de oorzaak van het fenomeen moet worden geëxtraheerd en uitgekozen, zoals het scheiden van het kaf van het koren.
  • Goede gegevens zijn moeilijk te vinden en vereisen duur onderzoek en studies. Deze onderzoeken worden geaggregeerd geanalyseerd (meerdere groepen), en de waargenomen relaties zijn slechts gemiddelde effecten (gemiddelde) van de hele populatie. Dit betekent dat de resultaten mogelijk niet voor iedereen van toepassing zijn.

Voorbeeld causale analyse

Stel dat u wilt testen of een nieuw medicijn de menselijke kracht en focus verbetert. Om dat te doen, voer je gerandomiseerde controleproeven uit voor het medicijn om het effect ervan te testen. U vergelijkt de steekproef van kandidaten voor uw nieuwe medicijn met de kandidaten die een nep-controlemedicijn krijgen door middel van een paar tests gericht op kracht en algehele focus en aandacht. Hierdoor kunt u zien hoe het medicijn de uitkomst beïnvloedt.

Causale analyse gaat over het achterhalen van de causale relatie tussen variabelen en het onderzoeken hoe een verandering in de ene variabele een andere beïnvloedt.

6. Mechanistische analyse

Mechanistische analyse wordt gebruikt om precies begrijpen veranderingen in variabelen die leiden tot andere veranderingen in andere variabelen. Dit is wat u moet weten:

  • Het wordt toegepast in fysische of technische wetenschappen, situaties die hoge precisie en weinig ruimte voor fouten vereisen, alleen ruis in gegevens is meetfout.
  • Het is ontworpen om een ​​biologisch of gedragsproces, de pathofysiologie van een ziekte of het werkingsmechanisme van een interventie te begrijpen.

Mechanistische analyse Voorbeeld

Veel onderzoek op universitair niveau en complexe onderwerpen zijn geschikte voorbeelden, maar om het simpel te zeggen, laten we zeggen dat er een experiment wordt gedaan om veilige en effectieve kernfusie te simuleren om de wereld van stroom te voorzien. Een mechanistische analyse van het onderzoek zou een nauwkeurig evenwicht inhouden tussen het controleren en manipuleren van variabelen met zeer nauwkeurige metingen van beide variabelen en de gewenste resultaten. Het is deze ingewikkelde en nauwgezette modus operandi ten aanzien van deze grote onderwerpen die wetenschappelijke doorbraken en vooruitgang van de samenleving mogelijk maakt.

Mechanistische analyse is in sommige opzichten een voorspellende analyse, maar aangepast om studies aan te pakken die hoge precisie en nauwgezette methodologieën vereisen voor fysische of technische wetenschappen.

Een tutorial over de verschillende soorten data-analyse. | Video: Shiram Vasudevan

Wanneer de verschillende soorten gegevensanalyse gebruiken?

  • Beschrijvende analyse vat de beschikbare gegevens samen en presenteert uw gegevens op een begrijpelijke manier.
  • Verkennende gegevensanalyse helpt u correlaties en relaties tussen variabelen in uw gegevens te ontdekken.
  • Inferentiële analyse is voor het generaliseren van de grotere populatie met een kleinere steekproefomvang van gegevens.
  • Voorspellende analyse helpt u voorspellingen te doen over de toekomst met data.
  • Causale analyse legt de nadruk op het vinden van de oorzaak van een correlatie tussen variabelen.
  • Mechanistische analyse is voor het meten van de exacte veranderingen in variabelen die leiden tot andere veranderingen in andere variabelen.

Een paar belangrijke tips om te onthouden zijn:

  • Correlatie impliceert geen oorzakelijk verband.
  • EDA helpt bij het ontdekken van nieuwe verbanden en het vormen van hypothesen.
  • De nauwkeurigheid van de gevolgtrekking hangt af van het steekproefschema.
  • Een goede voorspelling hangt af van de juiste invoervariabelen.
  • Een eenvoudig lineair model met voldoende gegevens is meestal voldoende.
  • Het gebruik van een variabele om een ​​andere te voorspellen duidt niet op causale verbanden.
  • Goede data is moeilijk te vinden en om die te produceren is duur onderzoek nodig.
  • Resultaten van onderzoeken zijn geaggregeerd en zijn gemiddelde effecten en zijn mogelijk niet voor iedereen van toepassing.

.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert