Wat ik heb geleerd als beleggingsanalist na het volgen van de eerste datawetenschapsklasse (in R) | door Marianne O | okt 2022

Enkele goede lessen en het is de tijd waard

Fotocredit voor Jen Theodore op Unsplash

Toen mijn business school, UC Berkeley Haas, haar alumni de kans bood om de nieuwste populaire lessen in de business school te controleren, greep ik die kans meteen aan.

Ik ben geen datawetenschapper, maar aangezien ik in geldbeheer werk, heb ik een grote interesse in data-analyse. Ik heb onlangs een introductieles gevolgd in Beschrijvende en voorspellende datamining persoonlijk en wilde weten hoe data-algoritmen kunnen helpen bij het nemen van zakelijke beslissingen.

Tegenwoordig trekt elke business schoolklas met het woord ‚data‘ in de cursustitel onmiddellijk studenten aan, wat spreekt over de interesse in data-analyse.

Zonder data ben je gewoon iemand met een mening.~ W. Edwards Deming

Om te laten zien hoe data nooit slaapt — in elke minuut (Domo.com):

Op Google worden 5,9 miljoen zoekopdrachten van gebruikers gedaan.

Er wordt 500 uur aan YouTube geüpload.

Er worden 231 miljoen e-mails verzonden.

De cursus was goed georganiseerd. De instructeur koppelt de verschillende dataminingconcepten aan dagelijkse praktische zaken zoals filmaanbevelingen op Netflix, spam-e-maildetectie, Instacart-boodschappenaanbevelingen, Obama Tweets-analyse, enz. We sloten de les af met een spel op Kahoot!

Hoewel dit stuk niet ingaat op elke definitie van datawetenschap, is het de moeite waard om onderscheid te maken tussen beschrijvende en voorspellende datamining.

Beschrijvende versus voorspellende datamining

Beschrijvende en voorspellende datamining zijn twee methoden voor bedrijfsanalyse die statistische methoden en technologieën gebruiken om gegevens te analyseren om verborgen gegevenspatronen te ontdekken om zakelijke beslissingen te nemen.

De eenvoudigste manier om ze uit te leggen:

Beschrijvende datamining (zonder toezicht) kijkt naar gegevens uit het verleden en opgeslagen gegevens en probeert patronen te ontdekken, samenvat wat er is gebeurd, maar voorspelt niets; het wijst op het probleem en de frequentie van het probleem.

Voorspellende datamining (gesuperviseerde machine learning) gebruikt algoritmen en leert van gegevens uit het verleden en identificeert de relatie tussen een reeks variabelen om te voorspellen wat er zal gebeuren; het geeft aan welke acties moeten worden ondernomen.

Niet-gesuperviseerd leren heeft geen streefwaarde (voorspelt geen uitkomst), terwijl begeleid leren dat wel heeft. Niet-gesuperviseerd leren heeft tot doel de natuurlijke structuur van de gegevens te vinden, terwijl begeleid leren de relatie tussen de input en output vindt en een uitkomst voorspelt.

Modellen die onder elk van de dataminingmethoden worden gebruikt, kunnen zijn:

Afbeelding door de auteur

Een samenvatting van algemene lessen

Mijn doel is om verschillende algemene lessen te delen die zijn geleerd door een financieel/beleggingspersoon zonder codering of datawetenschap, maar enige statistische achtergrond en aanvullende gedachten over toepassingen van datawetenschap op investeringen.

Ik laat veel technische details van datamining weg, die je kunt lezen in de populaire publicatie „Towards Data Science“ op Medium, andere Medium-artikelen of branche-artikelen op internet.

(1) Angst voor coderen kan worden overwonnen: vaak word ik, als niet-codeerder, gesuggereerd door codes en ben ik me ervan bewust dat ik niet codeer of weet hoe ik R moet gebruiken, een statistische en grafische programmeertaal die erg populair is in datamining.

Er zijn 3 gouden regels voor coderen:

  • Monkey see monkey do: coderen is programmeren en is als het leren van een nieuwe taal. Het is gemakkelijker en goed om te leren wanneer je anderen imiteert (met beperkt begrip) – dus het „kopiëren en plakken“ van voorbeeldcodes is prima.
  • Trial and error: je zult zeker fouten maken en het is prima – een zeer noodzakelijk onderdeel om te leren coderen.
  • Google is je beste vriend. Veel mensen delen uw problemen al en u kunt online naar uw antwoorden zoeken.

Gedachten: Met steun van een gemeenschap, een kleine werkgroep en een leraar (indien beschikbaar), kan men zonder angst leren coderen.

(2) Regressie en classificatie: beide algoritmen worden gebruikt in gesuperviseerde machine learning. U traint een model met behulp van een bestaand model op basis van correct gelabelde gegevens (werkelijke uitkomst of „grondwaarheden“.)

In economie en investeringen gebruiken we regelmatig regressieanalyse (lineair, meervoudig, enz.) om de relaties en correlatie tussen een reeks inputvariabelen (onafhankelijke variabelen zoals rentevoetverandering, niveau van beschikbaar inkomen, enz.) en de output te begrijpen. variabele (afhankelijke variabele zoals economische groei, aandelenrendementen).

Classificatie-algoritme, hoewel het een veel voorkomend fenomeen is, zoals classificeren of een e-mail spam is of niet, is een relatief nieuw concept voor mij.

Classificatie-algoritmen kunnen zowel discrete als kwantitatieve invoervariabelen gebruiken om de uitkomst te voorspellen (een label of categorie), maar die uitkomst moet worden geclassificeerd in een of meer klassen, zoals Ja of Nee of spam of geen spam, vandaar dat het label discreet is.

De grootste verschil tussen regressie- en classificatiealgoritmen is dat regressie een continue numerieke waarde voorspelt, terwijl classificatie een discreet label voorspelt.

Een manier om machine learning toe te passen op investeringen (bijv. aandelenrendementen) is door gebruik te maken van logistische regressie, die wordt gebruikt om de waarschijnlijkheid van een binaire (Ja of Nee) gebeurtenis te voorspellen (bijv. opwaartse of neerwaartse beweging in aandelenkoersen).

Gedachten: Zoals je kunt zien, verschilt logistische regressie van lineaire regressie, die direct kan voorspellen hoeveel verandering van de rentevoet de verandering van de bbp-groei beïnvloedt. Logistische regressie is meer een classificatiemodel dan een regressie, ook al is de onderliggende techniek een lineaire regressie. Bovendien maak ik bij het uitvoeren van regressieanalyses al jaren gebruik van gesuperviseerde machine learning.

(3) De essentiële en verwarrende „verwarringsmatrix“: de verwarringsmatrix geeft de juiste en onjuiste classificaties van een model weer, vandaar de naam „verwarringsmatrix“. Het biedt inzicht in de voorspellingen van een machine learning-model.

Onze instructeur zei dat de meeste Data Science-cursussen zich richten op het aanleren van de verschillende voorspellende algoritmen, maar verzuimen uit te leggen hoe classificatie moet worden geëvalueerd. Daarom vond ik zijn uitleg van de Confusion Matrix nuttig.

Als u bijvoorbeeld de aanwezigheid van een ziekte voorspelt, betekent een 0 of Nee dat de persoon de ziekte niet heeft, terwijl een 1 of Ja betekent dat de persoon dat wel heeft. Een meer gedetailleerde uitleg van de Verwarringsmatrix vindt u hier.

Afbeelding door de auteur

Wat voor mij verwarrend is, is dat de kolommen „0“ en „1“ soms worden omgedraaid, zoals uitgelegd door verschillende bronnen, zoals Wikipedia.

Zodra we de bovenstaande 4 cijfers kennen, kunnen we de verschillende prestatiestatistieken verder afleiden, waaronder nauwkeurigheid, precisie, gevoeligheid (recall), specificiteit, AUC-ROC-curve, enz. die hier verder worden uitgelegd. Sarang Narkhede legde de AUC-ROC-curve (die ons vertelt hoe goed het model klassen 0 en 1 kan voorspellen) hier in detail uit.

Het is belangrijk om de verschillende prestatiestatistieken te begrijpen, omdat niet alle fouten gelijk zijn. Als het bijvoorbeeld uw doel is om kanker te voorspellen, zijn de kosten van het missen van kanker (vals-negatieven) veel hoger dan de kosten van een verkeerde diagnose van kanker (wat ook kosten met zich meebrengt). Het classificeren van een normale e-mail als spam (vals-positieven) is echter duurder omdat relevante informatie kan worden gemist.

Gedachten: hoewel ik geen kwantitatief ben, kan ik begrijpen hoe de kwantitatieve fondsbeheerder deze prestatiestatistieken kan gebruiken om te beoordelen welk handelsmodel het beste de „ruis“ van de „signalen“ kan scheiden. Ik spreek meer in de taal van de datawetenschapper. Dit is voor mij de belangrijkste reden voor een business manager om de basisterminologie en methode van data science te begrijpen. Ze kunnen beter begrijpen hoe datamodellen hun zakelijke beslissingen kunnen sturen, wat een goede beslissing is, en kunnen hun domeinexpertise lenen.

(4) Modellen voor machinaal leren en voorspellingen van de aandelenmarkt: Met de prevalentie van AI/Machine Learning en Big Data, is de natuurlijke vraag of ML-algoritmen aandelenkoersen met succes kunnen voorspellen?

Aangezien ik niet heb geleerd hoe ik Machine Learning (ML) kan gebruiken voor het voorspellen van tijdreeksen, kan ik deze vraag niet beantwoorden. Van wat de instructeur zei, is ML onder toezicht geweldig met classificatieproblemen zoals het voorspellen van fraude, maar het bewijs dat ML aandelenrendementen met succes kan voorspellen, ontbreekt. ML kan worden gebruikt om de volatiliteit te voorspellen (meestal is de standaarddeviatie van het rendement een indicatie van de volatiliteit), maar niet de richting van de markt. Het kan ook worden gebruikt om sentimentanalyse uit te voeren.

Gedachten: Wanneer aandelenkoersen een willekeurige wandeling volgen en worden beïnvloed door een groot aantal macro-, politieke en industriële factoren over de hele wereld, kan ik me moeilijk voorstellen dat het model, getraind op een reeks gegevens, kan worden gebruikt om de toekomst te voorspellen prijsbewegingen met behulp van gegevens die het nog nooit eerder heeft gezien. De Efficiënte Markt Theorie stelt dat aandelenkoersen alle informatie weerspiegelen, en dus zullen alle gedetecteerde patronen gemakkelijk worden uitgebuit en weggearbitreerd. (De kwantitatieve managers zullen gewoon niet delen hoe hun modellen werken!)

Wat misschien logisch is, is dat machine learning (zonder toezicht) kan worden gebruikt om de risicobereidheid in de markt te detecteren – hebzucht, normaal of angst.

Ik waardeer de mogelijkheid om een ​​introductiecursus datamining te volgen ten zeerste. Het helpt om machine learning te demystificeren en laat me begrijpen hoe grote en/of ongestructureerde gegevens kunnen worden geaggregeerd en geanalyseerd, wat leidt tot gevolgtrekkingen of voorspellingen die ons proces (of niet) kunnen verbeteren.

Daarnaast heb ik geleerd dat:

  • Leren coderen is als het leren van een nieuwe taal. We kunnen leren door te imiteren.
  • Regressie en classificatie zijn twee belangrijke methoden van voorspellende datamining en zijn begeleid leren.
  • Leren hoe je de prestaties van een algoritme kunt evalueren, is net zo belangrijk als leren hoe je het algoritme bouwt.
  • Al met al heeft Machine Learning geweldige industriële toepassingen, maar het kan onecht zijn om het te gebruiken om marktrendementen te voorspellen. Modellen moeten wetenschappelijk worden geëvalueerd voor succes.

Bedankt voor het lezen. Ik ben blij met uw opmerkingen.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert