Machine learning in risicomanagement

Er bestaan al decennialang modellen voor machine learning (ML). De exponentiële groei in rekenkracht en de beschikbaarheid van data hebben echter geleid tot heel wat nieuwe mogelijkheden voor ML-modellen. Een van de mogelijke toepassingsgebieden ervan is risicomanagement voor financiële instellingen. In dit artikel lichten we ML-modellen eerst kort toe, waarna we de veelbelovendste kansen voor het gebruik van ML-modellen binnen financieel risicomanagement van dichterbij bekijken.

De huidige tendens naar 'datagestuurde’ bedrijven en regelgevers, die steeds meer de focus leggen op kwaliteit en beschikbaarheid van data, kan een extra impuls geven aan het gebruik van ML-modellen.

ML-modellen

ML-modellen bestuderen een dataset en gebruiken de daaruit opgedane kennis om voorspellingen te doen voor andere datapunten. Een ML-model bestaat uit een ML-algoritme en een of meerdere hyperparameters. ML-algoritmes bestuderen een dataset om voorspellingen te doen, terwijl hyperparameters de instellingen van het ML-algoritme bepalen. Het bestuderen van een dataset staat ook wel bekend als het ‘trainen’ van het ML-algoritme. De meeste ML-algoritmes hebben hyperparameters die voorafgaand aan het trainen door de gebruiker moeten worden ingesteld. Het getrainde algoritme vormt samen met de gekalibreerde set hyperparameters het ML-model.

Er bestaan allerhande soorten ML-modellen en ze kunnen voor heel wat verschillende doelen worden ingezet. Om een gepast ML-model te selecteren, is een grondige kennis vereist van de verschillende beschikbare soorten ML en hun werking. Er bestaan drie soorten machine learning: · Begeleid leren · Onbegeleid leren · Semi-begeleid leren Het grootste verschil tussen deze types is de benodigde data en het doel van het model. De data waarmee een ML-model wordt gevoed, is onderverdeeld in twee categorieën: de functies (onafhankelijke variabelen) en de labels/doelen (afhankelijke variabelen). Sommige soorten modellen hebben beide nodig als input, terwijl voor andere alleen de functies volstaan. Hieronder bespreken we kort de drie verschillende types machine learning.

Begeleid leren

Begeleid leren is het trainen van een ML-algoritme aan de hand van een dataset die zowel functies als labels bevat. Het algoritme gebruikt de functies en de labels als input om het verband te leren leggen tussen functies en labels – de zogeheten ‘mapping’. Nadat het model is getraind, is het in staat om labels te genereren op basis van functies alleen. Met een mapping-functie wordt het label bepaald dat bij de functies hoort. De doeltreffendheid van het model wordt beoordeeld door de vergelijking te maken tussen het label dat het model geeft en het daadwerkelijke label.

Onbegeleid leren

Bij onbegeleid leren zit er geen afhankelijke variabele (of label) in de dataset. Onbegeleide ML-algoritmes zoeken binnen een dataset naar patronen. Het algoritme linkt bepaalde observaties aan andere door te kijken naar gelijkwaardige functies. Dat maakt onbegeleide ML-algoritmes geschikt voor onder andere clustering (een dataset verdelen in subsets). Het resultaat daarvan is dat een observatie binnen een bepaalde groep meer lijkt op de andere observaties binnen die subset dan een observatie die niet in diezelfde groep zit. Een nadeel van onbegeleid leren is dat de werking van zulke modellen (doorgaans) totaal onbekend is – een ‘black box’ als het ware.

Semi-begeleid leren

Semi-begeleid leren gebruikt een combinatie van gelabelde en niet-gelabelde data. De datasets die worden gebruikt voor semi-begeleid leren, bevatten doorgaans voornamelijk niet-gelabelde data. Alle data binnen een dataset met de hand labelen kan erg tijdrovend zijn, en net voor dat probleem biedt semi-begeleid leren een oplossing. Daarbij wordt namelijk een kleine, gelabelde subset gebruikt om een betere voorspelling te maken voor de volledige dataset.

Het trainen van semi-begeleide algoritmes verloopt in twee stappen. Eerst wordt de volledige set opgedeeld in clusters met behulp van onbegeleid leren. Dat is nodig om de niet-gelabelde observaties in de originele dataset te labelen. De clusters die daaruit voortkomen, worden vervolgens door het algoritme gelabeld op basis van hun origineel gelabelde delen. Die volledig gelabelde data wordt dan gebruikt om een begeleid ML-algoritme te trainen. Het nadeel van semi-begeleid leren is dat het niet zeker is dat de labels voor de volle honderd procent juist zijn.

Het model optuigen

Bij de meeste ML-implementaties neemt het verzamelen, integreren en voorverwerken van data gewoonlijk meer tijd in beslag dan het eigenlijke trainen van het algoritme. Het is niet zomaar één enkel proces waarbij data wordt voorbereid en het algoritme dan wordt getraind, maar een iteratief proces: eerst wordt een model getraind, dan worden de resultaten geëvalueerd en vervolgens worden de hyperparameters bijgesteld. Na het trainen en de kalibratie van de hyperparameters is het ML-model klaar om voorspellingen te doen.

Machine learning in financieel risicomanagement

ML kan een toegevoegde waarde zijn voor toepassingen binnen financieel risicomanagement. Het type model moet echter geschikt zijn voor het probleem en de beschikbare data. Voor een aantal toepassingen, waaronder challenger-modellen, is het geen vereiste om het gebruikte model volledig uit te kunnen leggen. Zo is bijvoorbeeld een onbegeleid black-box-model geschikt als challenger-model. In andere gevallen is de uitlegbaarheid van de resultaten die het model geeft een essentiële voorwaarde bij de keuze voor een ML-model. In die situatie is een black-box-model mogelijk niet geschikt. In het volgende deel tonen we een aantal voorbeelden binnen financieel risicomanagement waarin ML-modellen waarde kunnen toevoegen.

Analyse van de datakwaliteit

Alle modelleringsuitdagingen starten bij data. In de wereld van machine learning is het zeker dat als je rommel in een algoritme steekt, je ook rommel zal terugkrijgen. Als de kwaliteit van een dataset dus onvoldoende is, zal een ML-model ook niet goed presteren. Het is heel gebruikelijk dat tijdens de ontwikkeling van een ML-model veel tijd wordt besteed aan het verbeteren van de datakwaliteit. Aangezien ML-algoritmes direct van de data leren, zullen de prestaties van het model ook verbeteren als de kwaliteit van de ingevoerde data beter is. ML kan worden toegepast om de kwaliteit van data te verbeteren voordat die data wordt gebruikt voor modellering. Dat kan bijvoorbeeld door uitschieters te verwijderen en ontbrekende waarden te vervangen door waarschijnlijke alternatieven.

Een voorbeeld van datakwaliteit die onvoldoende is, is de aanwezigheid van grote of talrijke uitschieters: observaties die in aanzienlijke mate afwijken van de andere observaties in de data. Dat wijst er dan mogelijk op dat de uitschieter niet juist is. Een datawetenschapper kan eenvoudig uitschieters detecteren in het geval van univariate uitschieters, maar multivariate uitschieters zijn vaak heel wat lastiger vast te stellen. Wanneer uitschieters worden gedetecteerd, of als er waarden ontbreken in een dataset, kan het nuttig zijn om een aantal van die uitschieters te vervangen of ontbrekende waarden toe te rekenen. Populaire methodes voor toerekening zijn het gemiddelde, de mediaan of de vaakst voorkomend waarde. Een andere mogelijkheid is kijken naar meer geschikte waarden; ML-technieken kunnen hierbij helpen om de datakwaliteit te verbeteren.

ML-modellen kunnen worden gecombineerd om de datakwaliteit te verbeteren. Zo kan eerst een ML-model worden gebruikt om uitschieters te detecteren, waarna een ander model ontbrekende waarden toerekent of uitschieters vervangt door een waarschijnlijkere waarde. Uitschieters kunnen worden gedetecteerd door clustering-algoritmes of door gespecialiseerde detectietechnieken voor uitschieters.

Goedkeuring van leningen

Een van de kernactiviteiten van banken is het lenen van geld aan consumenten en bedrijven. Het grootste risico voor een bank is het kredietrisico dat een lener het geleende bedrag niet volledig zal kunnen terugbetalen. Een geschikt proces om leningen goed te keuren kan dit kredietrisico tot een minimum herleiden. Dat is belangrijk bij het bepalen of een bank een lening kan toekennen of niet.

Gevestigde banken hebben al een uitgebreid register van leningen en wanbetalingen ter beschikking. Samen met de contractdetails kan dit een waardevolle basis vormen voor een op ML gebaseerd model om leningen goed te keuren. Hier zijn de contractbepalingen de functies, en het label is de variabele die aangeeft of de consument/het bedrijf een wanbetaler is of niet. De functies kunnen worden uitgebreid met andere informatiebronnen over de lener.

Begeleide leeralgoritmes kunnen worden gebruikt om de aanvraag van de potentiële lener in te delen als goedgekeurd of verworpen op basis van de kans op een toekomstige wanbetaling van de lening. Een van de geschikte soorten ML-modellen daarvoor is het classificatie-algoritme, dat de dataset op basis van de functies opsplitst in twee categorieën: ‘wanbetalers’ en ‘niet-wanbetalers’.

Challenger-modellen

Als er al een model in voege is, kan het nuttig zijn om dat model uit te dagen. Het gebruikte model kan worden afgezet tegen een challenger-model om de verschillen in prestaties te evalueren. Daarnaast kan het challenger-model ook mogelijke werkingen in de data identificeren die nog niet naar voren komen in het model dat wordt gebruikt. Een dergelijke analyse kan worden uitgevoerd om het gebruikte model te beoordelen, of om een model te valideren voordat het in productie wordt genomen.

Een challenger-model heeft als doel het gebruikte model uit te dagen. Aangezien het vaak niet haalbaar is om een tweede geavanceerd model te ontwerpen, worden voor challenger-modellen doorgaans eenvoudigere modellen uitgekozen. ML-modellen kunnen nuttig zijn om geavanceerdere challenger-modellen te creëren binnen een betrekkelijk korte tijdspanne.

Challenger-modellen hoeven niet noodzakelijk transparant en uitlegbaar te zijn, aangezien ze niet in de praktijk zullen worden toegepast – ze dienen enkel als vergelijkingspunt voor het gebruikte model. Dat betekent dat alle ML-modellen geschikt zijn om als challenger-model te gebruiken, zelfs black-box-modellen zoals neurale netwerken.

Segmentatie

Bij segmentatie wordt een volledige dataset verdeeld in subsets op basis van bepaalde kenmerken. Die subsets staan ook wel bekend als segmenten. Vaak wordt segmentatie uitgevoerd om per segment een model te creëren, om het specifieke gedrag van een segment beter vast te leggen. Dat kan, vergeleken met een enkel model waarin alle segmenten zitten, de foutmarge van de schattingen verlagen en de algemene nauwkeurigheid van het model verhogen.

Segmentatie kan onder meer worden toegepast in modellen voor kredietrating, voorfinanciering en marketing. Voor die doeleinden is segmentatie soms gebaseerd op het oordeel van experten, en niet op een datagestuurd model. ML-modellen zouden hier verandering in kunnen brengen en kwantitatieve bewijzen leveren voor een segmentatie.

Er zijn twee benaderingen waarin ML-modellen kunnen worden gebruikt om een datagestuurde segmentatie te creëren. De eerste mogelijkheid bestaat erin observaties in een bepaald segment te plaatsen met vergelijkbare observaties op basis van hun functies, bijvoorbeeld door een clustering- of classificatie-algoritme toe te passen. Een andere benadering voor het segmenteren van observaties is om de output van een doelvariabele of een doellabel te evalueren. Deze benadering gaat ervan uit dat observaties in hetzelfde segment eenzelfde gedrag zullen vertonen ten opzichte van een specifieke doelvariabele of een bepaald doellabel.

Daarbij is het doel niet om een segment te creëren, maar om de inschatting van de doelvariabele of het toekennen van het juiste label te optimaliseren. Zo kunnen bijvoorbeeld alle klanten in segment 'A' worden gemodelleerd door functie 'a', en klanten in segment 'B' door functie 'b'. Functies 'a' en 'b' kunnen dan regressiemodellen zijn op basis van de functies van de individuele klanten en/of macrovariabelen die een voorspelling doen voor de eigenlijke doelvariabele.

Kredietwaardigheid

Bedrijven en schuldinstrumenten kunnen een kredietwaardigheidsscore krijgen van een kredietratingbureau. Een aantal bekende ratingbureaus geven die kredietratings uit, die hun beoordeling van de kans op wanbetaling van het bedrijf of schuldinstrument weerspiegelt. Naast die ratingbureaus kunnen financiële instellingen ook interne kredietratingmodellen toepassen om een kredietrating te bepalen. Kredietratings kunnen ook de verwachte kredietwaardigheid van een bedrijf, schuldinstrument of individu inschatten.

Begeleide ML-modellen zijn geschikt voor kredietratings, aangezien het ML-model kan worden getraind met historische data. Voor historische data kan het label ('wanbetaler' of 'niet-wanbetaler') worden geobserveerd en is doorgaans uitgebreide financiële data (de functies) beschikbaar. Begeleide ML-modellen kunnen worden gebruikt om op transparante wijze betrouwbare kredietratings te bepalen als alternatief voor traditionele kredietratingmodellen. Daarnaast kunnen kredietratingmodellen op basis van ML ook worden ingezet als challenger-modellen voor traditionele kredietratingmodellen. In dit geval zijn transparantie en uitlegbaarheid geen essentiële vereisten voor het gekozen ML-model.

Conclusie

ML kan waarde toevoegen aan, of gebruikt worden ter vervanging van traditionele modellen in financieel risicomanagement. Er bestaan heel wat verschillende ML-modellen, die ook op uiteenlopende manieren worden ingezet. In dit artikel noemden we enkele, maar er zijn er veel meer.

ML-modellen kunnen direct van de data leren, maar de gebruiker van het model moet nog steeds zelf een paar keuzes maken. Hij kan het soort model kiezen en moet bepalen hoe de hyperparameters worden gekalibreerd. Er is niet één zaligmakende manier om een ML-model te kalibreren die voor alle situaties geschikt is. Daarom wordt machine learning soms gezien als kunstvorm in plaats van als wetenschap.

Bij het toepassen van ML-modellen is de nodige voorzichtigheid geboden, en de gebruiker moet begrijpen wat er 'onder de motorkap' gebeurt. Zoals bij alle modelleringen zijn er bij elke methode ook valkuilen. De meeste ML-modellen zullen een oplossing bieden, zelfs al is het geen optimale. Bij het modelleren is gezond verstand altijd een vereiste. In de juiste handen kan ML een krachtig instrument zijn om modellering in financieel risicomanagement te verbeteren.

Werken met ML-modellen heeft voor ons tot waardevolle inzichten geleid (zie hieronder). Uit elke toepassing van ML hebben we waardevolle lessen getrokken over wat we kunnen verwachten van ML-modellen, wanneer we ze kunnen gebruiken en waar de valkuilen zitten.

Machine learning en Zanders

Zanders is betrokken geweest bij een aantal projecten en onderzoeksvragen waarvoor ML kon worden toegepast. In sommige gevallen was het gebruik van ML inderdaad voordelig. In andere gevallen bleken traditionele modellen de betere oplossing. In deze projecten werd het meeste tijd besteed aan het verzamelen en voorverwerken van de data. Op basis van deze ervaringen werd een op ML gebaseerde validatietool voor datasets ontwikkeld. In een ander geval werd een model aangepast zodat het kon omgaan met ontbrekende data door een alternatieve beschikbare functie van de observatie te gebruiken.

ML werd ook afgezet tegen een intern kredietratingmodel van Zanders. Dit leidde tot bruikbare inzichten in potentiële verbeteringen van het model. Zo heeft het ML-model bijvoorbeeld meer inzicht gegeven in het belang en de segmentatie van variabelen. Deze inzichten zijn nuttig voor de verdere ontwikkeling van de kredietratingmodellen van Zanders. Naast de inzichten in wat beter kan heeft het ML-model ook de voordelen van klassieke modellen ten opzichte van de op ML gebaseerde versies onderstreept. Het ML-model was niet in staat om tot zinvollere ratings te komen dan het traditionele kredietratingmodel.

In een ander geval onderzochten we of het zinvol en haalbaar zou zijn om ML in te zetten voor het screenen van transacties en het detecteren van afwijkingen. Uit dat project bleek nogmaals dat data een cruciale factor is voor ML-modellen. Er was een zeer grote hoeveelheid data, maar die was van lage kwaliteit. Daarom konden de gebruikte ML-modellen geen nuttig inzicht bieden in de betalingen of consistent afwijkend betaalgedrag op grote schaal detecteren.

Naast de projecten waarvoor ML werd ingezet om tot een oplossing te komen hebben we ook de uitlegbaarheid van een aantal ML-modellen onderzocht. Tijdens dit proces hebben we kennis vergaard over technieken die we kunnen toepassen om meer inzicht te krijgen in modellen die gewoonlijk nauwelijks transparant zijn.

Contact

Wij delen graag meer inzichten met u over een modelleringstechniek die de toekomst kan vormen van kwantitatieve modellering.

Neem voor meer informatie contact op met Siska van Hees of Christian Veldhuijzen via +31 35 692 89 89.

Deel dit artikel:

image