Brainbay Woningwaarde Model

Steven Hommes

Auteur
Steven Hommes
Senior Data Scientist

Brainbay levert, ter ondersteuning van de bedrijfsvoering, via haar applicaties modelmatige woningwaarden aan bij de NVM aangesloten makelaars en taxateurs alsmede aan validatie instituten.

Verder lezen
modelwaarde API

Hiertoe beschikt brainbay al geruime tijd over verscheidene woningwaarde modellen welke destijds door externe partijen in opdracht zijn ontwikkeld. De ontwikkelingen in data science gaan echter dusdanig snel dat modellen snel verouderen en daardoor is de sterke wens ontstaan om de vierde versie van het woningwaarde model in eigen beheer te ontwikkelen en te onderhouden. Op deze manier kunnen wij het model continu blijven verbeteren. Toen ik begin 2020 bij brainbay naar binnen liep kreeg ik zodoende als eerste grote opdracht om met het recent opgezette data science team “het beste woningwaarde model van Nederland” te ontwikkelen. Destijds niet wetende dat dit vooral vanaf mijn zolderkamer zou gaan plaatsvinden, zijn we wat deze doelstelling betreft inmiddels een heel eind onderweg. In dit artikel bespreek ik de gedachtegang van het modelmatig waarderen van woningen en specifiek hoe het brainbay model in hoofdlijnen werkt.

Lineaire historie van woningwaarde modellen

Het benaderen van de marktwaarde van woningen op basis van woningkenmerken met een regressiemodel is allesbehalve nieuw en wordt al vele jaren toegepast. Er is sinds de eeuwwisseling langzaamaan een berg wetenschappelijke literatuur ontstaan over het onderwerp, dat in die kringen automated valuation models (AVMs) genoemd wordt, een vrij generieke term waarbij het niet direct duidelijk is dat het om onroerend goed gaat. In de meeste literatuur draait het om een benaderingswijze uit de economische theorie die de hedonische prijsmethode wordt genoemd. Hierin wordt verondersteld dat de kenmerken van een woning (m2 woonoppervlak, m2 perceeloppervlak, aantal kamers, garage aanwezig, omgevingskenmerken, etc.) afzonderlijk een bepaalde marktwaarde vertegenwoordigen. De marktwaarde van de woning zou dan de som van de marktwaardes der onderliggende delen moeten zijn. De waarde van de onderliggende delen kan in een dergelijke gesimplificeerde lineaire wereld benaderd worden met een eenvoudig lineair regressiemodel.

Tekortkomingen van de lineaire benadering

Het is evident dat een dergelijke benaderingswijze de complexiteit van het vraagstuk veel te kort doet. De invloed van verscheidene woningkenmerken op de woningwaarde is allesbehalve lineair. Een voorbeeld hiervan is dat de marginale meerwaarde van oppervlaktes afneemt boven een bepaalde grens. Met andere woorden: 50 m2 extra tuin maakt niet zoveel meer uit als je het over een vrijstaande woning in de polder met een enorm perceel hebt, terwijl dit in de stad goud waard is. Een andere tekortkoming van de klassieke hedonische benadering is dat hierin genegeerd wordt dat de toegevoegde waardes van de woningkenmerken niet onafhankelijk van elkaar zijn, maar juist de specifieke interactie hiertussen de marktwaarde bepalen. Bijvoorbeeld; het hebben van een tuin op het zuiden heeft vooral extra toegevoegde waarde boven een identieke tuin op het noorden in stedelijk gebied en wanneer deze ondiep is. (artikel – wat betekent een gunstige tuinligging voor de woningwaarde van een huis?)

Gebruik van machine learning technieken

Het doel van het AVM van brainbay is om voor koopwoningen van elk woningtype, in ieder prijssegment en op iedere locatie in Nederland best-in-class woningwaarderingen te genereren. Om dit doel te behalen is het belangrijk om te accepteren dat hóe de grote hoeveelheid aan woningkenmerken samenwerken om tot de uiteindelijke marktwaarde te komen dusdanig complex is dat dit niet meer simpel met een door een mens bedachte formule benaderd kan worden. Hier komt het gebruik van modernere “machine learning” toepassingen om de hoek kijken, welke ook in de AVM literatuur de laatste jaren populair geworden zijn. We creëren hiervoor dus een model dat zelf alle relevante interacties en non-lineariteiten uit mag vinden. Belangrijk hierin is wederom ons doel: we willen een uitstekende waardevoorspelling ontvangen en niet aantonen dat een specifiek woningkenmerk met een bepaalde zekerheid een bepaald effect op de prijs heeft. Voor dat laatste doeleinde lenen dergelijke modellen met hoge complexiteit zich minder goed, omdat interpretatie van de modelparameters lastig is.

Op zoek naar de beste modelkeuze

Het AVM van brainbay modelleert de gehele Nederlandse koopwoningmarkt en benut een zeer grote set van woningtransacties met meer dan 100 woningkenmerken welke uit onze rijke vastgoeddatabase (TIARA) en overige publiek beschikbare bronnen komen. In de onderzoeksfase hebben we drie verschillende modellen tegen elkaar afgezet, twee modellen gebaseerd op beslisbomen (“gradient boosting” en “random forest”) en een kunstmatig neuraal netwerk (ook wel als “deep learning” aangeduid). De machine learning techniek welke voor de modelmatige woningwaarde uitermate geschikt bleek is “gradient boosting”, wat een samenvoeging van “gradient descent” (afdalen) en “boosting” (verbeteren) is. Dit betreft een model gebaseerd op beslisbomen dat in een iteratief proces geoptimaliseerd wordt.

Toepassing van beslisbomen

Een zeer versimpeld voorbeeld van een dergelijke beslisboom is hieronder weergegeven. Voor iedere waardering wordt er aan de linkerkant gestart en door de boom heen gelopen om tot de voorspelling van de woningwaarde te komen.

Modelwaarde beslisboom

Deze beslisboom is echter een extreem vereenvoudigde weergave van hoe een dergelijk model functioneert. Er hoeven hier slechts vier beslissingen genomen te worden om tot de waardevoorspelling te komen. De bomen in het brainbay model zijn een stuk dieper, maar aangezien het aantal knooppunten verdubbelt bij elke stap kan dat hier niet weergegeven worden. Tevens bestaat het model niet uit één boom maar uit duizenden.

Het zelflerend proces

De manier waarop de beslisbomen gecreëerd worden kan in hoofdlijn als volgt worden uitgelegd. Zoals in elk regressiemodel is het doel om de voorspellingsfout (het residu) te minimaliseren en met dit doel wordt de eerste boom vormgegeven. Vervolgens wordt er bekeken waar de eerste beslisboom verkeerd zit en wordt de tweede boom vormgegeven met het doel om de voorspellingsfout van de eerste boom te minimaliseren. Daarna wordt de derde boom vormgegeven met het doel om de gecombineerde voorspellingsfout van de eerste en de tweede boom te minimaliseren. Dit iteratief proces, wat trainen wordt genoemd, wordt voortgezet totdat het model voor alle regio’s, woningtypen en prijssegmenten goed presteert. Om de kwaliteit van het model te verhogen krijgt iedere beslisboom een beperkte weging en mag er voor elke boom slechts een willekeurige steekproef van alle transacties en van alle woningkenmerken benut worden. Het doel hiervan is dat hiermee de variatie in de beslisbomen verhoogd wordt wat het model robuuster maakt. Een gevaar van een dergelijk model is dat deze door blijft itereren totdat alle woningtransacties waarop “getraind” wordt nagenoeg perfect voorspeld worden, maar nieuwe door het model ongeziene woningen juist zeer slecht. Dit wordt “overtrainen” van het model genoemd en de manier om dat te voorkomen is om de voorspellingsfout van het model op een andere set transacties (de validatieset) te evalueren waarvan het model niet mag leren. Op het moment dat de voorspellingsfout op de validatieset niet meer afneemt is het tijd om het trainingsproces te stoppen.

Door NVM data zit brainbay kort op de woningmarkt

Wanneer het model gevraagd wordt om voor een nieuwe ongeziene woning een waardevoorspelling af te geven worden alle beslisbomen in het model doorgerekend, wat tot verschillende voorspelde waarden leidt. Deze waardevoorspellingen worden vervolgens vermenigvuldigd met de weging van de betreffende boom om tot de uiteindelijke waardevoorspelling te komen. Om een idee te krijgen omtrent de precisie van het model: momenteel is de mediane foutmarge van het model op ongeziene woningen ongeveer 5% van de transactieprijs. Uiteraard is de mediane foutmarge op homogene rijtjeshuizen in Zuid-Holland lager en op heterogene vrijstaande woningen in Groningen hoger, maar nergens zit het model echt verkeerd of is er sprake van een structurele afwijking naar boven of naar beneden. Dit heeft er onder meer mee te maken dat brainbay over de meest actuele transactiedata van Nederland beschikt. Het model zit daardoor erg kort op de huidige trends in de woningmarkt, zowel nationaal als regionaal. Uiteraard is een model nooit perfect, waardoor voor een taxatie het optimale resultaat behaald zal worden door het combineren van best-in-class modelwaarden met de lokale kennis van een taxateur of makelaar.

Een uitstekend model en hoogkwalitatieve data als vooruitstrevende combinatie

Naast een uitstekend zelflerend model is het uiteraard essentieel om dit model te voeden met data van zeer hoge kwaliteit. De “hardere” woningkenmerken, zoals locatie, oppervlaktes en aantal kamers zijn, hoewel eveneens zeer belangrijk voor de waardebepaling, vrij evident en het gebruik van uitsluitend dergelijke variabelen zal niet leiden tot een best-in-class AVM. Hiertoe is het ook belangrijk dat de wat “zachtere” en minder eenvoudig te verkrijgen informatie omtrent een woning op een gepaste manier in het model wordt meegenomen. De algehele staat van onderhoud en kwaliteit van gebruikte materialen is namelijk ook zeer waarde bepalend voor een woning. Het brainbay model is zeer vooruitstrevend in het inschatten van de kwaliteit en het onderhoud van de woning (binnen en buitenkant) en de bijbehorende tuin. Hieromtrent beschikken wij in onze database over specifieke inschattingen van onze makelaars. Tevens zijn we intensief bezig met modellen omtrent beeldherkenning van actuele woningfoto’s en analyse van aanbiedingsteksten om dit nog verder te verbeteren. We bouwen ons woningwaarde model daarmee steeds verder uit.

Indien dit artikel je interesse in brainbay, ons AVM heeft gewekt bezoek dan onze Modelwaarde-API productpagina.

Volg ons op LinkedIn.

Deel dit bericht via
Confidental Infomation