18 december 2010

De Hooghe-van San-controverse

.
.
Statistiek is een moeilijk vak,
En Marc Hooghe een beste man,
Maar wetenschappelijk zo zwak,
Zelfs contradictorisch,
Omdat ideologisch
Hij eenmaal niet anders meer kan.

.

31 opmerkingen:

Anoniem zei

Toch wat uitleg graag. Dat iemand correlatie met causaliteit verwart ? Bron?

Marc Vanfraechem zei

Relevante links zijn te vinden in het artikel van de chemicus Jos Verhulst.

wim ceelen zei

De oefening van dhr Verhulst is interessant, maar ontkracht mijns inziens niet de bevinding van M Hooghe dat, in een multivariaat model, het aandeel niet belgen geen onafhankelijke predictor is van criminaliteit. De correlatie-analyse die d...hr Verhulst uitvoert (en een significante correlatie laat zien tussen aandeel niet europeanen en criminaliteit) is per definitie een univariaat analyse die, zoals steller zelf aangeeft, niets bewijst zolang deze variabele niet in een multivariaat model is ingebracht waarin opnieuw werkloosheidsgraad, 'inequality', etc als onafhankelijke predictoren worden getest naast het aandeel niet europeanen (of niet blanken, zoals dhr Verhulst fijntjes aangeeft). Het is duidelijk dat de ideologische agenda's aan elkaar gewaagd zijn...

Anoniem zei

Mr Ceelen, als in een multivariaat model 2 (of meer) onafhankelijke 'predictoren' zoals u ze noemt sterk met elkaar gecorreleerd zijn, dan hebben we te maken met het probleem van multicollineariteit. In zo'n model kan het geheel van 'predictoren' eventueel wel een vrij goede voorspellende waarde hebben wat betreft de uitkomst van de te verklaren variabele (binnen de geldende steekproef), maar uitspraken over de voorspellende waarde van de individuele 'predictoren' zijn in dat geval zo goed als waardeloos. Als de predictoren 'Allochtoon van niet-Europese afkomst' (zeg X1) en 'werkloosheidsgraad' (zeg X2) sterk gecorreleerd zijn, dan kan ook een multivariaat model niks zinvol zeggen over wat de voorspellende waarde is van de individuele predictoren X1 of X2 betreffende de te verklaren variablen Y = criminaliteit. Het is dus goed mogelijk dat het multivariaat model een vrij goede voorspellende waarde heeft, maar waarbij de ene 'predictor' volstrekt overbodig kan zijn t.ov. de andere. M.a.w. Hooghe heeft helemaal niet bewezen dat in een multivariaat model het aandeel niet belgen geen onafhankelijke predictor is van criminiliteit. De prof kent duidelijk de basisbeginselen van multivariate statistiek niet (of hij wil ze niet kennen).

Marc Vanfraechem zei

Laten wij in deze kersttijd zeggen: het blijft menswetenschapperswerk.

wim ceelen zei

zeker! toch meen ik dat op de methoden van prof Hooghe weinig aan te merken valt. De essentie blijft om door middel van een multivariaat model het onderscheid te maken tussen onafhankelijke variabelen die wel degelijk significant wegen op de afhankelijke variabele, en anderzijds 'confounders', dat wil zeggen variabelen die in univariaat analyse gecorreleerd zijn met een bepaalde uitkomst maar eens ingebracht in een multivariaat model elke betekenis verliezen. Een voorbeeld: er is ooit vastgesteld dat rokende vrouwen statistisch minder kans vertonen op het krijgen van een baby met Down syndroom. Dit is zelfs door de industrie ooit aangewend als argument om het roken te stimuleren. Uiteraard gaat het hier enkel om een leeftijdseffect: jonge vrouwen roken meer, en jonge vrouwen krijgen minder vaak een baby met Down syndroom. Als nu zowel 'rookgedrag' als 'leeftijd' worden onderzocht in een multivariaat model met 'krijgen van Down baby' als afhankelijke variabele, verliest de variabele 'rookgedrag' meteen significantie. Geheel analoog: 'aandeel niet europeanen' kan best significant gecorreleerd zijn met criminaliteit, maar zolang dit niet formeel getest is dmv één of andere vorm van multivariate regressie waarin ook factoren als inequality, leeftijd, scholing, etc zijn opgenomen betekent dit niets.

Anoniem zei

Mr Ceelen, 100% akkoord dat men bij een statistische analyse "alle" verklarende variabelen moet betrekken waarvan men gegronde redenen of op zijn minst sterke vermoedens heeft dat ze van invloed (kunnen) zijn op de te verklaren variabele. Maar ik vrees toch een klein beetje dat u het probleem van multicollineariteit niet goed snapt. Ik citeer losjes 3 problemen met multicollineariteit uit het handboek van Kiers (Voortgezette regressie- en variantie analyse). 1) Het wordt moeilijk het belang van elke onafhankelijke variabele (afzonderlijk) te bepalen in de voorspelling v/d afhankelijke variabele, omdat door de samenhang (tussen de verklarende variabelen) hun afzonderlijke effecten op de verklaarde variabele niet meer te splitsen zijn. 2) Het percentage verklaarde variantie neemt zeer weinig toe als men een onafhankelijke variabele aan het model toevoegt die al sterk is gecorreleerd met al in het model opgenomen predictoren, vermits de toegevoegde variabele weinig extra verklaart. 3) De standaardfouten v/d geschatte regressiecoëfficiënten worden groot, i.e. veel meer onzekerheid over de geschatte parameters. Hoe groter de multicollineariteit, hoe groter de onzekerheid. Dus nogmaals, conclusie, men moet inderdaad met een multivariaat model werken, maar bij multicollineariteit kan men weinig zinnig zeggen over het belang van elke afzonderlijke predictor. De statistieken v/d afzonderlijke predictoren laten niet toe om daarover ondubbelzinnige uitspraken te doen. Dus als Hooghe zegt dat X1 volgens zijn multivariaat model niet op statistisch significante wijze Y voorspelt, terwijl hij goed weet (of zou moeten weten) dat X1 sterk gecorreleerd is met X2 (en evt. zelfs X3 enz.), dan is hij ofwel intellectueel oneerlijk ofwel snapt hij evenmin wat multicollineariteit is. Voor het overige ben ik het eens met onze blog host: menswetenschapperswerk, of nog erger, sociologen- of polticologenwerk.

wim ceelen zei

integendeel, beste Anoniem, ik weet heel goed wat collineariteit (MC) inhoudt, net als Hooghe (ik lees in zijn blijkbaar al omstreden paper 'we will run separate models with these variables to prevent multi-collinearity'). De regressiemodellen zijn robuust (voor property crime wordt >70 van de variantie verklaard), en inkomen/werzaamheidsgraad wegen veel zwaarder door dan 'non nationals rate', dat is de boodschap die uit de resultaten spreekt, en daar kan u geen speld tussenkrijgen. Ik zie niet in hoe MC de concrete gepubliceerde resultaten zou beïnvloeden: tussen welke variabelen in model 1 of 2 vermoedt u een lineair verband, dat zou aanleidign geven tot een bias? Wat tenslotte de resultaten zouden zijn indien ipv 'non nationals' 'non europeans' zou zijn gehanteerd weet u evenmin als ik, daarvoor dient het model herhaald met de nieuwe variabele. Gelet op de criminaliteit gepleegd door Oost europeanen vermoed ik overigens dat het effect nihil zou zijn.

Anoniem zei

OK, beste mr Ceelen, de discussie over MC is hier niet ter zake (u hebt mij wat dat betreft op het verkeerde been geplaatst, maar mijn fout). Maar uiteindelijk blijft de conclusie van Jos Verhulst wel overeind: in een model zonder 'specification bias' had Hooghe niet de variabele "niet-Belgen" mogen gebruiken, maar had hij verschillende variabelen of 'predictoren' moeten gebruiken, bvb "niet-Belgen en Belgen van (zeg maar tot 2e generatie) van Noord-Afrikaanse herkomst, idem maar dan voor Oost-Europese herkomst, (en voor elke groep waarvan men eventueel kan vermoeden dat hun herkomst of de etnie waartoe ze behoren zou kunnen verband houden met hogere criminaliteit), uiteraard samen met al de andere wellicht relevante en door u vernoemde verklarende variabelen. Maar Hooghe doet dat niet, al was het maar omdat de vereiste gegevens in België niet voorhanden zijn. En laat dat nu net ook de fundamentele kritiek van van San zijn. Ik plaats van al die (wellicht) relevante variabelen over herkomst / etnie gebruikt hij een zeer ruwe 'proxy' (het containerbegrip niet-belgen, tout court), waarvan Jos Verhulst zeer overtuigend aantoont dat die sterk vertekend is (namelijk door het mee opnemen van een groot aantal niet-Belgen met herkomst of etnie waarvan niemand verwacht dat ze bepaalde vormen van criminaliteit de hoogte in drijven, al was het maar omdat ze ook nauwelijks in de gevangeniscellen zijn terug te vinden, en anderzijds door het niet opnemen van tot 2e generatie Belgen van bepaalde herkomst) Het punt is, beste mr. Ceelen, dat het opnemen van al die andere door u vernoemde variabelen in het model daar nul komma nul aan verandert, hoe relevant deze op zich ook mogen zijn (niemand heeft trouwens ooit beweerd dat er maar 1 oorzaak van criminilateit zou zijn, integendeel, zoals van San aantoont is leeftijd ook een zeer belangrijke factor, maar daar kan Hooghe bij gebrek aan data ook niet op testen). Maar het is wel alsof een dokter wil aantonen dat er in een regio een mogelijk verband is tussen een bepaalde ziekte en de aanwezigheid van een bepaald soort muis (zeg dwergmuis), maar omdat men alleen statistieken heeft over alle muizen samen in die regio (zonder onderscheid 'des soorten') die laatste als 'predictor' gaat gebruiken (stom voorbeeld, geef ik toe, maar voldoende als illustratie). Samenvattend, u gebruikt een sofistisch truucje (en ik ben erin getrapt, 'shame on me'), heel juist opmerken dat men in een model alle relevante verklarende variabelen moet opnemen, maar dan wel als bliksemafleider voor wat echt het probleem is met het model van Hooghe, de totale ongeschiktheid van de predictor "niet-Belgen" om al dan niet statistisch te testen of er een verband is tussen groepen behorend tot een bepaalde etnie (die ook Belg kunnen zijn) en criminaliteit. Eigenlijk, het aloude GiGo (garbage in, garbage out).

Anoniem zei

Beste mr Vanfraechem, mij 'statisticus' noemen is helaas veel te veel eer. :) Ik ben 'maar' een kwantitatieve econoom, en in mijn eigen discipline zijn dit soort zaken schering en inslag: de goedbedoelende (en meestal jonge) onderzoek(st)er wil wel een bepaald model testen, maar in dit (apen)land ontbreken bijna altijd de vereiste statistieken, en dus gaat men zeer naarstig op zoek naar zoveel mogelijk data (veelal tijdreeksen) die min of meer als 'proxy' kunnen dienen, en die men dan in een aantal varianten van modellen giet, om er uiteindelijk dat model uit te halen dat het best scoort op 1 of andere statistische test (veelal een aangepaste R³ of F-test). Complete onzin natuurlijk. Wat van San zegt is juist: i.p.v. te besluiten dat hij geen zinnig besluit kan trekken, besluit Hooghe dan maar wat hem van pas komt. "Wetenschap" op z'n Belgisch, helaas ...

Marc Vanfraechem zei

Bedankt voor de reactie Anonieme Econoom, ik heb al veel geleerd (en opgezocht). Maar voor de lezer die het even niet kan volgen: ik noemde Anoniem niet hier, op victacausa "een statisticus", maar wel hier.

wim ceelen zei

Beste Anoniem, de hypothesen van Hooghe waren: 1.Property crime rates will be higher in communities with high levels of poverty; 2. Both violent and property crime rates will be higher in communities with high levels of income inequality; 3. Property crime rates will be higher in communities with high unemployment figures. Op basis van de resultaten het toegepaste model dienen deze stellingen als juist (of tenminste niet gefalsifieerd) aanvaard, en speelt de variabele 'non national' in de gebruikte modellen weinig of geen rol. Wat u voorstelt, namelijk het bestuderen van criminaliteitsgegevens op basis van ras lijkt mij onethisch en onwetenschappelijk. Op basis van welke wetenschappelijke bevindingen wil u de hypothese vooropstellen dat, los van socioeconomische omgeving, een niet blanke inherent méér tot criminaliteit geneigd zou zijn? Net als de wetten van de fysica (en van de economie, neem ik aan? :-))is de menselijke natuur universeel. Tenslotte, Hooghe heeft wel degelijk leeftijd als variabele opgenomen in de modellen ('young people proportion', tabellen 1 en 2). Ik wens u en onze bloghost een vredevolle kerst.

Marc Vanfraechem zei

Met mijn excuses aan lezer Peter C.: ik heb uw reactie verwijderd. Tenslotte stond ze al op het forum van DS zegt u, maar ook vond ik ze te verward. Er stonden bovendien enkele dt-fouten in. Excuus nogmaals, maar zeker dat laatste kan hier niet.

wim ceelen zei

http://www.dewereldmorgen.be/artikels/2010/12/07/het-antwoord-op-van-san

zo zie ik het ook.

peter calluy zei

DAT was misschien de reden dat mijn waarschuwingen in 2004-2005 ivm jongeren voor islam en abu imran, toen nog gewoon fouad belcasem niet mochten. DT vouten, gedverdemme. Dan zullen de hoogopgeleide mensen zulke figuren wel aanpakken zeker. Ik heb nochtans de uitzonderlijke toestemming van Wim Van Rooy en Benno Barnard om fouten te maken. Anders kàn ik gewoon niet communiceren. En Benno weet ondertussen hoe het is om oog in oog te staan met zulke mensen. Taalvouten worden dan plots irrelevant. Ik van mijn kant geniet echt van jullie taalvirtuositeit. Ik heb andere kwaliteiten die 'in een later stadium' van pas kunnen komen. Toch bedankt om het te melden. No hard feelings.

traveller zei

Ik ben een beetje laat op deze draad gestoten en verontschuldig me voor het late antwoord.
Telkens ik een gelijkaardige discussie lees betreffende statistieken over allochtonen en criminaliteit zoek ik naar de paragrafen over de echte redenen: de culturele achtergrond, maar vind ze zeer zelden.
Gezien ik een paar decennia in islamitische landen heb geleefd ben ik wel bereid om een klein beetje licht te werpen op dat cultureel fenomeen.
Criminaliteit op vrouwen: wordt niet gestraft. Ik ben bij verschillende moorden op vrouwen persoonlijk zijdelings betrokken geweest, ofwel kende ik de families ofwel kende ik minstens de dader en het slachtoffer. Die moorden zijn nooit bestraft en kwamen zelfs niet in de rechtbank.
Moorden op christenen:
Ik heb verschillende moordgeschiedenissen gekend op christenen om de eigendommen van die families te stelen. Die moorden zijn nooit bestraft.
Passiemoorden op buitenlandse diensters:
Ik heb verschillende moorden op buitenlandse(Bengaalse en Filipijnse vrouwen) diensters van dichtbij meegeleefd, en niemand werd voor de rechtbank gebracht zelfs niet onderzocht door de politie.
Wat betreft de maatschappelijke structuur is het zeer simpel, het recht van de sterkste. Zelfs in het verkeer is een zware vrachtwagen belangrijker dan een rood licht, het is niet omdat je groen licht hebt dat die vrachtwagen zijn "voorrang" niet zal nemen en door rood rijden.
Ik kan zo eindeloos door gaan maar de essentie is dat er geen enkele moslim rechtsstaat is.
Je brengt dan die mensen naar hier en je begint statistieken te maken om te bewijzen dat ze niet slechter zijn dan een ander.
Ze zijn niet slechter dan een ander volgens hun eigen code maar ze begrijpen geen moer van onze codes.
Als iemand hier verder wil over discussiëren ben ik graag bereid verder te gaan.

Christophe zei

Wat traveller schrijft over zijn ervaringen in islamitische landen komt me bekend voor (minus de straffeloosheid voor moorden dan).

Het doet me denken aan mijn ervaringen in Caïro, nog niet zo heel lang geleden. Mijn verwondering ook over hoe een stad met 17 miljoen inwoners kan functioneren, gezien de chaos, het dodelijke verkeer en de totale lethargie om ook maar iets van infrastructuur op te knappen,... Toen kon ik niet begrijpen dat de heersende consensus is dat het Westen hyperindividualistisch is, terwijl het Oosten collectief zou zijn.

In Egypte volgt men nooit de rij, steekt men je voor, primeert het recht van de sterkste (zoals traveller aangaf) en geeft men niet om wat gezamenlijk is behalve wanneer het een godsdienstige, familiale of mercantiele functie heeft. Allesbehalve collectivistische eigenschappen, denk ik dan.

Alle beschreven functies duiden dan ook op een maatschappelijk denken dat bepaald wordt door nihilisme voor wat het 'normale', aardse leven betreft. Alles wat niet door God, bloedband of geld wordt geregeld, is een vrijgeleide voor het ik, voor de sterkste.

Dat terwijl er in het Westen toch meer consensus bestaat over gemeenschapsvoorzieningen, middenveld en regeltjes. Over hoe we het aardse leven een beetje existentialistisch kunnen inkleden. Hoe een humaan burgerrecht er voor probeert te zorgen dat iedereen een beetje de kans heeft het goed te hebben, zonder privileges voor een bepaalde godsdienstige, familiale of financiële groep.

Brengt ons ver van het oorspronkelijke onderwerp van deze blogpost. Over de Hooghe-van Sanpolemiek ga ik me niet te verregaand uitspreken, mijn kennis van degelijke statistiek is daarvoor onvoldoende. Behalve: sommige statistici lijken te vergeten dat een één niet alleen een naakte mens is, maar ook een geest met een bepaalde (culturele) achtergrond.

Ik hoop dat we de discussie een beetje kunnen opentrekken. Wat niet wegneemt dat de betere statistische geesten gerust voort kunnen met de technische discussie. Ik leer er door bij, trouwens.

Maar traveller; zeggen dat je straffeloosheid hebt gezien bij moorden, dat lijkt me straf. Welke landen?

traveller zei

@ Christophe

Dubai, Abu Dhabi, Thailand, Bangladesh, India, Pakistan en de kampioen Afghanistan.
Van elk land kan ik je minstens één waar verhaal vertellen en voor sommige landen meerdere verhalen.
De straffeloosheid kwam door lokale moordenaar tegen buitenlands slachtoffer, in Thailand een serie roofmoorden op toeristen o.a. op Belgen in de '70's.
In andere gevallen moorden gepleegd door machtige personen of mafia-leden op zwakkere personen . Vrouwen hebben in die landen geen enkele kans buiten een enkelinge die door de buitenlandse pers werd opgemerkt.

Dit staat helemaal niet zo ver van de draad hier, de cultuur is belangrijker dan de werkloosheid of kansarm zijn.

Christophe zei

@ traveller: akkoord over cultuur, ik bedoelde eerder dat onze discussie een beetje verder ging dan een pure discussie over statistische methodes.

Afghanistan? En zeggen dat ik er ooit van droomde om naar dat land te gaan. Misschien nog altijd.

traveller zei

@ Christophe

Afghanistan is potentieel één der rijkste landen ter wereld, de bodemschatten zijn enorm en untouched, buiten 1 gasveld dat door de Russen werd geëxploiteerd gedurende 27 jaar zonder zelfs één dollar te betalen.
Ik heb het gedurende en na de oorlog tegen de Russen bezocht. Ik kon alleen maar mijn hoofd schudden, het is geen land maar een lappendeken. Het beste dat hen kan gebeuren is het op te splitsen volgens de etnische gebieden.

Christophe zei

@traveller: nooit het boek 'Unexpected Light: Travels in Afghanistan van Jason Elliot gelezen? Beetje dromerig relaas van een verscheurd maar - volgens de schrijver - onaards mooi land.

traveller zei

@ Christophe

Hartelijk dank.
Neen, ik ken het boek niet, ik zal het proberen te pakken te krijgen.
Het is inderdaad een heerlijk mooi land maar het heeft in de huidige constellatie geen enkele kans van slagen.
De dingen die ik zag zijn nergens anders ter beschikking.
Ooit een witte marmeren berg gezien uit pure wiite marmer?
Ooit verschillende bergen van Royal Onyx gezien (veelkleurige Onyx)?
De Russen hebben er zeer veel kapot gemaakt en nu zijn de tegenstellingen te groot geworden.

Christophe zei

In het boek wordt een lapis-lazulimijn beschreven als een berg die in feite één grote klomp lapis lazuli is...

De Pandsjirvallei wordt er beschreven als een langgerekte oase met af en toe een roestende Russische tank die er eeuwigheid vergaart.

Wat bracht jou naar Afghanistan, traveller?

traveller zei

@ Christophe

Ik had een zeer goede kennis wiens moeder de directe nicht van koning Zaheer Shah was.
Mijn vriend woonde in Karachi en ik verbleef 6 maand bij hem tot ik zelf ingeburgerd was en mijn eigen huis had.
Ondertussen had ik iedereen die je in het nieuws ziet als "mujahedeen" of als "warlord" persoonlijk leren kennen en had de meesten in hun huis in Islamabad, Peshawar en Kandahar of Jalalabad bezocht, tijdens de oorlog.
Het resultaat was dat ik door iedere geheime dienst in Pakistan werd gevolgd, alhoewel ik geen enkele sympathie had voor die gangsters. Ik was gewoon mateloos geïnteresseerd in menselijke domheid van Afghanen, Russen en Amerikanen die een spelletje speelden waar ze alle controle over verloren en waar miljoenen mensen werden door gedood, gewond en/of hun ganse leven ten minste vernietigd.
Mijn houding werd door de Afghanen zelf privaat gerespecteerd maar officieel was ik voor iedereen "te mijden", ik wist te veel en kende te veel mensen persoonlijk.
Die Lapis berg in Panjsher is beroemd en bestaat echt, ik heb hem niet gezien maar het is genoegzaam bekend. Ik heb wel een voorraad van 5 ton Lapis gezien bij één van die "mujahedeen" gangsters.

Ik weet niet of onze vriend Marc een Afghaanse discussie op zijn blog wenst, maar als hij het goed vindt en u hebt concrete vragen ben ik wel bereid er op te antwoorden.

Marc Vanfraechem zei

Geen enkel probleem Traveller & Christophe: integendeel, ik volg het graag, en leer veel, zoals wellicht vele lezers hier, maar zelf heb ik geen inbreng want ik weet er niets over.

traveller zei

@ Marc

Ik zal een paar artikels zoeken die ik vroeger schreef voor een Amerikaanse conservatieve blog, ze zijn natuurlijk wel in het Engels.
Ik hoop dat ik ze nog vind.

traveller zei

Christophe & Marc

Ik heb een lvb.net artikel gevonden met mijn en andere uitgebreide commentaren in het Nederlands.
Er staat tamelijk veel in de commentaren.

www.lvb.net/item/5871

traveller zei

@ Christophe & Marc

2de link

www.lvb.net/item/3815

Lees vooral ook de commentaren van de commentator DO

Christophe zei

Dat is meer achtergrond in een paar (uitgebreide) reacties dan ik in heel mijn leven over Pakistan en Afghanistan heb teruggevonden.

Zelden gelezen op nieuwssites, in boeken en tijdschriften. En een bewijs dat je voor (geo)politieke analyses niet meer per definitie op traditionele journalistiek moet rekenen.

Marc Vanfraechem zei

@Christophe: het is beter inderdaad om gewoon een klein gedichtje te lezen ;-)

traveller zei

@ Christophe & Marc

Nog iets interessants als je interesse hebt voor die landen:

lvb.net/item/7266

en

lvb.net/item/5131

http://victacausa.blogspot.com/victacausa.blogspot.com5edf7b715d0afaa3d68201fa2d94715a304487db.html