RFD STEEKPROEF EXPERIMENTEN

... Even geduld a.u.b. Bij het opstarten van de applicatie; DATA wordt ingelezen !

... STEEKPROEF VOLGENS SECLUSIE MODEL (... Even geduld a.u.b. !)

... POPULATIE BEPALEN VOLGENS SECLUSIE MODEL (... Even geduld a.u.b. !)

RFD SECLUSIE MODEL

RFD SECLUSIE MODEL STEEKPROEFGROOTTE

RFD SECLUSIE MODEL VERKIEZINGEN

Thema RFD SECLUSIE MODEL

1. Populatie

Een Populatie is een lastig te hanteren fenomeen en zeker bij enorme omvang, zoals het aantal sterren in het universum. Een populatie verwijst naar een groep organismen of een massa waaruit een steekproef kan worden getrokken, met name in de biologie en de statistiek. Normaal gesproken is de populatie statistisch gezien de groep waarover informatie wordt verzameld en geanalyseerd.
Een filosofische vraag kan luiden of zo'n populatie a priori altijd een vastgesteld gegeven moet zijn en of er ook eigenschappen zijn dat inkrimping kan veroorzaken?
Is het mogelijk dat een populatie tijdens een analyseproces kan inkrimpen en door bijvoorbeeld elementen uit te sluiten dan toch tot juiste schattingen te komen?
Mijn stelling luidt dat een populatie niet door een vaste omvang wordt bepaald en dat noem ik het seclusie model.

2. De exacte steekproefomvang

Er zijn diverse methodes denkbaar om een aselecte representatieve steekproef samen te stellen. Uiteindelijk heeft het tot doel om betrouwbare informatie te verschaffen over de hele populatie met een zo’n klein mogelijke foutmarge. Maar de hoeveel data dat tegenwoordig automatisch beschikbaar komt, is bijna niet te bevatten. En om die data dan op een juiste manier te analyseren, levert die hoeveelheid regelmatig praktische problemen op. Om toch snel data te kunnen analyseren, is het noodzakelijk een aselecte steekproef met de ideale omvang samen te stellen.

De omvang van de populatie - meestal aangeduid als 'N' in formules - heeft invloed op de steekproefgrootte. Bij een grote populatie is een klein percentage voldoende, terwijl bij een kleine populatie een grotere steekproef nodig is. Verder moeten er een aantal vragen worden beantwoord, zoals welk betrouwbaarheidsniveau wil men bereiken en hoe groot mag de foutenmarge zijn. De huidige steekproeftheorie voldoet volwaardig aan alle eisen, daar mankeert verder ook niets aan. De methode is zeer geschikt, vooral met populaties tot circa 1 miljoen elementen. Daarboven begint het wetmatige van de grote aantallen. In een statistische context zeggen wetten van grote aantallen dat het (steekproef)gemiddelde van een aselecte steekproef uit een populatie, met hoge waarschijnlijkheid weinig verschilt van het populatiegemiddelde. Dus met het expanderen van populaties vanaf 1 miljoen elementen en meer, mogen we ervan uitgaan dat de wetmatigheid van de grote aantallen zwaarder weegt dan de populatie met minder elementen. Hierdoor is het eenvoudiger om de grootte van een aselecte steekproef zelf te bepalen, zonder rekening te houden met allerlei extra eisen. Het zal bij een populatie van 10 miljoen dan ook niet veel uitmaken dat de aselecte steekproef 5% of 5,4% als omvang heeft, maar exact is het niet.

Om de juiste steekproefgrootte te bepalen is het seclusie model wel exact, omdat in de getaltheorie een methode verborgen ligt dat voor de exactheid een oplossing biedt. De analytische getaltheorie gebruikt het instrumentarium van analyse om eigenschappen van gehele getallen te onderzoeken en dat wijst uit dat het fenomeen priemgetal telkens weer opduikt. Door de huidige technische ontwikkelingen kunnen die oneindige hoeveelheid priemgetallen tegenwoordig makkelijker worden opgespoord. Het vervolg is dat een bepaalde hoeveelheid priemgetallen binnen een reeks van N elementen altijd de steekproefgrootte kan bepalen.
We kunnen daarom voor het seclusie model de volgende definitie vaststellen:

Het seclusie model is het uitsluiten van de precies aanwijsbare populatie-elementen, om tot een EXACT aselecte steekproefomvang te komen.

De precies aanwijsbare populatie-elementen zijn in deze definitie de niet-priemgetallen, zodat de steekproefomvang gelijk is aan het aantal wel-priemgetallen.
Een voorbeeld:
Van de N getallen [1-100] komen 25 priemgetallen voor, namelijk [2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97]
De steekproefgrootte zou in dit geval (25 / 100) * 100 = 25,0% worden.

Het eerste tabblad - Exponentiële verhouding Priemgetallen -
Van deze R-Shiny applicatie ziet u in een grafiek de uitwerking van zeven exponenten met grondtal 10, waarmee het aantal priemgetallen zijn gevonden en het steekproefpercentage is berekend. Hoe groter de omvang van de populatie, hoe kleiner de verhouding tussen de gevonden priemgetallen, en dus ook de beoogde steekproefomvang. Daaronder is een dataTable te zien, waarin per gekozen recordset de priemgetallen zijn geselecteerd.
Het meest interessant zijn bij het seclusie model natuurlijk de populaties met een hoog aantal elementen.

Het tweede tabblad - Seclusie model bij Steekproefgrootte -
Na keuze van een dataset (19 stuks per jaar) komt op experimentele wijze een nieuwe aselecte steekproef tot stand, waarna de verschillen in afwijking van het populatiegemiddelde kan worden afgelezen.

Het derde tabblad - Seclusie model bij Verkiezingen -
U ziet een grafiek met de uitwerking van een fictieve verkiezingsuitslag. Na keuze van een dataset (19 stuks per jaar) wordt de procentuele frequentieverdeling getoond van het stemgedrag in acht districten van Regio X.
Om de verschillen aan te tonen zijn er twee soorten uitslagen. Het gaat om een peiling en een uitwerking volgens het seclusie model van twee groepen - Democraten (blauw) en Republikeinen (rood) -
In dit experiment wordt het aantal priemgetallen niet gebruikt voor de steekproefgrootte, maar om de populatie-omvang nauwkeurig en opzettelijk te verkleinen.
De uitgebrachte stemmen zijn RANDOM bepaald en onderaan de grafiek zijn de opkomstpercentages zichtbaar.
Verder is er nog de mogelijkheid om subjectieve uitsluiting aan te tonen door de checkbox links aan te vinken.

3. De noodzakelijkheid van een exacte steekproefomvang

We constateren dat het seclusie model een exacte steekproefomvang kan bepalen, maar ook dat er niets mankeert aan de gangbare steekproefmethode. De huidige methode om een optimale steekproefgrootte te bepalen, is nodig om een evenwicht te vinden tussen nauwkeurigheid, betrouwbaarheid en praktische haalbaarheid bij het uitvoeren van onderzoek.
Hiervoor gebruikt men een formule: N = (Z^2 * p * (1-p)) / E^2 , met betekenis: foutenmarge (“E”), betrouwbaarheidsniveau (“Z”), grootte van de populatie (“N”)
Met andere woorden, het “bijschaven” van de steekproefomvang om bepaalde doelen te bereiken is noodzakelijk, maar zorgt er eigenlijk onbedoeld ook voor dat er sprake is van subjectiviteit. Het ‘rekening houden met’ is een vorm van subjectiviteit. Vanzelfsprekend hoeft dit helemaal niet te betekenen, dat uitkomsten hierdoor gemanipuleerd worden tot een gewenste uitkomst. Integendeel het heeft als doel, om aantoonbaar juiste uitspraken te kunnen doen. Want een te kleine steekproef kan leiden tot onnauwkeurige conclusies. We kunnen ook concluderen, dat de grootte van de populatie “N” een factor van belang is. Hoe groter de populatie, hoe beter de aselecte steekproef en dan dus ook minder rekening hoeft te houden met de foutenmarge (“E”) en het betrouwbaarheidsniveau (“Z”), want dat kan dan als goed worden gerekend.
En als hiermee dan de definitie van het Seclusie model uitgebreid kan worden:

Het seclusie model is het uitsluiten van de precies aanwijsbare populatie-elementen, om tot een EXACT aselecte steekproefomvang te komen, waarbij geen foutenmarge (“E”) of betrouwbaarheidsniveau(“Z”) wordt aangenomen.

Kunnen we concluderen dat we het seclusie model moeten zien als een transitie van de huidige formule met als doel een optimale steekproefgrootte te berekenen, naar een vaststelling van een exacte steekproefomvang.
Waarom is deze transitie zo belangrijk ?
Algoritmes en de snelle ontwikkeling van Artificial Intelligence (AI) spelen een grote rol in het afnemende vertrouwen in de wetenschap. En elke vorm van subjectiviteit, hoe goed ook bedoeld, versterkt het wantrouwen. Kunnen we aantonen dat algoritmes worden gestuurd door exacte wetenschap, dan zal het wantrouwen weer kunnen omslaan in vertrouwen. Uiteindelijk zal de exacte wetenschap altijd nodig blijven voor het samenstellen van algoritmes.