WisFaq - digitale vraagbaak voor het wiskundeonderwijs

\require{AMSmath}

WisFaq - de digitale vraagbaak voor wiskunde en wiskunde onderwijs

Voedselallergie test

Beste meneer/mevrouw,

Ik zou graag via excel een allergie onderzoekje willen uitvoeren op mezelf. Ik heb namelijk een rode huid onder mijn mond en ik heb het gevoel dat dit naar aanleiding van bepaald voedsel kan zijn. Ik kan hier nog niet de vinger op leggen. Het is de ene dag erger dan de andere, maar het is nooit helemaal weg.

Mijn plan is om een maand (of meer) bij te houden wat ik per dag eet en drink in een excel bestand en ook de graad van roodheid waarbij 1 weinig is en 10 erg rood.

Mijn vraag is nu hoe ik dit het verstandigste aan kan pakken zodat ik een correlatie kan ontdekken in een bepaald soort voedsel en de graad van roodheid. En beantwoord ik vragen met met bijvoorbeeld ''Koffie 2'' of juist ''Koffie JA''?

Alvast bedankt.
Koen
Student hbo - donderdag 4 augustus 2016

Antwoord

Hallo Koen,

Wanneer je een wetenschappelijk verantwoorde conclusie wilt kunnen trekken, zou je zeer zorgvuldig een protocol moeten opstellen. Er zijn vele valkuilen, trap je daar in, dan leidt dit tot verkeerde conclusies. Voorbeelden zouden kunnen zijn:
Stel je eet beurtelings bloemkool, spinazie en worteltjes. Je bent allergisch voor bloemkool, maar verschijnselen tonen zich pas na een dag. Je zou denken dat spinazie de boosdoener is.
Stel dat de werkelijke oorzaak warmte is. Op warmere dagen drink je ook vaker een pilsje. Je ziet een mooi verband tussen pils en klachten, dus pils lijkt de boosdoener. Maar met warmte en zonder pils had je net zoveel klachten gehad, maar warmte heb je niet getest.
Stel je test veel producten, maar je bent helemaal niet allergisch voor één van deze producten. Jouw consumptie van deze producten is volledig willekeurig, evenals jouw klachten. Bij voldoende producten is er achteraf altijd wel eentje waarvan de willekeurige consumptie toevallig aardig overeenkomt met jouw willekeurige klachten. Verandering van eetpatroon heeft dan geen enkele invloed op jouw klachten.
....
Zo kunnen we nog een tijdje doorgaan, er zijn hilarische voorbeelden uit de praktijk. Dit soort foute conclusies zijn alleen te voorkomen met een zeer zorgvuldige onderzoeksopzet, waarbij bijvoorbeeld veel aandacht besteed moet worden aan randomiseren van consumptie van producten.

Gelukkig gaat het bij jou niet om een algemeen geldende wetenschappelijke conclusie, je zoekt aanwijzingen welke producten 'verdacht' zijn. Je zou hiervoor meervoudige lineaire regressie kunnen proberen. Hierbij wordt gekeken in hoeverre een afhankelijke variabele y (in jouw geval: mate van klachten) lineair afhankelijk is van meerdere onafhankelijke variabelen x₁, x₂ enz. (in jouw geval: geconsumeerde hoeveelheid chocola, kaas, koffie enz.). In formule:

y = a·x₁ + b·x₂ + c·x₃ + ... + z

Een grotere waarde van de coëfficiënten a, b, c enz. betekent dat y (mate van klachten) sterker toeneemt bij toenemende consumptie van product 1, 2, 3 enz. (de laatste coëfficiënt z is een constante: de klachten zijn niet afwezig wanneer je niets zou consumeren). Jouw vraag is dan: welk(e) product(en) hebben een grote waarde van de coëfficiënt a, b enz?

Aanpak in Excel:

Als voorbeeld neem ik even aan dat je gedurende 20 dagen de consumptie bijhoudt van 10 producten. In de kolommen A t/m J staat de consumptie, de kolom K de mate van klachten. De rijen 1 t/m 20 komen overeen met deze 20 dagen.
De analyse kan je automatisch uitvoeren met een Add-In. Hoe dit precies gaat kan ik je niet vertellen, want zelf heb ik deze niet. Met iets meer moeite lukt het echter ook met de basisversie:
Selecteer cel A22 en vul deze formule in (voor de Nederlandse versie van Excel):

=LIJNSCH(K1:K20;A1:J20;WAAR;WAAR)

(K1:K20 is het celbereik met klachten, A1:J20 het bereik met gegevens over consumtie). Volgens mij is LINEST de functie in de Engelstalige versie, maar ik weet dit niet zeker.
Selecteer een blok cellen van 5 rijen en zoveel kolommen als waarin je gegevens staan (in mijn voorbeeld 11 kolommen) met A22 in de linker-bovenhoek (dus A22 t/m K26), toets F2 en vervolgens Ctrl+Shift+Enter (dit maakt van je gewone formule een matrixformule)
De cellen A22 t/m J22 bevatten nu de gevraagde coëfficiënten (K22 bevat de constante, voor jou niet relevant).
Let op: verwarrend! De coëfficiënten staan in volgorde van rechts naar links! Cel A22 bevat coëfficiënt j, B22 bevat i, ... , J22 bevat coëfficiënt a.

Je bent nu een heel eind: een grote coëfficiënt betekent sterke toename van klachten bij toenemende consumptie. Maar je bent gevoelig voor de eenheid waarin je meet. Wanneer je chocola in kilogram gaat meten in plaats van gram, dan wordt de bijbehorende coëfficiënt 1000 keer zo groot. Hiermee wordt chocolade natuurlijk niet opeens meer verdacht. Corrigeer voor dit effect door de gevonden coëfficiënten te delen door de bijbehorende standaardfouten, deze vind je in rij 23. Deel dus de cellen A22 t/m J22 door de waarden in A23 t/m J23. Je vindt zgn. t-waarden. Een hoge t-waarde betekent dat de bijbehordende variabele belangrijk is voor het voorspellen van de waarde van K.

Samengevat:
Zet je waarnemingen op de aangegeven wijze in Excel
Voer met behulp van de functie LIJNSCH (LINEST) een meervoudige lineaire regressie uit
Zorg ervoor dat je een matrix van resultaten krijgt (cellen voor output selecteren, F2, Ctrl+Shift+Enter)
Deel de coëfficiënten in de bovenste rij van de output door de standaardfouten in de tweede rij om t-waarden te vinden
producten met de hoogste t-waarden zijn het meest verdacht (let op de 'verkeerde' volgorde van je resultaten!)
Nogmaals: wetenschappelijk is heel wat af te dingen op deze methode, maar het kan je helpen om verdachte producten op het spoor te komen. Daarna kan je natuurlijk gewoon uitproberen of je baat hebt met aanpassing van je consumtiepatroon.

Veel succes!

vrijdag 5 augustus 2016

©2001-2024 WisFaq