jeroen_d Posted 22 februari 2007 Report Share Posted 22 februari 2007 Interessant leesvoer: http://www.stereophile.com/features/141/index.html en, als je het geld ervoor over hebt: http://www.aes.org/e-lib/browse.cfm?elib=4887 Leventhal legt met behulp van elementaire statistiek de beperkingen van de beroemde ABX-tester bloot. Ondanks zijn artikel is nu, 20 jaar later, de ABX-tester nog steeds gebaseerd op de binomiale distributie. Link to comment Share on other sites More sharing options...
jeroen_d Posted 23 februari 2007 Author Report Share Posted 23 februari 2007 Gelukkig zijn er ook onderzoekers die niet van de ABX-tester gebruikmaken en op correcte wijze een dubbelblind test opzetten. Hieronder een link van iemand die dit heeft gedaan om de hoorbaarheid van fasevervorming te onderzoeken. http://mue.music.miami.edu/thesis/dkoya/ch...5/chapter_5.htm Ik heb deze kennis en aanpak nog niet terug gezien in de blinde en dubbelblind testen die via fora worden georganiseerd. Link to comment Share on other sites More sharing options...
dekkersj Posted 23 februari 2007 Report Share Posted 23 februari 2007 [...]Ondanks zijn artikel is nu, 20 jaar later, de ABX-tester nog steeds gebaseerd op de binomiale distributie. De enige conclusie die ik daar uit kan trekken is dat die binomiale distributie dan toch de beste bandering is. Ondanks de inspanningen van meneer Leventhal. Wat schort er aan en waarom? Groet, Jacco Link to comment Share on other sites More sharing options...
jeroen_d Posted 23 februari 2007 Author Report Share Posted 23 februari 2007 Dat iets nog steeds wordt gedaan is geen reden om direct aan te nemen dat het correct is. Er kunnen allerlei belangen op de achtergrond meespelen die wij niet kennen. Ik wil je vragen om het eerst goed te lezen. Leventhal legt het uitstekend uit. Als je gerichte vragen hebt kunnen we verder discussieren. Ik heb op mijn werk voldoende experts op dit gebied om een en ander op correctheid na te gaan. Link to comment Share on other sites More sharing options...
dekkersj Posted 23 februari 2007 Report Share Posted 23 februari 2007 [...]Ik wil je vragen om het eerst goed te lezen. [...] Is niet zo handig, ik heb weinig tijd. Bovendien is het aardig als je eea zou samenvatten. Hoe korter hoe beter. Die binomiale verdeling zegt alleen iets over het vermogen van aapjes om tot een bepaalde score te komen. Daar is toch niets aan af te dingen? Groet, Jacco Link to comment Share on other sites More sharing options...
WanFie Posted 23 februari 2007 Report Share Posted 23 februari 2007 [...]Ik wil je vragen om het eerst goed te lezen. [...] Is niet zo handig, ik heb weinig tijd. Bovendien is het aardig als je eea zou samenvatten. Hoe korter hoe beter. Die binomiale verdeling zegt alleen iets over het vermogen van aapjes om tot een bepaalde score te komen. Daar is toch niets aan af te dingen? Groet, Jacco Dove aapjes...??? Link to comment Share on other sites More sharing options...
dekkersj Posted 23 februari 2007 Report Share Posted 23 februari 2007 [...]Ik wil je vragen om het eerst goed te lezen. [...] Is niet zo handig, ik heb weinig tijd. Bovendien is het aardig als je eea zou samenvatten. Hoe korter hoe beter. Die binomiale verdeling zegt alleen iets over het vermogen van aapjes om tot een bepaalde score te komen. Daar is toch niets aan af te dingen? Groet, Jacco Dove aapjes...??? Die genieten wel een voorkeur. Nog beter als ze ook nog blind zijn, geen geluid kunnen maken en totaal geen verstand en/of instinct hebben. Het kunnen ook konijnen zijn hoor. Groet, Jacco Link to comment Share on other sites More sharing options...
dekkersj Posted 23 februari 2007 Report Share Posted 23 februari 2007 Dove aapjes...??? Die genieten wel een voorkeur. Nog beter als ze ook nog blind zijn, geen geluid kunnen maken en totaal geen verstand en/of instinct hebben. Het kunnen ook konijnen zijn hoor. Groet, Jacco Ehh Jacco...heb jij nog broers?? Niet dat ik weet. Maar ik sluit niets uit. Groet, Jacco Link to comment Share on other sites More sharing options...
jeroen_d Posted 23 februari 2007 Author Report Share Posted 23 februari 2007 [...]Ik wil je vragen om het eerst goed te lezen. [...] Is niet zo handig, ik heb weinig tijd. Bovendien is het aardig als je eea zou samenvatten. Hoe korter hoe beter. Die binomiale verdeling zegt alleen iets over het vermogen van aapjes om tot een bepaalde score te komen. Daar is toch niets aan af te dingen? Groet, Jacco Ik zal een poging wagen. Op zich is er niets af te dingen op de binomiale verdeling an sich. Je hoopt dat de menselijke perceptie bij het maken van een keuze tussen A en B in een binomiale verdeling resulteert. Ik neem aan dat de makers van de ABX tester hebben geverifieerd dat er niet zomaar een andere betere verdeling is. Uitgaande van de binomiale verdeling kan er een tabel worden berekend die vergissingen kwantificeert, type 1 en type 2 error genoemd. Type 2 error is daarbij afhankelijk van variabele p. Deze tabel staat op deze pagina: http://www.stereophile.com/features/141/index2.html . Variabele p kwantificeert het vermogen van iemand om de juiste keuze tussen A en B te maken. Het is daarmee het deel van de tijd dat iemand de goede beslissing maakt. Je weet nooit hoe groot p is voordat je de test begint, want p is afhankelijk van het vermogen van de specifieke luisteraar maar ook van de testopzet (bv welke muziek er gekozen wordt). Als iemand van de duizend keer in totaal zevenhonderd keer de juiste beslissing maakt, dan zal p bij benadering gelijk zijn aan 0,7. In de praktijk worden er een beperkt aantal keuzes gemaakt. Bijvoorbeeld 16 keer beslissen of het A of B is wat je hoort , terwijl je 10 keer de juiste keuze maakt. Wat concludeer je op basis van een dergelijk resultaat? Is er een hoorbaar verschil of niet? De kans op type 1 error is in dit geval volgens de tabel van Leventhal gelijk aan 22%. Dwz dat de kans dat je een verschil hebt gehoord dat niet bestaat gelijk is aan 22%. Diezelfde tabel zegt, dat als voor deze luisteraar en testopzet p gelijk is aan 0,7 dat dan de kans op type 2 error gelijk is aan 18%. Dwz dat de kans dat je geen verschil hebt gehoord dat in principe wel hoorbaar zou moeten zijn gelijk is aan 18%. Is er nu wel of geen verschil hoorbaar door deze luisteraar? In het algemeen zal uit dit resultaat geconcludeerd worden dat absoluut niet is vastgesteld dat A en B verschillend klonken. Men vindt type 1 error te groot. Type 1 error moet dus lager zijn en in de regel wordt gewerkt met een type 1 error die beneden de 5% ligt. De dubbelblind test is namelijk bedoeld om een verschil onomstotelijk aan te tonen. Dus dat uit de statistiek duidelijk naar voren komt dat er een verschil is. Het dubbelblind is er dan om ervoor te zorgen dat er geen beinvloeding van buitenaf van de perceptie heeft plaatsgevonden. Zodat je geen discussie krijgt over het resultaat. Echter, hoe kleiner je de kans maakt dat je een verschil hoort dat niet bestaat, hoe groter de kans wordt dat je een verschil dat wel degelijk waarneembaar is uitsluit. Dat is type 2 error. En dat is het vervelende van de ABX-tester als je hem gaat gebruiken om te concluderen dat er geen verschillen bestaan. Bij een te klein aantal samples (16 is in ieder geval veel te klein als je geen idee van de grootte van p hebt), is de kans groot dat een verschil dat er wel degelijk is niet uit de test naar voren komt (vooral als de verschillen klein zijn en daardoor p niet groot is). Het is helaas niet erg kort jacco, en iemand die nooit een cursus statistiek heeft gevolgd haakt hier af. Maar gelukkig is het vrij elementair en voor de meeste mensen met enige mathematische achtergrond te volgen, voor jou een eitje dus. Lees in ieder geval die bladzijde met die tabel erop en http://mue.music.miami.edu/thesis/dkoya/ch...5/chapter_5.htm is ook handig en is ook slechts 1 pagina. Bottom line: de ABX-tester is goed te gebruiken als verschillen duidelijk worden vastgesteld. Als de verschillen minder duidelijk zijn echter, resulteert een beperkt aantal malen testen in een te grote kans dat je ten onrechte concludeert dat er geen verschillen zijn. Helaas wordt toch maar al te vaak de ABX-tester op deze wijze gebruikt, zeker als je het hebt over die testen die via de audio fora worden georganiseerd. Dergelijk gebruik is tijdverspilling. Een goed gebruik duurt te lang in de praktijk als de verschillen moeilijk hoorbaar zijn, je moet veel te veel samples nemen. Die testen van CD-spelers vergelijken enzo zijn dus leuk om te doen, maar concluderen dat alle CD-spelers hetzelfde klinken, mochten er niet zo'n duidelijke resultaten uitkomen, is uit den boze. Link to comment Share on other sites More sharing options...
Duck-Twacy Posted 23 februari 2007 Report Share Posted 23 februari 2007 Dit is gewoon schoolboekjes statistiek (die ik natuurlijk al lang vergeten ben op wat kretelogie na).. FF googelen http://wwwling.arts.kuleuven.ac.be/genling/statistiek/1.htm Wat toelichting bij de vetgedrukte termen in de vorige paragraaf: * verdeling of waarschijnlijkheidverdeling (distribution, probability distribution): de waarschijnlijkheidsverdeling van een variabele is een mathematische constructie: het is een functie die elke mogelijke waarde van die variabele afbeeldt op de theoretische kans dat bij een steekproef die waarde wordt geobserveerd; een verdeling kan worden samengevat door de zogenaamde parameters van de verdeling. Sommige testen stellen eisen voor de verdeling van de variabelen die getest worden. Dit noemt men geparametriseerde testen. Daarnaast berust de werking van testen op het feit dat de verdeling van de teststatistiek gekend is. * p-waarde (p-value): een getal tussen 0 en 1, berekend op basis van de teststatistiek, de verdeling van de teststatistiek en het aantal vrijheidsgraden (degrees of freedom) van de test (de berekening van het aantal vrijheidsgraden, een maat voor het 'aantal stukken informatie in de test', hangt af van het type test) * nulhypothese (null hypothesis): de hypothese die men tracht onderuit te halen met de test; naast de nulhypothese formuleert men ook een alternatieve hypothese (alternative hypothesis), die geldt als de nulhypothese niet geldt. * alfa-niveau of significantieniveau (significance level): typische alfa-niveau's zijn 0.10, 0.05 en 0.01. Bij het overschrijden van deze alfa-niveau's spreekt men vaak respectievelijk van een tendens (moderately significant), een significant fenomeen (significant) en een hoogsignificant fenomeen (highly significant). Wat toelichting bij het praktische gebruik van de techniek: Het is fundamenteel ingebakken in de aard van de verklarende statistiek in het algemeen, en van het toetsen van hypothesen in het bijzonder, dat de resulterende uitspraken (bv. de uitspraak "de nulhypothese mag verworpen worden") uitspraken zijn met een zekere kans om fout te zijn. Men maakt onderscheid tussen twee types van fouten: TYPE 1 FOUT: NULHYPOTHESE VERWERPEN, TERWIJL ZE KLOPT. Met het alfa-niveau kan de kans op een dergelijk fout gecontroleerd worden. Kiest men voor 0.05, dan betekent dit men een kans van 5 percent accepteert dat men de foute conclusie trekt uit de steekproef. Men laat de keuze van het significantieniveau dan ook best afhangen van de omstandigheden. Om een hypothese aan te vallen die in een vakgebied belangrijk is en algemeen aangehangen wordt, kiest men best een lage alfa-waarde (0.01 of zelfs 0.001). Als de consequenties van een foute conclusie minder dramatisch zouden zijn, dan wordt vaak een alfa-waarde van 0.05 (of soms 0.10) gekozen als het meest aangewezen compromis tussen werkbaarheid en veiligheid. Bij verkennend onderzoek ziet men in publicaties trouwens vaak af van de keuze van het significantieniveau en het uitspreken van een verdict in de stijl van "hypothese X wordt op significantieniveau Y verworpen", maar beperkt men zich tot het geven van de verkregen p-waarde als een 'maat van bewijsmateriaal' tegen de nulhypothese. Hoe kleiner p, hoe meer de nulhypothese in twijfel kan worden getrokken. TYPE 2 FOUT: NULHYPOTHESE NIET VERWERPEN, TERWIJL ZE NIET KLOPT. Zoals men de kans op een type 1 fout het alfa-niveau van een test noemt, zo noemt men de kans op een type 2 fout het beta-niveau van een test. Net als het alfa-niveau wordt het beta-niveau uitgedrukt als een waarde tussen nul en Link to comment Share on other sites More sharing options...
erik klijnsmit Posted 23 februari 2007 Report Share Posted 23 februari 2007 Die testen van CD-spelers vergelijken enzo zijn dus leuk om te doen, maar concluderen dat alle CD-spelers hetzelfde klinken, mochten er niet zo'n duidelijke resultaten uitkomen, is uit den boze. gelukkig zitten er tussen cd-spelers HELE GROTE verschillen (zegt men) dus na 2 rondes is het resultaat overduidelijk lijkt me..... Link to comment Share on other sites More sharing options...
Duck-Twacy Posted 23 februari 2007 Report Share Posted 23 februari 2007 Dat ligt er aan hoe je de nul hypothese formuleert. Als die luidt: "er is een verschil als dag en nacht tussen 2 cd spelers", dan kun je snel klaar zijn. Link to comment Share on other sites More sharing options...
jeroen_d Posted 23 februari 2007 Author Report Share Posted 23 februari 2007 @Duck, ja, het is elementaire statistiek zoals ik al zei. Leventhal stelde ook dat wat hij vertelde textbook statistics is. Zijn artikel gaat natuurlijk verder, hij beschrijft daarin andere verdelingen in combinatie met gebruik van een betrouwbaarheidsinterval om meer informatie uit de resultaten te kunnen halen. De ontwikkelaars van de ABX-tester wilden er echter niet van horen... @Erik: Ja, dat is zo, de verschillen zijn subtiel. Als de luisteraars maar even afgeleid zijn, er niet genoeg rust is om te concentreren, dan wordt het al snel een random resultaat. Dus Erik, als het erom gaat dat er HELE grote verschillen zouden zijn, dan hoef je die test niet eens meer te doen. Iedereen weet wel dat de verschillen klein zijn. Link to comment Share on other sites More sharing options...
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now