IQ-scores voor AI: Nieuwe website schudt de techwereld op

Vergeleken met de decennia waarin de menselijke IQ-test een bekend, maar fel bediscussieerd, instrument was voor het meten van intelligentie, is de introductie van een vergelijkbare maatstaf voor kunstmatige intelligentie een revolutionaire stap. Nu is **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** Dit ambitieuze project van Ryan Shea, te vinden op aiiq.org, kent geschatte intelligentiequotiënten toe aan meer dan 50 van 's werelds krachtigste taalmodellen en plot deze op een standaard bell curve. De interactieve visualisaties hebben in korte tijd veel aandacht getrokken op sociale media, waarbij enterprise-technologen de charts prijzen als een middel om een onmogelijk complexe markt leesbaar te maken, terwijl onderzoekers en commentatoren waarschuwen dat het gehele raamwerk misleidend is. De discussie over de validiteit en bruikbaarheid van deze nieuwe benadering woedt in alle hevigheid, wat de noodzaak benadrukt om de diepere implicaties van deze ontwikkeling te begrijpen.

De reacties variëren sterk. "Dit is super nuttig," schreef Thibaut Mélen, een technologiecommentator, op X. "Veel gemakkelijker om de voortgang van modellen te begrijpen wanneer het zo in kaart wordt gebracht in plaats van in weer een reusachtige leaderboardtabel." Brian Vellmure, een bedrijfsstrateeg, bood een soortgelijke goedkeuring: "Dit is nuttig. Komt anekdotisch overeen met persoonlijke ervaring." Echter, de kritiek volgde net zo snel. "Het is onzin. AI is veel te grillig. De kaart is niet het territorium," postte AI Deeply, een account voor commentaar op kunstmatige intelligentie, waarmee een veelvoorkomende zorg onder onderzoekers werd samengevat: het reduceren van de uitgebreide, ongelijke capaciteiten van een taalmodel tot één enkel getal creëert een gevaarlijke illusie van precisie. De discussie bewijst dat **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.**

Hoe AI IQ de intelligentie van modellen meet: een controverse in getallen

**AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** Het platform is opgericht door Ryan Shea, een engineer, ondernemer en angel investor die vooral bekend is als mede-oprichter van het blockchainplatform Stacks. Shea's achtergrond en ervaring, inclusief mede-oprichterschap van Voterbase en investeringen in unicorn-startups als OpenSea en Mercury, geven hem een uniek perspectief op de ontwikkeling van technologie. De methodologie van AI IQ rust op een bedrieglijk eenvoudige formule. Het platform groepeert 12 benchmarks in vier redeneerdimensies: abstract, mathematisch, programmatisch en academisch. Het samengestelde IQ is een eenvoudig gemiddelde van deze vier dimensiescores: IQ = ¼ (IQ_Abstract + IQ_Math + IQ_Prog + IQ_Acad). Deze aanpak poogt een breder spectrum van capaciteiten te vangen dan traditionele, enkelvoudige benchmarks. De abstracte redeneerdimensie put uit ARC-AGI-1 en ARC-AGI-2, berucht om hun moeilijkheid en ontworpen om algemene fluïde intelligentie te testen. Wiskundig redeneren omvat FrontierMath (Tiers 1–3 en Tier 4), AIME en ProofBench. Programmatisch redeneren maakt gebruik van Terminal-Bench 2.0, SWE-Bench Verified en SciCode. Academisch redeneren put uit Humanity's Last Exam, CritPt en GPQA Diamond. Elk van deze benchmarks is zorgvuldig gekozen om specifieke aspecten van AI-intelligentie te belichten, en samen vormen ze een poging tot een omvattende beoordeling, hoewel de validiteit ervan nog steeds een punt van discussie is binnen de bredere AI-gemeenschap.

Elke ruwe benchmarkscore wordt omgezet naar een impliciet IQ via wat de site omschrijft als "hand-gekalibreerde moeilijkheidscurves". Het is cruciaal dat de methodologie plafonds comprimeert voor benchmarks die als gemakkelijker of gevoeliger voor datavervuiling worden beschouwd, om te voorkomen dat ze scores boven de 100 onterecht opdrijven. Moeilijkere, minder "gamebare" benchmarks behouden hogere plafonds. Het systeem gaat ook conservatief om met ontbrekende gegevens: modellen hebben scores nodig op minstens twee van de vier dimensies om een afgeleid IQ te ontvangen, en wanneer benchmarks ontbreken, trekt de pijplijn de scores opzettelijk naar beneden in plaats van naar boven. De site stelt expliciet dat "elk afgeleid IQ alle vier de dimensies gemiddeld, dus ontbrekende dekking kan een model niet beter doen lijken door weglating." Deze benadering is een poging om de betrouwbaarheid en consistentie van de scores te waarborgen, hoewel critici vraagtekens blijven zetten bij de subjectiviteit van de kalibratie en de algemene representativiteit van één enkel getal voor de complexe intelligentie van een AI. Het is duidelijk dat **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.**

Snelle convergentie aan de top: de AI IQ-ranglijsten van vandaag

Per medio mei 2026 vertellen de AI IQ-diagrammen een verhaal van snelle convergentie aan de top van de frontier en een toenemende diversiteit in de daaronder liggende lagen. Volgens de 'Frontier IQ Over Time'-chart van AI IQ, staat GPT-5.5 van OpenAI momenteel aan de top van de bell curve, met een geschat IQ van bijna 136 — het hoogste van alle gevolgde modellen. Het wordt op de voet gevolgd door GPT-5.4 (ongeveer 131), Opus 4.7 van Anthropic (ongeveer 132), en Opus 4.6 (ongeveer 129). Google's Gemini 3.1 Pro landt rond 131, wat de topcluster buitengewoon dicht op elkaar maakt. Deze compressie is niet uniek voor het AI IQ-framework. Visual Capitalist, op basis van een aparte, op Mensa gebaseerde ranking door TrackingAI, observeerde recentelijk dezelfde dynamiek en merkte op dat "de grootste conclusie is hoe gecomprimeerd de top van het klassement is geworden." Op die schaal stonden Grok-4.20 Expert Mode en GPT 5.4 Pro gelijk op 145, met Gemini 3.1 Pro op 141. Dit duidt op een intense concurrentie en snelle vooruitgang onder de leidende AI-ontwikkelaars. **AI IQ is here: a new site scores frontier AI models op de human IQ scale. The results are already dividing tech.**

Onder de topcluster tonen de AI IQ-grafieken een druk middenveld. Modellen van Chinese labs – Kimi K2.6, GLM-5, DeepSeek-V3.2, Qwen3.6, MiniMax-M2.7 – clusteren tussen ruwweg 112 en 118, waardoor de prijs-prestatielaag steeds competitiever wordt voor zakelijke kopers die niet het absolute beste model nodig hebben voor elke taak. Deze modellen bieden een aantrekkelijke balans tussen intelligentie en kosten, wat van groot belang is voor implementaties op grote schaal. Een X-gebruiker, ovsky, merkte op dat de data "de ervaring bevestigt met Sonnet 4.6 als een absoluut werkpaard in tegenstelling tot Opus 4.5" – wat aangeeft hoe de charts intuïties van praktijkmensen kunnen valideren die headline-ranglijsten vaak missen. Dit toont aan dat de metingen van AI IQ niet alleen academische waarde hebben, maar ook praktische inzichten kunnen bieden voor de keuze van AI-modellen in verschillende bedrijfscontexten. De diversiteit en snelle ontwikkeling in dit segment maken het een fascinerend gebied om te volgen, en de analyse van **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** draagt bij aan een beter begrip van dit dynamische landschap.

Emotionele intelligentie: de nieuwe dimensie in AI-ranglijsten

Wat AI IQ onderscheidt van de meeste andere benchmarkinginspanningen, is de inclusie van een "EQ"-score – emotionele intelligentie. De site zet de EQ-Bench 3 Elo-score en Arena Elo-score van elk model om naar een geschatte EQ met behulp van gekalibreerde stuksgewijs lineaire schalen, en neemt vervolgens een 50/50 gewogen composiet van de twee. Deze toevoeging erkent het groeiende belang van sociale en contextuele begrip in AI, vooral voor toepassingen die directe interactie met gebruikers vereisen. De EQ-scores produceren een beduidend andere rangschikking dan IQ alleen. Op de IQ versus EQ scatterplot leidt Anthropic's Opus 4.7 op EQ met een score van bijna 132, waardoor het in het rechterbovenkwadrant terechtkomt – de meest wenselijke positie, wat zowel hoge cognitieve als hoge emotionele intelligentie aanduidt. OpenAI's GPT-5.5 en GPT-5.4 clusteren in de hoge-IQ-zone, maar blijven enigszins achter op EQ. Google's Gemini 3.1 Pro bevindt zich in een sterke middenpositie op beide assen. Deze multidimensionale benadering biedt een completer beeld van de capaciteiten van een AI, verdergaand dan louter redeneervermogen. **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** toont de complexiteit van AI-evaluatie.

Een opvallende methodologische keuze heeft de aandacht getrokken: EQ-Bench 3 wordt beoordeeld door Claude, een Anthropic-model, wat de site erkent als potentieel "een scoringsbias creërend ten gunste van Anthropic-modellen." Om dit te corrigeren, trekt AI IQ een Elo-straf van 200 punten af van de EQ-Bench-component voor alle Anthropic-modellen voordat deze wordt omgezet naar de impliciete EQ. De Arena-component blijft onaangetast, aangezien deze gebruikmaakt van menselijke beoordelaars. Deze zelfcorrectie is ongebruikelijk in de wereld van benchmarking en suggereert dat Shea zich bewust is van het methodologische mijnenveld waarin hij zich begeeft. Toch vangt de EQ-dimensie iets op wat IQ alleen niet kan: het groeiende belang van gesprekskwaliteit, samenwerking en vertrouwen in modellen die worden ingezet voor gebruikersgerichte taken. Het toevoegen van een emotionele component erkent dat 'intelligentie' in AI meer omvat dan alleen logisch redeneren. Het draait ook om de effectiviteit van de interactie, wat cruciaal is voor de adoptie en het succes van AI in diverse toepassingsgebieden. In deze context is het begrijpelijk dat **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** zoveel debat oproept.

Kosten versus prestaties: de essentiële grafiek voor zakelijke AI-inkopers

Misschien wel de meest praktisch bruikbare grafiek op de site is niet de bell curve, maar de IQ vs. Effective Cost scatter plot. Deze grafiek brengt het geschatte IQ van elk model in kaart tegen een "effectieve kosten"-metriek – gedefinieerd als de tokenkosten voor een taak met 2 miljoen invoertokens en 1 miljoen uitvoertokens, vermenigvuldigd met een gebruiksefficiëntiefactor. Deze metriek is van cruciaal belang voor ondernemingen die AI-oplossingen implementeren en een balans zoeken tussen prestatie en budget. De grafiek onthult een bekend patroon in bedrijfstechnologie: de beste modellen zijn niet altijd de beste waarde. GPT-5.5 en Opus 4.7 bevinden zich in de linkerbovenhoek – hoog IQ, hoge kosten, met effectieve kosten per taak van meer dan $30 en respectievelijk $50. Dit zijn de absolute topmodellen, maar hun prijskaartje kan aanzienlijk zijn voor grootschalige implementaties. **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** werpt een licht op deze economische realiteit.

Tegelijkertijd bezetten modellen zoals GPT-5.4-mini, DeepSeek-V3.2 en MiniMax-M2.7 een 'sweet spot' in het midden: respectabele IQ-scores tussen 112 en 120, tegen effectieve kosten variërend van ruwweg $1 tot $5 per taak. Deze modellen bieden een uitstekende prijs-kwaliteitverhouding voor veel zakelijke toepassingen. Aan het goedkoopste uiterste verschijnt GPT-oss-20b (een open-source OpenAI-model) nabij $0.20 effectieve kosten met een IQ van ongeveer 107 – potentieel de meest economische optie voor bulkclassificatie- of extractieworkloads. De site biedt ook een 3D-visualisatie die IQ, EQ en effectieve kosten tegelijkertijd in kaart brengt. Een stippellijn door de kubus wijst naar het ideaal: hogere IQ, hogere EQ en lagere kosten. Modellen nabij het "groene uiteinde" van die as zijn over het geheel genomen sterkere deals; die nabij het "rode uiteinde" offeren capaciteit, kostenefficiëntie, of beide op. Voor CIO's die naar API-facturen kijken, is de implicatie duidelijk: het intelligentieverschil tussen een model van $50 en een model van $3 is voldoende afgenomen dat routing – dure modellen gebruiken voor moeilijke problemen en goedkope voor al het andere – niet langer optioneel is. Het is de dominante architectuur voor serieuze AI-implementaties. Deze inzichten bewijzen de praktische waarde van de data die **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** biedt.

De "grilligheid" van AI: waarom één IQ-score misleidend kan zijn

De luidste bezwaren tegen AI IQ zijn filosofisch van aard en snijden diep. Critici beweren dat het samenvatten van de ongelijke capaciteiten van een model in één enkele score meer verhult dan het onthult. Dit is de kern van de discussie rond **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** "IQ als proxy verdwijnt – we zien spikes in redeneerdichtheid die niet overeenkomen met de g-factor," postte Zaya, een technologiecommentator, op X. "GPT-5.5 heeft al verzadiging bereikt op MMLU-Pro, maar faalt nog steeds ClockBench 50% van de tijd." Die observatie raakt aan wat AI-onderzoekers het "grilligheid"-probleem noemen: grote taalmodellen vertonen vaak wildly ongelijke capaciteiten, excellerend in natuurkunde op masterniveau terwijl ze falen in taken die een kind zou kunnen uitvoeren. Een samengestelde score kan die hiaten verdoezelen en een vals gevoel van competentie geven. Dit gebrek aan consistentie maakt het moeilijk om AI-modellen op een lineaire schaal te plaatsen.

Pressureangle, een andere X-gebruiker, postte een meer gedetailleerde kritiek, waarin hij wees op het "complete gebrek aan transparantie" en betoogde dat de site nooit volledig openbaart hoe de kalibratiecurves zijn gecreëerd of gevalideerd. In alle eerlijkheid vermeldt AI IQ wel de 12 benchmarks en toont het de vorm van elke kalibratiecurve in de methodologie-modal. Maar de ruwe gegevens en precieze wiskundige transformaties worden niet gepubliceerd als open datasets – een hiaat dat van belang is voor onderzoekers die gewend zijn aan volledig reproduceerbare methoden. Anderen trokken het uitgangspunt zelf in twijfel. "Net zo nutteloos als menselijke IQ-tests," schreef haashim op X. Shubham Sharma, een AI- en technologiewriter, bood een constructief alternatief: "Waarom laten we de modellen niet een officiële (MENSA-grade) test afleggen? Zou dit niet de meest accurate en meest 'mens-vergelijkbare' manier zijn om intelligentie te benchmarken?" Die aanpak bestaat al via TrackingAI, dat de Mensa Noorwegen IQ-test aan taalmodellen afneemt. Maar Mensa-achtige tests meten alleen abstracte patroonherkenning, terwijl AI IQ een bredere composiet over codering, wiskunde en academisch redeneren probeert te bereiken. Zoals Visual Capitalist opmerkte, "vangt een IQ-achtige benchmark slechts één deel van de capaciteit." Elke benadering heeft compromissen – en geen van beide heeft het argument nog gewonnen, wat aantoont dat **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** een noodzakelijke discussie heeft gestart.

De echte race: niet om de hoogste score, maar om de slimste modelstack

Ondanks alle debatten over methodologie is het belangrijkste signaal in de data van AI IQ misschien niet de score van een enkel model. Het is de vorm van de markt die de grafieken onthullen. De realiteit is dat **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** en daarbij een dringend probleem aanpakt: er zijn nu meer dan 50 frontier-klasse modellen beschikbaar via API's, van minstens 14 grote providers verspreid over de Verenigde Staten, China en Europa. Elke provider publiceert zijn eigen benchmarks, vaak zorgvuldig geselecteerd om sterke punten te benadrukken. Het resultaat is een Babylonische spraakverwarring waarin geen twee bedrijven hetzelfde meten op dezelfde manier. Academisch onderzoek heeft benadrukt dat "de meeste benchmarks bias introduceren door zich te richten op een specifiek type domein," en de Frontier IQ Over Time-grafiek op AI IQ toont hoe snel de doelen bewegen: in oktober 2023 lag GPT-4-turbo rond een geschat IQ van 75. Begin 2026 bereikten de topmodellen 135 – ruwweg 60 punten verbetering in 30 maanden. Deze exponentiële groei maakt het uiterst moeilijk om een stabiel en uniform scoringssysteem te handhaven.

Dit tempo roept een fundamentele vraag op over de vraag of enig scoringssysteem kan bijblijven. De site comprimeert plafonds voor verzadigde benchmarks, maar naarmate modellen zelfs de moeilijkste tests blijven maximaliseren – ARC-AGI-2, FrontierMath Tier 4, Humanity's Last Exam – zal het framework worden geconfronteerd met dezelfde plafondeffecten die elke AI-evaluatie eerder hebben geplaagd. Connor Forsyth wees op deze dynamiek op X: "ARC AGI 3 is het er niet mee eens," schreef hij, verwijzend naar een volgende generatie benchmark die de huidige scores mogelijk al ondermijnt. Dit onderstreept de voortdurende uitdaging van AI-evaluatie in een snel evoluerend veld. **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** is niet perfect. De methodologie is gedeeltelijk ondoorzichtig. De IQ-metafoor kan misleiden. En de maker erkent bekende vooroordelen terwijl hij waarschijnlijk andere mist. Maar het alternatief – ploeteren door tientallen providerspecifieke benchmarktabellen, elk met verschillende testsuites en scoringsconventies – is erger. De site biedt zakelijke kopers iets werkelijk schaars: een enkel framework voor het vergelijken van modellen tussen providers, dimensies en prijspunten, regelmatig bijgewerkt, met voldoende nuance om te laten zien dat het juiste antwoord op "welk model is het beste?" bijna altijd "het hangt af van de taak" is.

Zoals Debdoot Ghosh op X mijmerde na het bekijken van de grafieken: "Is de rol van de mens nu alleen nog orkestreren?" Misschien. Maar als de AI IQ-gegevens iets duidelijk aantonen, is het wel dat orkestratie – weten welk model in te zetten, wanneer en tegen welke prijs – een eigen vorm van intelligentie is geworden. En daarvoor is er nog geen benchmark. De inzichten van **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** zijn onmisbaar voor iedereen die navigeert door dit complexe landschap, en helpen bij het maken van strategische beslissingen over de inzet van AI. Het is een poging om orde te scheppen in de chaos, ondanks de inherente moeilijkheden.

Veelgestelde Vragen over AI IQ en de Toekomst van AI-Evaluatie

1. Wat is precies het "AI IQ"-project en waarom verdeelt het de tech-wereld?

**AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** Het is een initiatief van Ryan Shea dat meer dan 50 geavanceerde AI-taalmodellen evalueert en ze IQ-scores toekent, gebaseerd op een reeks van 12 benchmarks verdeeld over vier redeneerdimensies (abstract, mathematisch, programmatisch, academisch). De verdeeldheid ontstaat omdat sommige technologen het zien als een nuttige vereenvoudiging van een complexe markt, terwijl onderzoekers en commentatoren waarschuwen dat het reduceren van de diverse capaciteiten van AI tot één score misleidend kan zijn, gezien de "grillige" intelligentie van deze modellen.

2. Hoe verschilt de AI IQ-methodologie van andere AI-benchmarks, en waarom is dit relevant?

In tegenstelling tot veel andere AI-benchmarks die zich richten op specifieke taken, probeert AI IQ een bredere intelligentiemeting te bieden, vergelijkbaar met de menselijke IQ-schaal. Een uniek aspect is de inclusie van een "EQ"-score (emotionele intelligentie) en een "IQ vs. Effective Cost" scatter plot, die de economische waarde van modellen benadrukt. Hoewel de site zelfcorrecties toepast voor potentiële vooroordelen (bijv. bij de EQ-meting van Anthropic-modellen), roept de "hand-gekalibreerde moeilijkheidscurves" en het gebrek aan volledige transparantie over ruwe data kritiek op. De relevantie ligt in de poging om een uniform framework te bieden in een gefragmenteerde markt, wat essentieel is nu **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** een feit is.

3. Wat zijn de belangrijkste conclusies voor bedrijven die AI-modellen willen inzetten, gezien de resultaten van AI IQ?

De AI IQ-charts laten zien dat er een snelle convergentie is aan de top van de AI-modellen, wat betekent dat de verschillen in pure intelligentie kleiner worden. Echter, de "IQ vs. Effective Cost" grafiek benadrukt dat de "beste" modellen niet altijd de meest kostenefficiënte zijn voor elke taak. Voor bedrijven betekent dit dat "routing" – het strategisch inzetten van dure, krachtige modellen voor complexe taken en goedkopere modellen voor routineklussen – cruciaal is geworden. De data van AI IQ helpt CIO's en bedrijfsstrategen om weloverwogen beslissingen te nemen over de inzet van AI, om zo de meest intelligente en kosteneffectieve "modelstack" te creëren. Het bevestigt dat **AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.** de markt op zijn kop zet.

Verbeter uw digitale ervaring: Ontdek superieure entertainment met IPTV!

Terwijl de wereld van kunstmatige intelligentie zich in een razend tempo ontwikkelt en de discussies over de juiste meetmethoden voortduren, blijft de behoefte aan hoogwaardig en betrouwbaar digitaal entertainment onverminderd groot. Net zoals AI IQ streeft naar helderheid in de complexe AI-markt, streven wij ernaar om u de beste en meest gestroomlijnde kijkervaring te bieden. Geef uw entertainment een upgrade en geniet van een ongeëvenaard aanbod van zenders, films en series, direct bij u thuis.

Wilt u geen moment missen van uw favoriete sportevenementen, de nieuwste films in haarscherpe kwaliteit bekijken, of toegang krijgen tot een wereld aan internationale zenders? Ontdek dan de voordelen van een betrouwbaar IPTV-abonnement. Neem de controle over uw entertainment en kies voor de kwaliteit en veelzijdigheid die u verdient. Klik nu en begin met genieten!

Bent u klaar voor de volgende stap in entertainment? Koop vandaag nog uw IPTV-abonnement en ervaar het verschil!

Nieuws Zone Néerlandais