Thinking Machines onthult preview van bijna-realtime AI-spraak- en videogesprekken met nieuwe 'interactiemodellen'

De wereld van kunstmatige intelligentie staat aan de vooravond van een fundamentele verschuiving. Langzaam maar zeker lijken we het tijdperk van de "turn-based" chat te verlaten, waar menselijke input en AI-output strikt sequentieel plaatsvonden. Nu Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models', wordt de belofte van vloeiende, natuurlijke AI-interactie steeds tastbaarder. Gebruikers van AI-modellen zijn bekend met de huidige modus: invoer, wachten, uitvoer. Maar voor AI om echt de complexiteit van menselijke interactie te omarmen, is er meer nodig dan deze stapsgewijze benadering. Het vereist systemen die simultaan kunnen luisteren, reageren en anticiperen, en dat is precies wat Thinking Machines, de goed gefinancierde startup opgericht door voormalig OpenAI CTO Mira Murati en John Schulman, nastreeft met hun nieuwe interactiemodellen. Deze innovatie belooft een revolutionaire sprong voorwaarts in hoe we met AI communiceren, en bevestigt dat Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' een gamechanger is.

De beperkingen van turn-based AI en de noodzaak van 'full-duplex' interactie

Huidige geavanceerde AI-modellen ervaren de realiteit in wezen in een enkele 'thread'. Ze wachten geduldig tot een gebruiker zijn volledige invoer heeft afgerond voordat ze beginnen met verwerken, en hun perceptie lijkt te bevriezen terwijl ze een antwoord genereren. Dit traditionele 'turn-based' paradigma, zoals de onderzoekers van Thinking Machines in hun blogpost beschrijven, dwingt mensen zich aan te passen aan de AI-interfaces, wat resulteert in geformaliseerde vragen die meer lijken op e-mails dan op een spontaan gesprek. Deze "samenwerkingsbottleneck" beperkt de natuurlijke flow van menselijke communicatie en vertraagt processen aanzienlijk. De oplossing, volgens Thinking Machines, ligt in het afstappen van de standaard afwisselende tokenreeks ten gunste van een multi-stream, micro-turn ontwerp. Dit betekent dat in plaats van een volledige zin te wachten, het systeem 200 ms-brokken van input en output tegelijk verwerkt. Dit "full-duplex" architectuur stelt het model in staat om in real-time te luisteren, te spreken en zelfs te "zien", waardoor het proactief kan reageren terwijl een gebruiker nog spreekt, of kan ingrijpen wanneer het een visuele aanwijzing opmerkt. Het is deze fundamentele verschuiving die centraal staat nu Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' aan het licht komt, wat de weg effent voor veel natuurlijkere en efficiëntere mens-AI-samenwerkingen.

De innovatieve duale model architectuur van Thinking Machines

De onderzoekspreview van Thinking Machines introduceert een ingenieuze duale model architectuur die essentieel is voor het leveren van deze realtime AI-interactie. Het systeem bestaat uit TML-Interaction-Small, een 276-miljard parameter Mixture-of-Experts (MoE) model met 12 miljard actieve parameters, en een aanvullend achtergrondmodel. Omdat echte real-time interactie vrijwel onmiddellijke reactietijden vereist die vaak conflicteren met diepere redeneringen, heeft Thinking Machines dit tweedelige systeem ontworpen. Het eerste deel, het Interactiemodel, is continu in uitwisseling met de gebruiker. Het beheert de dialoog, detecteert aanwezigheid en handelt onmiddellijke follow-ups af, en zorgt voor de snelle, vloeiende communicatie die we verwachten van een natuurlijk gesprek. Het tweede deel is het Achtergrondmodel, een asynchrone agent die zich richt op meer intensieve taken zoals langdurig redeneren, webbrowsen of complexe toolcalls. Dit model streamt de resultaten terug naar het interactiemodel, dat ze vervolgens naadloos in het lopende gesprek verwerkt. Deze slimme opzet stelt de AI in staat om taken zoals live vertaling of het genereren van een UI-diagram uit te voeren, terwijl het tegelijkertijd naar de feedback van de gebruiker luistert, zoals indrukwekkend werd gedemonstreerd in de aankondigingsvideo. De capaciteit van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' om complexe taken op de achtergrond af te handelen zonder de interactie te verstoren, is een cruciale stap richting veelzijdige en responsieve AI-assistenten. Deze architectuur is een sleutelfactor achter het succes van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models'.

Indrukwekkende prestaties op benchmarks voor realtime interactie

Om de effectiviteit van hun baanbrekende aanpak te bewijzen, heeft het laboratorium van Thinking Machines gebruik gemaakt van FD-bench, een benchmark die specifiek is ontworpen om de kwaliteit van interactie te meten in plaats van alleen ruwe intelligentie. De resultaten die Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' presenteert, zijn ronduit indrukwekkend en tonen aan dat TML-Interaction-Small bestaande real-time systemen significant overtreft. Op het gebied van responsiviteit bereikte het een 'turn-taking latency' van slechts 0,40 seconden, aanzienlijk sneller dan 0,57 seconden voor Gemini-3.1-flash-live en 1,18 seconden voor GPT-realtime-2.0 (minimal). Wat betreft de interactiekwaliteit scoorde het model op FD-bench V1.5 een uitstekende 77,8, wat bijna een verdubbeling is van de scores van zijn belangrijkste concurrenten (GPT-realtime-2.0 minimal scoorde 46,8 en Gemini-3.1-flash-live 54,3). Deze cijfers benadrukken de superieure prestaties van de multimodale AI-communicatie van Thinking Machines. Bovendien blonk het model uit in visuele proactiviteit, met succesvolle betrokkenheid bij de visuele wereld in gespecialiseerde tests zoals RepCount-A (tellen van fysieke herhalingen in video) en ProactiveVideoQA, waar andere frontier modellen stil bleven of onjuiste antwoorden gaven. De prestaties van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' op deze specifieke benchmarks onderstrepen de potentie van hun aanpak om echt dynamische en contextbewuste AI-interacties te creëren, een cruciale stap in de evolutie van AI. Dit is een sterk bewijs dat Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' een leider is.

Metriek	TML-Interaction-Small	GPT-realtime-2.0 (min)	Gemini-3.1-flash-live (min)
Turn-taking latency (s)	0.40	1.18	0.57
Interaction Quality (Avg)	77.8	46.8	54.3
IFEval (VoiceBench)	82.1	81.7	67.6
Harmbench (Refusal %)	99.0	99.5	99.0

Een potentieel enorme impuls voor bedrijven – zodra de modellen beschikbaar zijn

De impact van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' op de bedrijfssector kan enorm zijn, zodra deze geavanceerde modellen algemeen beschikbaar komen. De native interactiemodellen, zoals TML-Interaction-Small, vertegenwoordigen een fundamentele verschuiving in hoe bedrijven AI kunnen integreren in hun operationele workflows, en maken momenteel onmogelijke of uiterst fragiele mogelijkheden met standaard multimodale modellen haalbaar.

Proactieve bewaking en waarschuwingen in realtime

Waar huidige bedrijfs-AI wacht tot een 'turn' is voltooid voordat data wordt geanalyseerd, kan een native interactiemodel in een productie- of laboratoriumomgeving een videofeed monitoren en proactief ingrijpen zodra het een veiligheidsinbreuk of een afwijking van een protocol detecteert, zonder te wachten op feedback van de werknemer. Het succes van het model in visuele benchmarks zoals RepCount-A (nauwkeurig tellen van herhalingen) en ProactiveVideoQA (vragen beantwoorden zodra visueel bewijs verschijnt) suggereert dat het kan dienen als een realtime auditor voor kritieke fysieke taken. Dit is een van de vele voordelen nu Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' wordt geïntroduceerd.

Revolutionaire klantenservice via spraak

De primaire frictie in spraakgebaseerde klantenservice is de 1-2 seconden "verwerkingsvertraging" die gangbaar is bij standaard API's. Het model van Thinking Machines bereikt een 'turn-taking latency' van 0,40 seconden, wat ongeveer de snelheid is van een natuurlijk menselijk gesprek. Omdat het simultane spraak natief afhandelt, kan een bedrijfsondersteuningsbot luisteren naar de frustratie van een klant, 'backchannel'-aanwijzingen geven (zoals "Ik begrijp het" of "mm-hmm") zonder de gebruiker te onderbreken, en live vertaling aanbieden die aanvoelt als een natuurlijk gesprek in plaats van een reeks onsamenhangende opnames. De mogelijkheden van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' voor klantenservice zijn enorm.

Natuurlijk tijdbeheer in complexe processen

Standaard LLM's missen een interne klok; ze "kennen" tijd alleen als deze wordt geleverd in een tekstprompt. Interactiemodellen zijn natief tijdbewust, waardoor ze tijdgevoelige processen kunnen beheren, zoals "Herinner me eraan om elke 4 minuten de temperatuur te controleren" of "Waarschuw me als dit proces langer duurt dan het vorige." Dit is van cruciaal belang voor industrieel onderhoud en farmaceutisch onderzoek, waar timing een essentiële variabele is. De full-duplex AI-systemen van Thinking Machines beloven hierin een doorbraak, dankzij de introductie van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models'.

Achtergrond van Thinking Machines: Een rijzende ster in AI

Deze aankondiging markeert een belangrijke mijlpaal voor Thinking Machines, na de lancering van Tinker in oktober 2025, een beheerde API voor het finetunen van taalmodellen. Tinker stelt onderzoekers en ontwikkelaars in staat om hun gegevens en trainingsmethoden te controleren, terwijl Thinking Machines de infrastructuurlast van gedistribueerde training op zich neemt. Deze focus op zowel de fundamenten als de geavanceerde realtime AI-interactie toont de ambitie van het bedrijf aan.

Thinking Machines werd begin 2025 gelanceerd als een AI-onderzoeks- en productbedrijf met als doel geavanceerde AI-systemen "begrijpelijker, aanpasbaarder en algemeen capabeler" te maken. In juli 2025 haalde Thinking Machines ongeveer $2 miljard op tegen een waardering van $12 miljard, een ronde geleid door Andreessen Horowitz, met deelname van zwaargewichten zoals Nvidia en Accel. Dit werd beschreven als de grootste seed funding ronde in de geschiedenis, wat de verwachtingen van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' verder aanwakkerde.

In augustus 2025 probeerde Mark Zuckerberg van Meta het bedrijf over te nemen en, na afwijzing, wierf Meta meer dan een dozijn van de ongeveer 50 werknemers van de startup. Desondanks bleef Thinking Machines groeien. In maart en april 2026 maakte het bedrijf naam met zijn rekenambities: het kondigde een partnerschap met Nvidia aan voor de implementatie van minstens één gigawatt aan Vera Rubin-systemen en breidde vervolgens de samenwerking met Google Cloud uit voor het gebruik van Google's AI Hypercomputer-infrastructuur met Nvidia GB300-systemen. De aanhoudende groei en strategische partnerschappen onderstrepen de positie van Thinking Machines als een belangrijke speler in de AI-wereld, en de preview van de interactiemodellen bevestigt dat Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' een voorbode is van de toekomst.

Ondanks het verlies van sommige getalenteerde medewerkers aan concurrenten zoals Meta, heeft Thinking Machines ook topspelers aangetrokken, waaronder Soumith Chintala (maker van PyTorch) als CTO en Neal Wu. De stroom van talent is dus niet eenrichtingsverkeer, wat de robuustheid van het bedrijf en de focus op innovatie aantoont. De nieuwe interactiemodellen zijn een direct resultaat van deze focus, en de aankondiging dat Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' een belangrijke stap is, zal de aandacht van de industrie vasthouden. Door interactiviteit native te maken in het model, gelooft Thinking Machines dat het schalen van een model het zowel slimmer als een effectievere samenwerkingspartner zal maken. De potentie van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' is onmiskenbaar.

Veelgestelde vragen over Thinking Machines' nieuwe 'Interaction Models'

V1: Wat is de kerninnovatie achter de 'interaction models' van Thinking Machines?

De kerninnovatie ligt in de afstap van "turn-based" interactie naar een "full-duplex" systeem. Dit betekent dat in plaats van te wachten op de volledige input van een gebruiker, de modellen van Thinking Machines in staat zijn om input en output gelijktijdig in micro-turn-chunks van 200 ms te verwerken. Dit stelt de AI in staat om in real-time te luisteren, te spreken en visuele cues waar te nemen, waardoor een veel natuurlijkere en vloeiendere realtime AI-spraak- en videogesprekken-ervaring ontstaat. Deze doorbraak is wat Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' zo significant maakt.

V2: Hoe presteren de nieuwe modellen op het gebied van snelheid en kwaliteit vergeleken met bestaande systemen?

De TML-Interaction-Small modellen van Thinking Machines presteren aanzienlijk beter dan concurrenten zoals Gemini-3.1-flash-live en GPT-realtime-2.0. Ze bereiken een 'turn-taking latency' van slechts 0,40 seconden, wat aanzienlijk sneller is. Op de FD-bench V1.5, die de interactiekwaliteit meet, scoorden ze 77,8, wat bijna een verdubbeling is van de scores van hun primaire concurrenten. Dit benadrukt de superieure snelheid en de geavanceerde multimodale AI-communicatie die mogelijk is met Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models'.

V3: Wat zijn de belangrijkste potentiële toepassingen van deze 'interaction models' voor bedrijven?

De 'interaction models' van Thinking Machines bieden diverse revolutionaire toepassingen voor bedrijven. Ze kunnen worden ingezet voor proactieve real-time bewaking in industriële en laboratoriumomgevingen, waar de AI kan ingrijpen bij afwijkingen. Ook kunnen ze de klantenservice transformeren door natuurlijke, vloeiende spraakinteracties met minimale vertraging mogelijk te maken, inclusief live vertaling en 'backchanneling'. Bovendien kunnen deze van nature tijdbewuste modellen tijdgevoelige processen beheren in sectoren zoals farmaceutisch onderzoek en onderhoud. De introductie van Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models' opent deuren naar ongekende efficiëntie en innovatie in bedrijfsprocessen, en maakt revolutionaire AI-gesprekken werkelijkheid.

De ontwikkelingen zoals die door Thinking Machines worden gepresenteerd, wijzen duidelijk op een toekomst waarin interactie met AI niet langer voelt als het bedienen van een machine, maar als een natuurlijk gesprek met een intelligente entiteit. Deze sprong voorwaarts in realtime AI-interactie belooft niet alleen werkprocessen te stroomlijnen, maar ook onze dagelijkse digitale ervaringen te verrijken. Als u geïnteresseerd bent in het omarmen van de nieuwste digitale innovaties en een ongeëvenaarde entertainmentervaring wilt, overweeg dan eens onze IPTV-abonnementen. Ervaar zelf de toekomst van naadloze en hoogwaardige streaming, perfect aansluitend bij een wereld die steeds meer draait om onmiddellijke en vloeiende interactie. Mis niets en ontdek de mogelijkheden van IPTV kopen vandaag nog!

Nieuws Zone Néerlandais

Thinking Machines onthult realtime AI spraak & video: nieuwe interactiemodellen.