Google's revolutionaire Gemini 3.5 Flash: Een miljardenbesparing voor bedrijven in AI-uitgaven
Google heeft met de introductie van Gemini 3.5 Flash tijdens zijn jaarlijkse I/O-ontwikkelaarsconferentie een ware aardverschuiving teweeggebracht in de wereld van kunstmatige intelligentie. Het bedrijf beweert dat dit nieuwe AI-model een schijnbaar onverbiddelijke wet van de AI-industrie doorbreekt: dat de slimste modellen ook het langzaamst en duurst moeten zijn om te draaien. Sterker nog, Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year, wat een enorme impact kan hebben op de financiële huishouding van bedrijven die zwaar investeren in AI. Deze doorbraak markeert een cruciaal moment, niet alleen als een technologische prestatie, maar ook als een financieel reddingsmiddel voor organisaties die worstelen met de explosieve kosten van grootschalige AI-implementatie.
De lancering van 3.5 Flash staat centraal in een reeks ingrijpende aankondigingen, variërend van een video-genererend "wereldmodel" genaamd Gemini Omni tot een 24/7 persoonlijke AI-agent genaamd Gemini Spark. Toch draagt 3.5 Flash wellicht de meest directe gevolgen voor bedrijven die miljarden dollars in AI-infrastructuur pompen. Sundar Pichai, CEO van Google, deelde tijdens een persbriefing mee dat bedrijven die dagelijks ruwweg één biljoen tokens verwerken op Google Cloud, jaarlijks meer dan 1 miljard dollar zouden kunnen besparen door 80 procent van hun workloads te verschuiven naar een mix van Flash en andere geavanceerde modellen. Deze bewering, indien deze standhoudt, zou een van de meest significante verschuivingen in de economie van bedrijfs-AI betekenen sinds grote taalmodellen hun intrede deden in bedrijfscomputatie. Het is duidelijk dat Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year een gamechanger is.
Waarom bedrijven moesten kiezen tussen AI-kwaliteit en -snelheid, en hoe Gemini 3.5 Flash dit verandert
De afgelopen drie jaar stonden organisaties die generatieve AI omarmden voor een pijnlijke afweging. De meest capabele modellen – die in staat zijn complexe meerstapproblemen te doorgronden, betrouwbare code te schrijven en dichte financiële documenten te ontleden – waren over het algemeen groot, traag en duur in gebruik. Snellere, goedkopere modellen gingen ten koste van nauwkeurigheid. Chief Information Officers (CIO's) werden gedwongen tot een soort AI-portfoliomanagement: eenvoudige vragen werden naar lichtere modellen gestuurd, terwijl de zware redeneermachines werden gereserveerd voor cruciale taken. Dit resulteerde in een complex, kwetsbaar systeem dat extra engineering overhead met zich meebracht en vaak inconsistente gebruikerservaringen opleverde.
Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year door precies deze afweging direct aan te pakken. Volgens interne benchmarks van Google en een analyse door derden van Artificial Analysis, overtreft het model Google's eigen Gemini 3.1 Pro – een model dat het bedrijf nog maar vier tot vijf maanden geleden als zijn top-tier vlaggenschip positioneerde – op vrijwel elke belangrijke benchmark. Het behaalt indrukweende scores op Terminal-Bench 2.1, GDPval-AA, MCP Atlas en leidt in multimodaal begrip met CharXiv Reasoning. Ondanks deze superieure prestaties genereert het model output-tokens vier keer sneller dan vergelijkbare geavanceerde modellen van concurrenten. Koray Kavukcuoglu, CTO van Google DeepMind en Chief AI Architect voor Google, vertelde verslaggevers dat het team nog verder is gegaan: "We hebben een nog meer geoptimaliseerde versie van Flash ontwikkeld, niet zomaar vier keer, maar zelfs twaalf keer sneller met dezelfde kwaliteit." Deze turbo-variant is beschikbaar binnen Antigravity, Google's platform voor agent-ontwikkeling.
Pichai verwoordde het prestatieverschil in duidelijke bewoordingen: "3.5 Flash is beter dan 3.1 Pro, dat slechts vier maanden geleden verscheen, en het heeft bijna, zou ik zeggen, 90% van de prestaties van geavanceerde modellen, is 4x sneller, veel sneller in Antigravity, misschien 12x, en ongeveer 1/3 tot de helft van de kosten." Dit plaatst Flash, volgens Artificial Analysis, in het "top-right quadrant" van hun intelligentie-versus-snelheidsindex – de enige speler die deze positie momenteel inneemt. De claim dat Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year is hiermee onderbouwd door concrete prestatieverbeteringen en kostenreducties, die de markt voor bedrijfs-AI fundamenteel zullen transformeren.
De miljardenbesparing: de economie van tokens en hoe Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year
Om te begrijpen waarom Flash zo belangrijk is voor zakelijke kopers, moet men de economie van tokens begrijpen – de fundamentele gegevenseenheden die AI-modellen verwerken. Elke vraag die een chatbot van de klantenservice beantwoordt, elk juridisch document dat een AI samenvat, elke coderegel die een agent schrijft, verbruikt tokens. En tegen de prijzen van geavanceerde modellen tellen die tokens snel op. Google meldt dat zijn model-API's nu ongeveer 19 miljard tokens per minuut verwerken. Over alle eigen Google-producten – Zoeken, de Gemini-app, Workspace en meer – verwerkt het bedrijf meer dan 3,2 quadriljoen tokens per maand, een cijfer dat het afgelopen jaar alleen al verzevenvoudigd is. Twee jaar geleden, tijdens I/O 2024, was dit aantal nog 9,7 biljoen per maand.
Deze explosie in tokenverbruik is niet uniek voor Google. Bedrijven in alle sectoren ontdekken dat hoe capabeler hun AI-implementaties worden, hoe meer tokens ze verbruiken. Agentic workflows – waarbij AI-systemen autonoom meerstaps taken uitvoeren, tools aanroepen, code schrijven en uitvoeren, en itereren op hun eigen output – zijn bijzonder token-hongerig. Een enkele agentic codesessie kan ordes van grootte meer tokens verbruiken dan een eenvoudige vraag-en-antwoorduitwisseling. Dit is waar het kostenvoordeel van Flash transformationeel wordt. Het model levert wat Google beschrijft als geavanceerde mogelijkheden tegen minder dan de helft van de prijs, in sommige gevallen bijna een derde van de prijs, van vergelijkbare geavanceerde modellen. Voor een hypothetisch bedrijf dat één biljoen tokens per dag verwerkt op Google Cloud – een schaal die Pichai zei dat topklanten al bereiken – zouden de besparingen door 80 procent van de workloads te verschuiven naar een Flash-en-frontier-mix meer dan 1 miljard dollar per jaar bedragen. Dit is geen afrondingsfout; het is het soort bedrag dat inkoopbeslissingen hervormt, implementatietijden versnelt en de return-on-investment-calculatie voor AI-initiatieven, die veel raden van bestuur met toenemende ongeduld hebben onderzocht, fundamenteel verandert. Het is dan ook met recht dat Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year.
Google's unieke data-vliegwiel: een concurrentievoordeel door interne adoptie
Misschien wel het meest strategisch belangrijke detail dat Google dinsdag deelde, was geen benchmarkscore of een prijspunt. Het was een grafiek die het eigen interne tokenverbruik van het bedrijf liet zien op Antigravity 2.0, het opnieuw ontworpen agentic ontwikkelplatform. In maart 2026 verwerkten Google's ontwikkelaars ruwweg een half biljoen tokens per dag binnen Antigravity. Tegen de tijd van de I/O-persbriefing midden mei was dat cijfer voorbij de drie biljoen gestegen – een zesvoudige toename in ongeveer tien weken, waarbij het gebruik "letterlijk elke paar weken verdubbelde", aldus Pichai.
Dit interne gebruik creëert wat AI-onderzoekers een datavliegwiel noemen: hoe meer Google's eigen ingenieurs 3.5 Flash gebruiken om producten te bouwen, hoe meer real-world signalen het modelteam verzamelt over waar het model uitblinkt en waar het struikelt. Dat signaal wordt teruggekoppeld naar modelverbetering, wat het model nuttiger maakt, wat meer gebruik stimuleert, wat meer signalen genereert. Het is een deugdzame cirkel – en het is er een die concurrerende AI-labs, die voornamelijk vertrouwen op extern ontwikkelaarsgebruik en synthetische benchmarks, niet gemakkelijk met dezelfde snelheid of betrouwbaarheid kunnen repliceren. "Die schaal creëert een krachtige feedbacklus, en dat is wat ons in staat heeft gesteld om de 3.5-serie modellen te blijven verbeteren," zei Pichai. Wanneer hem tijdens de Q&A werd gevraagd naar het competitieve landschap – met name in het licht van recente vooruitgang van rivaliserende labs – erkende Pichai dat het landschap "zeer dynamisch" is en "snel beweegt", maar sprak hij zijn vertrouwen uit in Google's breedte. Hij voegde eraan toe dat de focus van het bedrijf met de 3.5-serie is geweest op "het nemen van de modelintelligentie, ervoor zorgen dat toolgebruik, instructievolging, lange horizon use cases, agent decoding allemaal goed werken." Kavukcuoglu benadrukte de agentic nadruk, en merkte op dat 3.5 Flash "nu multi-uur autonome sessies kan afhandelen" en "zelfstandig complexe coderingpipelines kan uitvoeren of iteratieve onderzoeksprojecten volledig zelf kan beheren." Het team, zei hij, testte het model zelfs door agents een werkend besturingssysteem helemaal opnieuw te laten bouwen. Dit interne gebruik is een bewijs van het vertrouwen dat Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year.
Antigravity 2.0: De ontwikkelomgeving die de kracht van Gemini 3.5 Flash ontsluit
De komst van 3.5 Flash is nauw gekoppeld aan de lancering van Antigravity 2.0, een belangrijke uitbreiding van het agentic ontwikkelplatform dat Google zes maanden geleden voor het eerst introduceerde. Wat begon als een codeeromgeving is geëvolueerd naar wat Google beschrijft als een volledig platform voor het ontwikkelen en beheren van teams van autonome AI-agenten, en het bedrijf zegt dat miljoenen ontwikkelaars er al mee bouwen. Antigravity 2.0 wordt geleverd als een nieuwe zelfstandige desktopapplicatie die dient als een centrale hub voor het gelijktijdig orkestreren van meerdere agenten. Google gaf het voorbeeld van het draaien van één agent om een website te coderen, een tweede om merk activa te genereren, en een derde om productarchitectuur te plannen – allemaal parallel, allemaal beheerd vanuit één interface. Voor ontwikkelaars die de voorkeur geven aan command-line workflows, is er Antigravity CLI. En voor degenen die programmatische integraties bouwen, biedt de nieuwe Antigravity SDK directe toegang tot hetzelfde agent harness dat de eigen first-party producten van Google aandrijft.
De co-ontwikkeling van 3.5 Flash en Antigravity 2.0 is geen toeval. "We hebben 3.5 Flash samen met Google Antigravity, ons agentic ontwikkelplatform, ontwikkeld," zei Kavukcuoglu. Deze strakke integratie betekent dat Flash's sterke punten – snelheid, toolgebruik, lange-contextredenering en codegeneratie – specifiek zijn afgestemd op de soorten workloads die ontwikkelaars binnen het platform uitvoeren. Google lanceert ook Managed Agents in de Gemini API, waardoor ontwikkelaars een agent kunnen opstarten met een enkele API-aanroep die redeneert, tools gebruikt en code uitvoert in een geïsoleerde Linux-omgeving. En het introduceerde CodeMender, een AI-beveiligingsagent die Gemini's geavanceerde redenering gebruikt om kritieke codekwetsbaarheden automatisch te vinden en te herstellen – een mogelijkheid die Kavukcuoglu essentieel achtte aangezien agentic systemen een toenemend deel van 's werelds code schrijven. Dit alles draagt bij aan de visie van hoe Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year.
De $190 miljard infrastructuurinvestering en Google's aangepaste siliconen
De modellen en platforms rusten op een verbijsterende infrastructuurinvestering die Pichai tijdens de briefing onthulde: Google verwacht kapitaaluitgaven van ongeveer 180 miljard tot 190 miljard dollar in 2026 – ruwweg zes keer de 31 miljard dollar die het bedrijf in 2022 uitgaf, slechts vier jaar geleden. Een belangrijk onderdeel van die uitgaven is aangepaste silicium. Het bedrijf onthulde onlangs zijn achtste generatie Tensor Processing Units (TPU's), waarbij voor het eerst een dual-chip architectuur werd toegepast met gespecialiseerde ontwerpen voor training (TPU 8o) en inferentie (TPU 8i). Google zegt dat het nu modeltraining kan distribueren over meerdere datacentersites met behulp van een systeem genaamd Pathways, schaalbaar tot meer dan één miljoen TPU's wereldwijd – een opstelling die volgens het bedrijf het grootste trainingscluster ter wereld vormt.
"Dit betekent het trainen van grotere, capabelere modellen in weken, in plaats van maanden," zei Pichai. Het infrastructuurvoordeel is enorm belangrijk voor de economie van Flash. Aangepaste silicium geoptimaliseerd voor inferentie betekent dat Google Flash tegen lagere kosten per token kan draaien dan concurrenten die afhankelijk zijn van algemene GPU's, en de besparingen worden – althans gedeeltelijk – doorgegeven aan klanten. Het capex-cijfer duidt ook op iets strategisch over Google's langetermijnhouding. Terwijl sommige investeerders nerveus zijn geworden over de astronomische bedragen die cloudproviders uitgeven aan AI-infrastructuur, presenteert Google de uitgaven als een concurrentievoordeel. Hoe meer infrastructuur het bouwt, hoe goedkoper het inferentie kan draaien, hoe aantrekkelijker de modellen worden, en hoe meer gebruik het vastlegt om de volgende generatie te verbeteren. Het is opnieuw de vliegwiel logica, uitgebreid van software helemaal tot silicium. Deze investeringen onderstrepen de vastberadenheid waarmee Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year.
Consumentenproducten: Hoe Gemini Omni, Spark en Search profiteren van Gemini 3.5 Flash
Terwijl het verhaal over bedrijfskosten de Flash-narratief domineert, heeft Google ook ingrijpende stappen gezet aan de consumentenkant die het model inzetten voor producten die miljarden mensen bereiken. Flash is nu het standaardmodel voor de Gemini-app – die meer dan 900 miljoen maandelijks actieve gebruikers heeft, meer dan een verdubbeling van de 400 miljoen een jaar geleden – en AI-modus in Google Search, die in het eerste jaar één miljard maandelijkse gebruikers heeft overschreden.
Google introduceerde Gemini Spark, een 24/7 persoonlijke AI-agent die draait op dedicated virtuele machines in Google Cloud en op de achtergrond werkt, zelfs wanneer het apparaat van een gebruiker uit staat. Aangedreven door 3.5 Flash met de volledige Antigravity-harnas, integreert Spark met Gmail, Docs, Sheets en Slides. Josh Woodward, die Google Labs en de Gemini-app leidt, beschreef de ervaring levendig: "Wanneer je het gebruikt, voelt het bijna alsof je dingen over je schouder gooit, Spark vangt ze op en klaart de klus." Op het gebied van veiligheid vereist Spark expliciete gebruikersgoedkeuring voor risicovolle acties. Google kondigde ook het Agent Payments Protocol aan, waarmee gebruikers strikte richtlijnen kunnen instellen – goedgekeurde merken, uitgavenlimieten, specifieke verkopers – voordat een agent geld namens hen kan uitgeven. Woodward vergeleek het ontwerp met "een tiener zijn eerste betaalpas geven – er zijn limieten en beperkingen aan verbonden."
Naast Flash onthulde Google Gemini Omni, een model dat in staat is om elke output van elke input te genereren, te beginnen met video. Kavukcuoglu maakte een scherp onderscheid met Google's bestaande Veo-model: "Veo is een tekst-naar-video-model. Omni is een echt en waar multi-model input, multi-model output-model." Alle door Omni gegenereerde inhoud draagt Google's SynthID-watermerk, en het bedrijf kondigde aan dat OpenAI, Kakao en ElevenLabs SynthID ook adopteren. Het bedrijf heeft ook zijn zoekvak voor het eerst in meer dan 25 jaar opnieuw ontworpen, introduceerde informatie-agenten die de klok rond het web monitoren voor door de gebruiker gedefinieerde voorwaarden, en lanceerde de Universal Cart – een AI-aangedreven cross-merchant winkelwagen gebouwd op Google Wallet. Liz Reid, die Google Search leidt, noemde het nieuwe zoekvak "de grootste upgrade van ons iconische zoekvak sinds de introductie." De brede toepassing van Flash op consumentenproducten demonstreert de schaal en het vertrouwen achter de bewering dat Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year.
De toekomstige kostencurve: Wat Google's zesmaandelijkse modelupdates betekenen voor ondernemingen
Google gaf aan dat 3.5 Flash slechts de aftrap is van de 3.5-serie. Gemini 3.5 Pro bevindt zich momenteel in interne tests en zal volgende maand voor iedereen worden uitgerold. Kavukcuoglu gaf aan dat het bedrijf werkt met een cyclus van ongeveer zes maanden voor grote modelupdates – Gemini 3 in november, 3.5 in mei – en verwacht dat dit ritme zal aanhouden. Toen een verslaggever van The New York Times vroeg hoe Google bepaalt of een release een volledige numerieke sprong of een halve stap rechtvaardigt, zei Kavukcuoglu dat de nummering de omvang van de onderzoeksvoortgang weerspiegelt: "Wat de nummerupdate definieert, is echt de vooruitgang die we zien in ons onderzoek en hoe dit tot uiting komt in de modellen en de impact die ze hebben."
Voor zakelijke kopers heeft die cadans een belangrijke implicatie: de kosten-prestatiecurve verbetert niet alleen – hij verbetert volgens een voorspelbaar schema. Een model dat de vorige vlaggenschipversie overtreft tegen een derde van de kosten, elke zes maanden, verandert fundamenteel de planningshorizon voor AI-investeringen. Het betekent dat de tokenbudgetten die bedrijven vandaag doorbranden, tegen het einde van het jaar wellicht verouderd lijken. De aankondigingen van Google komen op een moment van intense concurrentie. OpenAI, Anthropic, Meta en een reeks kleinere labs racen allemaal om modellen te leveren die balans vinden tussen capaciteit en kosten. Microsoft heeft OpenAI's modellen agressief geïntegreerd in Azure en Copilot. Maar Google profiteert van een structureel voordeel dat gemakkelijk over het hoofd wordt gezien: distributie. Met 13 producten die elk meer dan een miljard gebruikers bedienen – waarvan vijf meer dan drie miljard – kan Google Flash inzetten voor een publiek dat geen enkel puur AI-lab kan evenaren. Elke verbetering komt direct ten goede aan Search, Gmail, Docs, Maps en YouTube. En de gebruiksgegevens die terugstromen van die miljarden interacties voeden precies het vliegwiel dat het volgende model beter maakt. De vraag is nu of het besparingscijfer van 1 miljard dollar – een opvallende projectie gebaseerd op een specifieke workloadmix – het rommelige, bedrijfsmatige AI-implementatiescenario zal overleven, waar legacy-systemen, compliance-vereisten en organisatorische inertie zelfs de meest dwingende kostenbesparingen kunnen afzwakken. Maar als Google's eigen interne gebruik een indicatie is – drie biljoen tokens per dag en oplopend, elke paar weken verdubbelend, zonder tekenen van vertraging – dan verkoopt het bedrijf de weddenschap niet alleen. Het gaat zelf de weddenschap aan, met zijn eigen ingenieurs, op zijn eigen infrastructuur, op een schaal die geen enkele klant nog heeft geprobeerd. In de AI-kostenoorlogen is de meest overtuigende pitch misschien simpelweg: wij deden het eerst. En met Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year, laten ze zien hoe.
Veelgestelde vragen over Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year
1. Hoe kan Gemini 3.5 Flash zulke aanzienlijke kostenbesparingen realiseren voor bedrijven?
Gemini 3.5 Flash combineert de hoogste AI-kwaliteit met ongekende snelheid en lagere kosten per token. Waar bedrijven voorheen moesten kiezen tussen snelle, goedkope maar minder accurate modellen en langzame, dure maar krachtige modellen, doorbreekt Flash deze afweging. Het model is vele malen sneller dan vergelijkbare geavanceerde modellen en biedt tegelijkertijd superieure prestaties tegen een fractie van de prijs. Door workloads te optimaliseren en over te schakelen naar Flash, kunnen bedrijven hun operationele AI-uitgaven drastisch verlagen, en Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year.
2. Zijn de claims over besparingen realistisch voor elk bedrijf, of alleen voor zeer grote AI-gebruikers?
De claim dat Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year is gebaseerd op een scenario van bedrijven die al biljoenen tokens per dag verwerken, zoals Google's topklanten. Dit betekent dat de grootste besparingen inderdaad gelden voor zeer grootschalige AI-gebruikers. Echter, zelfs voor kleinere tot middelgrote ondernemingen die AI op schaal implementeren, bieden de verbeterde efficiëntie en lagere kosten per token van Gemini 3.5 Flash aanzienlijke financiële voordelen, waardoor AI-implementaties toegankelijker en rendabeler worden.
3. Welke rol speelt Google's infrastructuur en interne ontwikkelingsproces in de kosteneffectiviteit van Gemini 3.5 Flash?
Google's enorme investeringen in aangepaste silicium, zoals de Tensor Processing Units (TPU's), en zijn unieke interne "data-vliegwiel" spelen een cruciale rol. De geoptimaliseerde hardware stelt Google in staat om inferentie tegen veel lagere kosten te draaien dan concurrenten, en deze besparingen worden gedeeltelijk doorgegeven aan klanten. Bovendien voeden de biljoenen tokens die Google's eigen ingenieurs dagelijks verwerken binnen platforms zoals Antigravity, een continue feedbacklus die de modellen constant verbetert, wat leidt tot nog efficiëntere en kosteneffectievere AI-oplossingen, die de bewering versterken dat Google says Gemini 3.5 Flash can slash enterprise AI costs by more than $1 billion a year.
Verhoog uw entertainmentervaring met onze IPTV-abonnementen!
Bent u onder de indruk van de innovatie en efficiëntie die Google's AI-doorbraken met zich meebrengen? Net zoals Gemini 3.5 Flash de manier waarop bedrijven AI inzetten transformeert, kunnen wij uw entertainmentervaring revolutioneren. Duik in een wereld van eindeloze content met onze hoogwaardige IPTV-abonnementen, die u toegang geven tot duizenden live kanalen, films en series, allemaal in verbluffende kwaliteit. Waarom zou u zich beperken als u het beste kunt hebben? Klik nu en ontdek het gemak, de betrouwbaarheid en de ongekende keuze die onze IPTV-oplossingen bieden. Ontdek vandaag nog de toekomst van televisie en koop IPTV via onze website: IPTV kopen – uw toegangspoort tot entertainment van topkwaliteit!