**Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment** bij grootschalige AI-implementaties
De perceptie dat stijgende rekenkosten een primaire belemmering vormen voor de adoptie van kunstmatige intelligentie (AI) is wijdverbreid in verschillende industrieën. Echter, toonaangevende bedrijven die AI op schaal implementeren, ontdekken dat de werkelijke beperkende factor niet langer de kosten zijn. In plaats daarvan verschuiven de uitdagingen naar cruciale aspecten zoals latentie, flexibiliteit en capaciteit. Deze verschuiving benadrukt een groeiende filosofie: Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment. Dit betekent dat de focus is verschoven van 'hoe betalen we voor AI?' naar 'hoe snel kunnen we AI implementeren en in stand houden?'. De ervaringen van bedrijven als Wonder en Recursion, besproken tijdens de VB's AI Impact Series, illustreren deze trend treffend. Hun succesverhalen bewijzen dat innovatie en snelheid voorrang krijgen op een obsessie met initiële uitgaven.
De verschuiving in AI-prioriteiten: Van kosten naar snelheid en capaciteit
De discussie rond AI-adoptie heeft een opmerkelijke transformatie ondergaan. Waar voorheen de kosten van rekenkracht en infrastructuur de boventoon voerden in strategische gesprekken, zien we nu een duidelijke verschuiving naar operationele efficiëntie en schaalbaarheid. Bedrijven die voorop lopen in de AI-revolutie, beseffen dat de echte bottleneck niet financieel is, maar eerder ligt in het vermogen om AI-modellen snel te ontwikkelen, te testen en te implementeren. Dit is de essentie van de mentaliteit Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment. Ze zijn bereid te investeren om de voordelen van AI zo snel mogelijk te benutten, wetende dat optimalisaties op het gebied van kosten later kunnen volgen. Voor deze organisaties zijn factoren als lage latentie voor real-time toepassingen, de flexibiliteit om snel te experimenteren met nieuwe modellen en de beschikbare capaciteit om aan explosief groeiende eisen te voldoen van veel groter belang dan de directe kosten per transactie. Deze verschuiving in prioriteiten is een gamechanger, waarbij innovatie en marktresponsiviteit centraal staan. Dit geldt zeker in een concurrerend landschap waar het snel kunnen leveren van AI-gestuurde oplossingen een cruciaal concurrentievoordeel oplevert. De focus op Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment stelt hen in staat om sneller te innoveren.
Wonder: Heroverweeg aannames over capaciteit
Voor Wonder, het bedrijf voor maaltijdbezorging en afhalen, draait alles om snelheid en schaal. Hoewel AI essentieel is voor alles, van aanbevelingen tot logistiek, voegt het volgens CTO James Chen momenteel slechts enkele centen toe per bestelling. De technologische component van een maaltijdbestelling kost 14 cent, waarvan AI slechts 2 tot 3 cent voor zijn rekening neemt, alhoewel dit snel stijgt naar 5 tot 8 cent. Deze kosten lijken marginaal in vergelijking met de totale operationele kosten. In plaats daarvan is de grootste zorg van dit 100% cloud-native AI-bedrijf de capaciteit bij groeiende vraag. Wonder was oorspronkelijk gebouwd op de veronderstelling van 'onbeperkte capaciteit' in de cloud, waardoor ze 'super snel' konden bewegen zonder zich zorgen te hoeven maken over infrastructuurbeheer. Deze aanname bleek incorrect. Door de snelle groei van het bedrijf begonnen cloudproviders ongeveer zes maanden geleden signalen af te geven dat Wonder een tweede regio moest overwegen, omdat de CPU- of data-opslagcapaciteit in hun faciliteiten ontoereikend werd. Dit was een 'zeer schokkende' realisatie, aangezien ze van plan waren om pas over twee jaar multi-regio te worden. Dit toont aan dat zelfs voor bedrijven die de cloud omarmen, capaciteit een onverwachte uitdaging kan zijn, wat de noodzaak van de mindset Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment des te meer benadrukt, inclusief het snel aanpassen van infrastructuurplannen. De capaciteitsbehoeften werden onderschat, maar de prioriteit bleef om AI-oplossingen snel te leveren en op te schalen.
Wat nog niet economisch haalbaar is (maar wel de toekomst heeft)
Wonder heeft geïnvesteerd in de ontwikkeling van een eigen model om de conversieratio te maximaliseren. Het hoofddoel is om nieuwe restaurants zo effectief mogelijk onder de aandacht te brengen van relevante klanten. Dit zijn 'geïsoleerde scenario's' waarbij modellen in de loop van de tijd worden getraind om 'zeer, zeer efficiënt en zeer snel' te zijn. Momenteel zijn grote modellen de beste keuze voor Wonder's specifieke toepassingen. Echter, op de lange termijn streeft het bedrijf naar kleinere modellen die hyper-gepersonaliseerd zijn voor individuen, mogelijk via AI-agents of concierges, gebaseerd op hun aankoopgeschiedenis en zelfs hun klikgedrag. Hoewel deze 'micromodellen' ongetwijfeld de meest optimale oplossing zouden zijn voor een gepersonaliseerde gebruikerservaring, zijn de kosten op dit moment nog prohibitief hoog. Het creëren van een apart model voor elke gebruiker is eenvoudigweg niet economisch haalbaar, aldus Chen. Dit illustreert een belangrijk aspect van de Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment filosofie: er zijn momenten waarop de 'optimaliseer later' fase nog niet is aangebroken voor bepaalde technologieën. Toch blijft de zoektocht naar efficiëntere en kosteneffectievere manieren om deze gepersonaliseerde AI-oplossingen te leveren, cruciaal. De innovatie stopt niet, zelfs als de volledige optimalisatie nog op zich laat wachten.
Budgettering voor AI: Meer kunst dan wetenschap
Bij Wonder wordt ontwikkelaars en data scientists zoveel mogelijk ruimte geboden voor experimentatie, een praktijk die past bij de mentaliteit Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment. Interne teams monitoren echter de gebruikskosten om er zeker van te zijn dat niemand per ongeluk een model inschakelt dat 'enorme rekenkracht opslokt en een gigantische rekening genereert'. Het bedrijf probeert verschillende manieren om taken naar AI te verplaatsen en binnen de marges te opereren. Desondanks is budgettering voor AI een uitdaging. "Het is heel moeilijk om een budget op te stellen omdat je geen idee hebt," merkte Chen op. Een van de meest veeleisende aspecten is het moordende tempo van ontwikkeling; wanneer een nieuw model verschijnt, kunnen ze niet simpelweg afwachten. "We moeten het gebruiken," zei hij. Het budgetteren voor de onbekende economie van een token-gebaseerd systeem is "absoluut meer kunst dan wetenschap". Een kritische component in de softwareontwikkelingslevenscyclus is het bewaren van context bij het gebruik van grote native modellen. Wanneer iets werkt, kan het worden toegevoegd aan het 'corpus van context' van het bedrijf, dat met elke aanvraag kan worden meegestuurd. Dit is van grote omvang en brengt elke keer kosten met zich mee. "Meer dan 50%, tot wel 80% van je kosten is alleen al het opnieuw versturen van dezelfde informatie naar dezelfde engine bij elke aanvraag," legde Chen uit. In theorie zou meer doen minder kosten per eenheid moeten vereisen. "Ik weet dat wanneer een transactie plaatsvindt, ik de X cent belasting voor elk betaal, maar ik wil niet beperkt zijn in het gebruik van de technologie voor al deze andere creatieve ideeën," een perfecte illustratie van hoe Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment innovatie stimuleert, ondanks de budgettaire onzekerheden.
Recursion: De validatie van een hybride aanpak
Recursion, een biotechnologiebedrijf dat AI inzet voor medicijnontwikkeling, heeft zich gefocust op het voldoen aan de brede rekenbehoeften via een hybride infrastructuur bestaande uit zowel on-premise clusters als cloud-inferentie. Toen het bedrijf in eerste instantie zocht naar manieren om zijn AI-infrastructuur op te bouwen, was het genoodzaakt om een eigen setup te creëren, aangezien "de cloudproviders nog niet veel goede aanbiedingen hadden," verklaarde CTO Ben Mabey. Het "moment van bevestiging" kwam toen ze meer rekenkracht nodig hadden en cloudproviders zeiden: "Misschien over een jaar of zo." Dit was een duidelijke impuls voor de Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment mentaliteit, waarbij ze zelf de touwtjes in handen namen om snel vooruit te kunnen. Het eerste cluster van het bedrijf in 2017 bevatte Nvidia gaming GPU's (1080s, gelanceerd in 2016). Sindsdien hebben ze Nvidia H100s en A100s toegevoegd en gebruiken ze een Kubernetes-cluster dat ze zowel in de cloud als on-premise draaien. Over de levensduur van hardware merkte Mabey op: "Deze gaming GPU's worden vandaag de dag nog steeds gebruikt, wat gek is, toch? De mythe dat de levensduur van een GPU slechts drie jaar is, is absoluut niet het geval. A100s staan nog steeds bovenaan de lijst, ze zijn de werkpaarden van de industrie." Deze pragmatische benadering van infrastructuur, gedreven door de noodzaak om snel te kunnen implementeren, heeft Recursion een aanzienlijk concurrentievoordeel opgeleverd.
On-premise versus cloud: De beste use cases en kostenverschillen
Mabey's team heeft recentelijk een fundamenteel model getraind op Recursion's enorme afbeeldingsrepository, die bestaat uit petabytes aan data en meer dan 200 miljoen afbeeldingen. Deze en andere soorten grootschalige trainingstaken vereisten een "enorm cluster" en verbonden, multi-node setups. "Wanneer we dat volledig verbonden netwerk en toegang tot veel van onze gegevens in een hoog parallel bestandssysteem nodig hebben, gaan we on-premise," legde hij uit. Kortere workloads daarentegen draaien in de cloud. De methode van Recursion omvat het "pre-empten" van GPU's en Google Tensor Processing Units (TPU's), wat het proces is van het onderbreken van lopende GPU-taken om aan hogere prioriteitstaken te werken. "Omdat we ons niet druk maken over de snelheid bij sommige van deze inferentieworkloads, waarbij we biologische gegevens uploaden, of dat nu een afbeelding of sequentiesdata, DNA-data is," legde Mabey uit. "We kunnen zeggen: 'Geef ons dit over een uur,' en we vinden het prima als de taak wordt onderbroken." Vanuit kostenperspectief is het verplaatsen van grote workloads naar on-premise "conservatief" 10 keer goedkoper, merkte Mabey op; voor een TCO (Total Cost of Ownership) over vijf jaar is het de helft van de kosten. Aan de andere kant, voor kleinere opslagbehoeften, kan de cloud "redelijk concurrerend" zijn qua kosten. Uiteindelijk drong Mabey er bij tech-leiders op aan om een stap terug te doen en te bepalen of ze echt bereid zijn zich te committeren aan AI. Kosteneffectieve oplossingen vereisen doorgaans een meerjarige investering. "Vanuit psychologisch perspectief heb ik collega's gezien die niet investeren in rekenkracht, en als gevolg daarvan betalen ze altijd on-demand," zei Mabey. "Hun teams gebruiken veel minder rekenkracht omdat ze de cloudrekening niet willen opjagen. Innovatie wordt echt belemmerd doordat mensen geen geld willen 'verbranden'." Dit onderstreept de noodzaak om serieus te investeren om de voordelen van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment volledig te kunnen benutten, in plaats van te worden beperkt door kortetermijnkosten. Deze strategische visie is essentieel om de groei en ontwikkeling van AI-gedreven initiatieven te ondersteunen, waarbij de focus ligt op het creëren van waarde.
De succesverhalen van Wonder en Recursion illustreren perfect de verschuiving in prioriteiten in de AI-wereld. De meest geavanceerde bedrijven begrijpen dat de ware uitdagingen liggen in het leveren van prestaties, flexibiliteit en schaalbaarheid, niet in de initiële kosten. Hun benadering wordt gedreven door de filosofie Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment, wat betekent dat ze de nadruk leggen op snelle implementatie en continue innovatie, wetende dat kostenoptimalisatie een volgende stap is. Dit stelt hen in staat om voorop te blijven lopen in een snel evoluerend landschap. Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment is de nieuwe mantra voor AI-succes, wat bedrijven aanmoedigt om strategische investeringen te doen die innovatie stimuleren en de weg vrijmaken voor grootschalige AI-toepassingen. De focus op Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment resulteert in dynamische en wendbare AI-teams die sneller waarde kunnen creëren. Deze aanpak bewijst dat Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment niet alleen een slogan is, maar een bewezen strategie. Bovendien stelt Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment bedrijven in staat om snel te reageren op nieuwe marktkansen. De mindset van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment is cruciaal voor concurrentievoordeel. Het implementeren van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment vereist een cultuur van experimentatie en acceptatie van risico's. De impact van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment op bedrijfsresultaten is significant. Door Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment te omarmen, kunnen bedrijven hun AI-strategieën versnellen. De sleutel tot succes ligt in Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment en het continu aanpassen van de aanpak. Dit betekent dat Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment een continue cyclus van innovatie en verbetering is.