Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment: Hoe koplopers AI schalen zonder prijs als struikelblok
In de dynamische wereld van kunstmatige intelligentie (AI) zien we een fundamentele verschuiving in prioriteiten. Hoewel stijgende computerkosten in veel sectoren vaak worden genoemd als een belemmering voor AI-adoptie, ontdekken toonaangevende bedrijven dat de kosten niet langer de werkelijke beperking vormen. Voor hen is het principe " Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment " de nieuwe mantra. De complexere uitdagingen – en de zaken die veel techleiders bezighouden – zijn latentie, flexibiliteit en capaciteit. Deze verschuiving benadrukt dat succesvolle AI-strategieën draaien om snelheid van implementatie en duurzaamheid, niet om de initiële financiële outlay.
Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment is meer dan een slogan; het is een operationele filosofie die leidende bedrijven in staat stelt te innoveren op een ongekende schaal. Neem Wonder, waar AI slechts een paar cent per bestelling toevoegt; dit voedselbezorgingsbedrijf maakt zich veel meer zorgen over cloudcapaciteit bij een snel stijgende vraag. Recursion daarentegen richt zich op het balanceren van kleinschalige en grootschalige training en implementatie via on-premises clusters en de cloud. Dit heeft het biotechbedrijf de flexibiliteit gegeven voor snelle experimenten. De praktijkervaringen van deze bedrijven onderstrepen een bredere trend in de branche: voor ondernemingen die AI op schaal gebruiken, zijn economische overwegingen niet de doorslaggevende factor. Het gesprek is verschoven van "hoe betalen we voor AI" naar "hoe snel kan het worden ingezet en duurzaam worden onderhouden". Deze bedrijven belichamen de essentie van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment.
AI-leiders van beide bedrijven bespraken recentelijk hun inzichten met Matt Marshall, CEO en hoofdredacteur van Venturebeat, tijdens de ‘AI Impact Series’. Hier is wat zij deelden over de praktijk van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment.
Wonder: Herdefinieer je aannames over capaciteit – Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment
Wonder zet AI in voor alles, van aanbevelingen tot logistiek. Toch, zo meldde CTO James Chen, voegt AI momenteel slechts enkele centen per bestelling toe. Chen legde uit dat de technologiecomponent van een maaltijdorder 14 cent kost, en de AI voegt 2 tot 3 cent toe, hoewel dit "zeer snel" stijgt naar 5 tot 8 cent. Toch lijkt dat bijna immaterieel vergeleken met de totale bedrijfskosten. In plaats daarvan is de belangrijkste zorg van dit 100% cloud-native AI-bedrijf de capaciteit bij een groeiende vraag. Wonder werd gebouwd met de "aanname" (die onjuist bleek te zijn) dat er "onbeperkte capaciteit" zou zijn, zodat ze "super snel" konden bewegen en zich geen zorgen hoefden te maken over het beheer van de infrastructuur, merkte Chen op. De realiteit dwong hen tot een snellere aanpak, een duidelijke indicatie van de noodzaak om te Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment.
Het bedrijf is de afgelopen jaren echter aanzienlijk gegroeid, zei hij; als gevolg daarvan begonnen ze ongeveer zes maanden geleden "kleine signalen te ontvangen van de cloudproviders, 'Hé, je moet misschien overwegen om naar regio twee te gaan'", omdat ze zonder capaciteit kwamen te zitten voor CPU of dataopslag in hun faciliteiten naarmate de vraag toenam. Het was "zeer schokkend" dat ze eerder dan verwacht moesten overgaan op plan B. "Het is natuurlijk goede praktijk om multi-regionaal te zijn, maar we dachten dat dit misschien pas over twee jaar aan de orde zou zijn," zei Chen. Deze ervaring bevestigt dat Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment cruciaal is, zelfs als dit betekent dat initiële aannames over infrastructuur moeten worden bijgesteld. Het vermogen om snel te reageren op onverwachte schaalbaarheidsproblemen is een kernaspect van succesvolle AI-operaties, waarbij agile AI-ontwikkeling vooropstaat.
Wat (nog) niet economisch haalbaar is voor Wonder
Wonder heeft zijn eigen model gebouwd om de conversieratio te maximaliseren, merkte Chen op; het doel is om nieuwe restaurants zoveel mogelijk onder de aandacht te brengen van relevante klanten. Dit zijn "geïsoleerde scenario's" waarin modellen na verloop van tijd worden getraind om "zeer, zeer efficiënt en zeer snel" te zijn. Momenteel zijn grote modellen de beste optie voor Wonder's use case, aldus Chen. Maar op de lange termijn willen ze overstappen op kleine modellen die hyperspecifiek zijn voor individuen (via AI-agenten of conciërges) op basis van hun aankoopgeschiedenis en zelfs hun klikgedrag. "Het hebben van deze micromodellen is zeker het beste, maar op dit moment zijn de kosten erg hoog," merkte Chen op. "Als je er één voor elke persoon probeert te maken, is het gewoon niet economisch haalbaar." Desondanks blijft de ambitie om deze geavanceerde, gepersonaliseerde AI te realiseren, wat aantoont dat de focus op snelheid en flexibiliteit en toekomstige mogelijkheden prioriteit heeft boven huidige kostenbeperkingen. Dit is een klassiek voorbeeld van de " Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment " mentaliteit in actie, waarbij innovatie de drijvende kracht is.
Budgetteren: Kunst, geen wetenschap voor AI-implementatie
Wonder geeft zijn ontwikkelaars en datawetenschappers zoveel mogelijk ruimte om te experimenteren, en interne teams controleren de gebruikskosten om er zeker van te zijn dat niemand een model heeft aangezet en "enorme compute heeft opgedreven tot een gigantische rekening," zei Chen. Het bedrijf probeert verschillende dingen uit om over te dragen aan AI en binnen de marges te opereren. "Maar dan is het erg moeilijk om te budgetteren, omdat je geen idee hebt," zei hij. Een van de uitdagende dingen is het tempo van de ontwikkeling; wanneer een nieuw model uitkomt, "kunnen we niet zomaar stilzitten, toch? We moeten het gebruiken." Dit benadrukt de noodzaak van snelle implementatie boven kosten in de AI-wereld.
Budgetteren voor de onbekende economie van een token-gebaseerd systeem is "absoluut kunst versus wetenschap." Een cruciaal onderdeel in de softwareontwikkelingslevenscyclus is het behouden van context bij het gebruik van grote native modellen, legde hij uit. Wanneer je iets vindt dat werkt, kun je het toevoegen aan de "corpus van context" van je bedrijf, die met elk verzoek kan worden meegestuurd. Dat is groot en kost elke keer geld. "Meer dan 50%, tot wel 80% van je kosten is alleen al het opnieuw verzenden van dezelfde informatie naar dezelfde engine bij elk verzoek," zei Chen. In theorie zou hoe meer ze doen minder kosten per eenheid moeten vereisen. "Ik weet wanneer een transactie plaatsvindt, ik betaal de X cent belasting voor elk, maar ik wil niet beperkt zijn om de technologie te gebruiken voor al deze andere creatieve ideeën." Dit weerspiegelt de essentie van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment: de focus ligt op het benutten van de technologie voor innovatie, niet op het strikt minimaliseren van elke individuele transactiekost. Het gaat om schaalbaarheid en adoptie, zelfs als dat betekent dat de kosten later worden geoptimaliseerd.
Het 'moment van gerechtvaardigdheid' voor Recursion: Hybride Infrastructuur voor Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment
Recursion heeft zich gericht op het voldoen aan een breed scala aan computerbehoeften via een hybride infrastructuur van on-premise clusters en cloud inference. Toen het bedrijf aanvankelijk zijn AI-infrastructuur wilde opbouwen, moest het voor een eigen setup kiezen, omdat "de cloudproviders niet veel goede aanbiedingen hadden," legde CTO Ben Mabey uit. "Het moment van gerechtvaardigdheid was dat we meer compute nodig hadden en we keken naar de cloudproviders en die zeiden: 'Misschien over een jaar of zo.'" Deze ervaring bevestigde hun strategie van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment, door zelf te bouwen toen de markt niet kon leveren.
De eerste cluster van het bedrijf in 2017 bevatte Nvidia gaming-GPU's (1080s, gelanceerd in 2016); sindsdien hebben ze Nvidia H100s en A100s toegevoegd, en gebruiken ze een Kubernetes-cluster dat ze in de cloud of on-premise draaien. Wat de levensduur betreft, merkte Mabey op: "Deze gaming-GPU's worden vandaag de dag nog steeds gebruikt, wat gek is, toch? De mythe dat de levensduur van een GPU slechts drie jaar is, dat is zeker niet het geval. A100s staan nog steeds bovenaan de lijst, ze zijn het werkpaard van de industrie." Dit is een krachtig bewijs van het investeren in robuuste, duurzame oplossingen die snelle implementatie en duurzaamheid garanderen, een hoeksteen van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment. Ze waren bereid te investeren om nu te kunnen deployen en later optimaliseren.
Optimale inzet on-prem vs. cloud en kostenverschillen
Meer recentelijk heeft Mabey's team een fundamenteel model getraind op Recursion's beeldrepository (die bestaat uit petabytes aan gegevens en meer dan 200 miljoen afbeeldingen). Dit en andere soorten grote trainingstaken hebben een "massieve cluster" en verbonden, multi-node setups vereist. "Wanneer we dat volledig verbonden netwerk en toegang tot veel van onze gegevens in een hoog parallel bestandssysteem nodig hebben, gaan we on-prem," legde hij uit. Aan de andere kant draaien kortere workloads in de cloud. De methode van Recursion is om GPU's en Google Tensor Processing Units (TPU's) te "pre-empten", wat het proces is van het onderbreken van lopende GPU-taken om aan taken met hogere prioriteit te werken. "Omdat we niet geven om de snelheid in sommige van deze inference workloads waarbij we biologische gegevens uploaden, of dat nu een afbeelding of sequentiebewerking, DNA-gegevens is," legde Mabey uit. "We kunnen zeggen: 'Geef dit ons binnen een uur,' en we vinden het prima als de taak wordt afgebroken." Dit demonstreert een flexibele benadering van AI-inzet, waarbij de juiste infrastructuur voor de juiste taak wordt gekozen, altijd met het oog op Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment.
Vanuit kostenperspectief is het verplaatsen van grote workloads on-premise "conservatief" 10 keer goedkoper, merkte Mabey op; voor een vijfjarige TCO is het de helft van de kosten. Aan de andere kant, voor kleinere opslagbehoeften, kan de cloud "behoorlijk concurrerend" zijn qua kosten. Uiteindelijk drong Mabey er bij techleiders op aan om een stap terug te doen en te bepalen of ze echt bereid zijn zich te committeren aan AI; kosteneffectieve oplossingen vereisen doorgaans meerjarige buy-ins. "Vanuit psychologisch perspectief heb ik collega's gezien die niet investeren in compute, en als gevolg daarvan betalen ze altijd op aanvraag," zei Mabey. "Hun teams gebruiken veel minder compute omdat ze de cloudrekening niet willen opdrijven. Innovatie wordt echt belemmerd doordat mensen geen geld willen verbranden." Dit is een krachtig argument voor de filosofie van Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment: een strategische investering in infrastructuur maakt onbeperkte innovatie mogelijk, terwijl overmatige focus op directe kostenbesparing op de lange termijn juist duurder uitvalt en groei belemmert. Het draait om prioriteit geven aan schaalbaarheid en het optimaliseren van kosten na initiële uitrol.
Veelgestelde Vragen over "Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment"
1. Waarom is kostenbesparing niet langer de primaire focus voor koplopers in AI?
Koplopers in AI realiseren zich dat de werkelijke knelpunten bij AI-adoptie liggen in latentie, flexibiliteit en capaciteit, niet zozeer in de directe kosten van compute. Ze hanteren het principe van " Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment " omdat het vermogen om AI snel te implementeren, te schalen en aan te passen, cruciaal is voor concurrentievoordeel en innovatie. Een te grote focus op kosten in de beginfase kan de ontwikkeling en experimentatie juist vertragen, wat uiteindelijk duurder uitvalt in termen van gemiste kansen en langzamere vooruitgang.
2. Hoe passen bedrijven zoals Wonder en Recursion het principe van "Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment" toe in de praktijk?
Wonder, een voedselbezorgbedrijf, ontdekte dat ondanks de minimale extra kosten van AI per bestelling, de capaciteit van cloudproviders een grotere zorg was. Ze moesten onverwacht snel overschakelen naar een multi-regionale strategie om de groeiende vraag bij te benen. Dit toont aan dat Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment betekent dat je snel moet reageren op operationele uitdagingen om de groei niet te belemmeren. Recursion investeerde vroegtijdig in een hybride on-premise en cloudinfrastructuur toen cloudproviders nog geen adequate oplossingen boden. Deze proactieve aanpak, gedreven door de noodzaak om te experimenteren en te schalen, is een schoolvoorbeeld van " Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment ", waarbij ze nu profiteren van lagere kosten en grotere flexibiliteit voor hun zware trainingstaken.
3. Welke uitdagingen ervaren bedrijven bij het budgetteren en schalen van AI, en hoe worden deze overwonnen in de geest van "Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment"?
Het budgetteren voor AI wordt omschreven als een "kunst, geen wetenschap", vooral door de snelle ontwikkeling van nieuwe modellen en de variabele kosten van token-gebaseerde systemen. Bedrijven zoals Wonder worstelen met de onzekerheid van toekomstige kosten bij het adopteren van de nieuwste technologieën. De oplossing ligt in het geven van ruimte voor experimentatie en het strategisch investeren in robuuste infrastructuur, zelfs als dit een initiële grotere investering vereist. Zoals Recursion's CTO aangeeft, belemmert een terughoudendheid om te investeren in compute de innovatie aanzienlijk. Door te focussen op Ship fast, optimize later: top AI engineers don't care about cost — they're prioritizing deployment, kunnen bedrijven op lange termijn kosteneffectiever en innovatiever zijn door eerst te implementeren en vervolgens de kosten en efficiëntie te optimaliseren.
Bent u geïnspireerd door de grensverleggende strategieën van AI-koplopers die innovatie omarmen en efficiëntie vooropstellen? Net zoals zij de nieuwste technologieën benutten om hun potentieel te maximaliseren, nodigen wij u uit om de toekomst van entertainment te ervaren. Ontdek de ongekende flexibiliteit, het enorme aanbod en de superieure kwaliteit van onze IPTV-abonnementen. Stap over op een kijkervaring zonder grenzen en geniet van content wanneer en hoe u maar wilt. IPTV kopen betekent kiezen voor vrijheid en topkwaliteit, net zoals top AI-bedrijven kiezen voor snelle adoptie en flexibiliteit.