Nvidia menja AI igru: zašto je “inference” postao sledeći veliki rat

Već dve godine AI tržište se uglavnom posmatra kroz jednu priču: ko ima jače čipove za treniranje modela, veće data centre i moćnije foundation modele. Ali kako se AI sve više seli iz laboratorija u stvarne proizvode, fokus industrije počinje da se pomera. Više nije dovoljno samo istrenirati veliki model — sada postaje presudno koliko brzo, jeftino i pouzdano taj model može da odgovara milionima korisnika u realnom vremenu.

Upravo tu ulazi pojam inference. To je faza u kojoj već istrenirani model izvršava zadatak: odgovara na pitanje, generiše tekst, sažima dokument, prevodi, analizira sliku ili pokreće AI agenta. Ako je treniranje bilo prva velika AI trka, inference sada izgleda kao sledeći veliki front.

Na GTC 2026 konferenciji Jensen Huang je jasno pokazao da Nvidia želi da dominira i u toj novoj fazi. Kompanija sve otvorenije gura priču da će sledeći veliki rast AI infrastrukture doći upravo iz inference opterećenja, a ne samo iz samog treniranja modela.

Vizuelni prikaz AI inference infrastrukture i Nvidia čipova — Vizuelna ilustracija: InfoHelm

Šta je zapravo inference i zašto je sada toliko važan

U najprostijem smislu, treniranje modela je faza u kojoj AI uči, a inference je faza u kojoj AI radi. Dok je training ekstremno skup i tehnički zahtevan, inference je ono što krajnji korisnik zapravo vidi i oseća. Svaki put kada chatbot odgovori, kada AI alat generiše sliku ili kada sistem izvrši neki automatizovani zadatak, dešava se inference.

Kako raste broj AI proizvoda u svakodnevnoj upotrebi, raste i značaj ovog dela lanca. Jedno je istrenirati model jednom, a drugo je održavati infrastrukturu koja može neprekidno da opslužuje ogroman broj zahteva. Upravo zbog toga inference postaje ekonomski centralan: tu se odlučuje koliko će AI servis koštati, koliko će biti brz i koliko će biti profitabilan.

Zašto Nvidia menja ton

Nvidia je do sada najviše profitirala od eksplozije potražnje za hardverom za treniranje velikih modela. Ali tržište se menja. Velike kompanije sada ne pitaju samo kako da naprave jači model, već kako da AI isporuče krajnjim korisnicima po održivoj ceni. To automatski povećava značaj inference efikasnosti.

Zato Nvidia sve više pokušava da se pozicionira ne samo kao proizvođač najjačih GPU-ova, već kao dobavljač kompletnog AI sistema: čipova, mreže, memorije, softvera i data center arhitekture. Drugim rečima, tržište se pomera od sirove snage ka efikasnosti isporuke.

Novi rat nije samo protiv AMD-a

Inference trka nije važna samo zato što AI ulazi u svakodnevne proizvode, već i zato što je konkurencija tu mnogo šira. Nvidia se u ovom segmentu ne takmiči samo sa klasičnim rivalima poput AMD-a, već i sa CPU rešenjima, internim čipovima velikih cloud kompanija i specijalizovanim akceleratorima.

To je suštinska promena. U training segmentu prednost ide onome ko može da isporuči ogromnu količinu paralelne računske snage. U inference segmentu, međutim, mnogo više dolaze do izražaja cena po odgovoru, latencija, energetska efikasnost i sposobnost skaliranja za milione aktivnih korisnika.

Zbog toga se ovaj novi rat ne vodi samo na nivou boljeg čipa, već i na nivou cele arhitekture: mreže, memorije, server dizajna, softverskog stacka i integracije sa cloud partnerima.

Zašto je to važno za celo AI tržište

Ako je prethodna AI faza bila obeležena treniranjem sve većih modela, naredna bi mogla biti definisana pitanjem ko može da ih najefikasnije servira korisnicima. To ima velike posledice ne samo za Nvidiu, već i za celu industriju.

Za cloud provajdere to znači veći fokus na trošak po inference zahtevu. Za startape to znači da više nije dovoljno imati pametan model ako je njegov rad preskup. Za enterprise sektor to znači da se AI investicije sve više mere kroz operativnu isplativost, a ne samo kroz demo efekat. I za korisnike to znači da će budući pobednici biti oni servisi koji su istovremeno brzi, jeftini i pouzdani.

Zaključak

Nvidia ne menja samo marketing poruku, već pokušava da preusmeri način na koji tržište razmišlja o AI infrastrukturi. Posle ere opsednutosti treniranjem, dolazi faza u kojoj je mnogo važnije koliko dobro AI radi u stvarnom svetu — brzo, jeftino i u ogromnoj skali.

Zato je inference postao sledeći veliki rat. Ne zato što training više nije važan, već zato što prava komercijalna vrednost AI-ja sve više zavisi od onoga što se dešava posle treniranja. A Nvidia očigledno želi da i tu ostane prvi izbor.