Qualcomm kutter resonneringskost i mobil-KI med 2,4x i ny edge-metode

Qualcomm AI Research presenterer en ny metode for å gjøre resonnerende språkmodeller langt mer praktiske på mobil og andre edge-enheter.

Qualcomm AI Research presenterer en ny metode for å gjøre resonnerende språkmodeller langt mer praktiske på mobil og andre edge-enheter. I stedet for å trene en helt ny modell bruker de en modulær løsning der en basismodell utvides med LoRA-adaptere som kan slå resonnering av og på etter behov.

Kjernen i arbeidet er å redusere token-forbruket i resonneringsspor uten å tape for mye treffsikkerhet. Ifølge forskerne kuttes svarlengden i snitt med 2,4x, og i enkelte oppgaver betydelig mer, ved hjelp av reinforcement learning som straffer unødvendig lange svar.

Dette er relevant fordi lange «tenkekjeder» er en av…

Dette er relevant fordi lange «tenkekjeder» er en av hovedgrunnene til at avanserte modeller fortsatt er tunge å kjøre lokalt: de spiser minne, øker ventetid og trekker batteri. Qualcomm kombinerer derfor lengdeoptimalisering med kvantisering og parallelle løsningsløp, slik at mer av resonneringen kan flyttes fra sky til enhet.

Hvis tilnærmingen holder i bredere bruk, kan dette bli et viktig steg mot personlige assistenter som faktisk kjører mer lokalt, med lavere latenstid og bedre personvern for data som e-post, bilder og kalender.

For markedet peker dette mot økt konkurranse i «on-device AI» mellom mobilbrikker, modellleverandører og plattformaktører som vil eie den lokale assistentopplevelsen.

Kilder