Az egyik legfontosabb előfeldolgozási lépés a nagy nyelvi modellek (LLM-ek) esetében a tokenizáció – azaz a bemeneti szöveg tokenekre bontása, majd az output tokenek visszaalakítása szöveggé. A leggyakoribb megközelítés az, hogy a tokeneket al-szó egységekként kezeljük, mert a szavak közvetlen használata korlátozná a szókészletet csak az ismert szavakra. Bár a karakter szintű tokenizáció kezelhetné az ismeretlen szavakat, ez jelentősen növelné a bemenet hosszát, ami a jelenlegi LLM-ek esetében magasabb számítási és memóriaigényeket eredményezne (ezek négyzetesen skálázódnak).
A modellben ezeket a tokeneket magas dimenziós beágyazásokra (embeddings) térképezzük fel, amelyek megragadják a tokenek reprezentációit. A beágyazások kulcsfontosságú szerepet játszanak, amit az is bizonyít, hogy a modell gyorsabban tanul, ha a korábban betanított beágyazásokat megőrizzük, miközben a többi paramétert újra inicializáljuk.
Azonban az LLM-ek néha látszólag egyszerű feladatokkal is küzdenek, amelyek az emberek számára triviálisak, mivel token szintű függőségekre támaszkodnak. Ilyen például egy szó betűinek megszámolása: ezek információk elvesznek a tokenizáció során.
A probléma gyökere, hogy a tokeneket független egységekként kezeljük, figyelmen kívül hagyva azok összetétel jellegét.
Egy intelligensebb tokenizációs megközelítés közvetlenül be tudná kódolni az összetett információkat a beágyazásokba.
A probléma gyökere abban rejlik, hogy a tokeneket független egységekként kezeljük, figyelmen kívül hagyva azok összetétel jellegét. Például az angol többes számú főneveknél a szinguláris és a többes számú alak gyakran külön tokenként jelenik meg, arra kényszerítve a modellt, hogy rengeteg példából, különböző kontextusokban tanulja meg a kapcsolatukat.
Egy intelligensebb tokenizációs megközelítés közvetlenül be tudná kódolni az összetett információkat a beágyazásokba. Például jelezhetné, hogy egy szó egy másik szó többes száma egy toldalék hozzáadásával. Ez csökkentené a szükséges tokenek számát, a megtanulandó token kombinációkat és a szükséges tanulási adatok mennyiségét.
A kihívás egy ilyen tokenizáló kifejlesztésében rejlik, amely adatalapú, végponttól végpontig tartó módon rögzíti az összetételiséget a beágyazásokban, kézzel készített szabályok helyett.
Ennek a tokenizációs problémának a megoldása jelentősen javíthatná az LLM-ek teljesítményét, adatfelhasználási hatékonyságát, és megértenénk, hogyan tudjuk ezeket a modelleket valódi nyelvi összetételiséggel felruházni.