Ahogy a mesterséges intelligencia rohamosan fejlődik, egyre bonyolultabb modellek jönnek létre. Azonban ezzel az újfajta komplexitással együtt szükségessé válik az átláthatóság is – nemcsak azért, hogy megértsük ezeket az összetett rendszereket és eloszlassuk a félelmeket, hanem azért is, hogy biztosítsuk a megbízhatóbb és felelősségteljesebb modellfejlesztést.
A szakmában bevett szokás az egyszerűsített modellek tanulmányozása, amelyek könnyebben átláthatóak, abban bízva, hogy az így szerzett ismeretek az összetettebb változatok esetében is alkalmazhatók lesznek. Ezt az utat járja az Anthropic AI értelmezhetőséggel foglalkozó csapata is.
Ha igazán meg akarjuk érteni a modern nagy nyelvi modellek bonyolultságát, gyakran érdemes egy teljesen egyszerűsített modellel kezdeni. Egy ilyen megközelítés például az összes köztes réteg eltávolítását jelenti egy GPT-3-szerű, csak dekódert tartalmazó modellből, így csak a beágyazási, kódolási és dekódolási mátrixok maradnak meg. Amikor ezt a modellt a következő token előrejelzésére tanítják, ez a két mátrix a bigram statisztikák alacsony rangú közelítésévé válik, ahol a „rangot” a beágyazási dimenzió határozza meg.
Lényegében egy bigram modell megmutatja, melyik szó követi legnagyobb valószínűséggel a másikat. Azonban ha ezt a modellt egy 50 000 szóból álló szókészletre alkalmaznánk (ami egy gyakori méret a nagy nyelvi modellek esetében, melyek szókincse 30 000-től 200 000-ig terjed), az eredményül kapott mátrix elképesztően sok – 2,5 milliárd – paramétert tartalmazna. Ráadásul a tanulási készletben sok elem ritkán fordulna elő, ami megbízhatatlanná tenné a statisztikákat ezekben az esetekben. Az beágyazási méret 1000-re csökkentésével a paraméterek száma egy kezelhetőbb 100 millióra csökkenne.
Természetesen, amikor ezt az egyszerűsített modellt visszavezetjük a valós világba (a köztes rétegek jelenlétével), az elegáns megközelítés kezd szétesni – bár a hatékonysági előnyök megmaradnak. A dekóder réteg már nem a bigram statisztikák rekonstrukciójáért felel, hanem egy továbbfejlesztett változatukért. Következésképpen az optimális beágyazás már nem az alacsony rangú reprezentáció, hanem egy olyan reprezentáció, amely elegendő információt biztosít a köztes rétegek számára.
Bár ez csak egy felületes betekintés az Anthropic kutatásaiba, jól mutatja, milyen fontos a modellek átláthatósága. Ezeknek a rendszereknek a belső működésének megértésével kiaknázhatjuk az erejüket, miközben mérsékeljük a nem kívánt mellékhatásokat, így biztosítva, hogy a mesterséges intelligencia biztonságosan és az emberiség javára szolgáljon.