Miért lehet akár iszlámellenes is a mesterséges intelligencia?

Egyes mesterséges intelligenciák olyan szövegeket hoznak össze, mintha ember írta volna. Közben persze bicegnek-bocognak is, amiről hajlamosak vagyunk elegánsan megfeledkezni. A nyelvtechnológiák az MI és az infokom egyik legpörgősebb területe.

Kömlődi Ferenc cikke eredetileg társlapunkon, az Azonnali.hun jelent meg.

Az egyre masszívabb kapacitással rendelkező számítógépek, a folyamatosan javuló minőségű algoritmusok és a szédületes tempóban növekvő digitálisadat-mennyiség, együtt komoly változásokat hoztak a mesterségesintelligencia-fejlesztésben.

Ezek a folyamatok vezettek a jelenleg az MI-vel lényegében azonosított gépi tanulás 2000-es évek végi, 2010-es évek eleji, azóta is permanens forradalmához,

a gépek többrétegű tanulását biztosító mélytanuláshoz (deep learning). A forradalom hatására a komputereknek kiadott feladatok a korábbiaknál sokkal hatékonyabb, gyorsabb megoldását elősegítő új módszerek jelentek meg. Ezek egyik csoportja a mostanában nagyon pörgő nyelvtechnológiák.

Az adat mindenhatósága

Szoftvermodelleket a nagy vonalakban az emberi agy neurális architektúráján alapuló szerkezetekkel, többezer vagy többmillió példával gyakoroltatnak – tanítanak – be. Az egyik ilyen architektúra a természetesnyelv-feldolgozásban alkalmazott, 2017-ben bemutatott Transformer.

Ezek a rendszerek szöveges bementeket (inputokat) dolgoznak fel, „bányásznak” bennük, szerveznek át, kapcsolnak össze, állítanak ellentétbe, készítenek összegzést róluk, és persze pontosan megválaszolnak kérdéseket is. Általában döbbenten szemléljük, mire képesek. Az MI-kutatások élharcosai közé tartozó, 2015-ben, részben Elon Musk által alapított (ő később kiszállt belőle), San Franciscói OpenAI tudósai 2018 júniusában fogalmazták meg a generatív előtanulás elméletét irdatlan méretű és változatos szöveges korpuszok adatsorokon keresztüli, gépek által történő tanulásáról.

A modellt (GPT) addig fejlesztették, finomhangolták, amíg képes nem lett emberi felügyelet nélkül tanulni,

és megoldották az adatok rendkívül időigényes manuális felcímkézésének a problémáját is – automatizálták a munkát. Leghíresebb fejlesztésük a 2020. május 28-án bevezetett GPT-3, valamint a szöveges leírások alapján képeket generáló, DAL-E, és ellentétje/kiegészítője, a képekhez szövegeket készítő CLIP (mindkettő 2021-es, az idén április DAL-E 2 az eredetinél realistább képeket alkot).

A GPT-3 a kreatív kísérletezés fellendüléséhez vezetett. Fizetős hozzáféréssel rendelkező kutatók ugyanis homokozóként használták algoritmusaik teljesítményének teszteléséhez. A tanulást megalapozó adatokról viszont nem rendelkeztek kulcsfontosságú információkkal.

Az OpenAI nagy vonalakban ugyan ismertette a forrásokat, és a visszaélések ellen is dolgozott ki irányelveket, de egy csomó megkerülhetetlen részletet kihagytak, például máig semmit nem írtak az adatszűrés mikéntjéről, tehát külsős fejlesztők igazából nem tudják megvizsgálni a gyakorlóadatokat. Márpedig a jelenlegi, „újhullámos” MI-kutatásban az adatsorok már fontosabbak a modelleknél…

Nyílttá tételükkel többet megtudnánk például arról, hogy miért elfogultak.

Mondjuk, egy arabul is trenírozott rendszer valószínűleg nem lenne iszlám- és muszlimellenes, ezzel szemben egy-egy, kizárólag angolul, és csak az Egyesült Államokban begyakoroltatott modell könnyebben az.

Mindig mossunk kezet, mielőtt kézen járnánk az emeleten!

2018-ban, az év másik szakterületi nagy durranásaként, jelent meg a Google BART rendszere is, egy másik transformer – a technika lényege, hogy az MI, a mondatban lévő szavak összehasonlításával következtet a jelentésre és a szövegkörnyezetre (kontextusra). A szintén Google-fejlesztésű, a remekül és értelmesen társalgó, kísérleti LamDA kapcsán, a vállalat etikai bizottságának egyik kutatója májusban azt állította, hogy

ha az MI most nem is, de nagyon hamar öntudattal rendelkezhet.

A hírt azonnal felkapta a világsajtó, a bulvármédia bombasztikusan cikkezett róla, leírták az ilyenkor szokásos szövegeket, a felelőtlenül túlzó szakembert pedig szabadságra küldte a cég, igyekezett eldugni a nyilvánosság elől. A trend egyértelmű: a földkerekség nagy műhelyeiben egyre masszívabb és okosabb modelleket fejlesztenek.

A Microsoft 2020. szeptember 22-én kizárólagos használati jogot szerzett a GPT-3-hoz, ami azt jelenti, hogy a nyilvános API-t (alkalmazásprogramozási felületet) változatlanul bárki használhatja, a rendszert megalapozó modellhez viszont csak a redmondi óriáscég fér hozzá. Teljes változata 175 milliárd gépitanulás-paraméterrel dolgozik, a bétatesztet 2020 júliusában végezték rajta.

Az általa létrehozott szövegek annyira jók, hogy nagyon nehéz megállapítani: ember vagy gép írta azokat.

David Chalmers ausztrál elmefilozófus a valaha volt egyik legérdekesebb és legfontosabb MI-rendszernek tartja a GPT-3-at. Egy 2022. áprilisi New York Times cikk szerint a rendszer olyan folyékonyan ír eredeti szövegeket, mint az ember. Jelenleg mindenképpen ez az egyik legfejlettebb, olvasható szövegek mellett képek és videók generálására is alkalmas nagy nyelvi modell.

Bármit meg tud írni, amire kérjük – kísérőlevelet füvészkerti munkához, Shakespeare-stílusú szonettet az esedékes villanyszámláról, és persze rövid beszámolót is a legutóbbi Barça-meccsről. De amikor egy tanár egyszerű, viszont teljesen értelmetlen kérdést tett fel neki az emeleti sétáról, azt válaszolta, hogy a kézenjárás teljesen biztonságos, előtte viszont mosson kezet.

Adott témakörökről nagyon jól összegzi az online hozzáférhető anyagokat, érvelésben és következtetésben viszont gyengécske, több mondaton keresztül nehezen tud egy témára összpontosítani, és hajlamos túlzottan támadó szellemben fellépni. Ezek a gyengéi. Orvosi tanácsokat még ne osszon ki, és társként se kezeljük.

Felszínes dolgokra viszont tökéletes, például hogy átfussunk egy általa írt szöveget.

Olyan, mintha elalvás közben hallgatnánk egy előadást. Negyvenhat nyelven kommunikál a nyílt modell A GPT-3 és a többi masszív teljesítményű nagy nyelvi modell alkalmazásaival már a hétköznapokban is szembesülünk: chatbotként, beszélgető animált fejekként dolgoznak ügyfélszolgálatokon, automatikusan befejeznek mondatokat az e-mailjeinkben, és persze azt is tartsuk mindig észben, hogy a Google-kereső (és fordító) is mesterséges intelligencia.

Problémás viszont, hogy a fejlesztőcégek titokban tartják a modellek belső működését, így a kívülálló egyáltalán nem is érti a félretájékoztatást, dezinformációt és más károkat okozó hibákat. Nincs rá módja, hogy megértse azokat. Hiába nagyon jók ezek az MI-k szövegek emberi módon történő írásában, és tűnnek koherensnek, valójában nem mindig azok, ráadásul nem túl tényszerűek.

Ezekre a problémákra reagálva, fejlesztette a „jó gépi tanulást demokratizáló és a jövőt építő MI-közösség”, a kétmilliárd dollár értékű, AI 50-es – nevével az ismert emojira utaló – Hugging Face startup a GPT-3 típusú zárt rendszerek antitézisét, a BLOOM modellt, amiben a két O a nyílt tudományt és nyílt hozzáférést rövidíti.

Az általában az angolra és a mandarinra összpontosító többivel szemben, BLOOM 46 nyelven, köztük természetesen spanyolul, franciául és arabul, mellettük 13 indiai és 20 afrikai nyelven is működik. A fejlesztők újabb gépitanulás-forradalmat akarnak elindítani vele.

A Facebook is bekapcsolódott a versenybe

Törekvésükre rímel, hogy az OpenAI és a Google nyomában járó, azokat lekörözni, de legalább utolérni igyekvő Meta (a korábbi Facebook) szintén nyíltabb megközelítésben gondolkozik. Persze az éllovasok titkolózása is érthető – jelenleg az ő rendszereik működnek legjobban, a leginformatívabbak, az alkalmazások óriási pénzeket hoznak házhoz, ezért féltve őrzik őket, és nem működnek együtt másokkal, nem erőltetik a közösségi normák kidolgozását.

Még érthetőbb, hogy a kontroll elvesztésével, az MI-t felelőtlenül is használhatják, és most ne az emberiséget leigázó gépi értelemre, hanem például még több dezinformációra gondoljunk. Mivel egyre nehezebb megállapítani, hogy az adott szöveg géptől vagy embertől származik, szélsőséges politikai elvek terjesztésétől hamis egészségügyi adatok közzétételéig,

rengeteg területen képesek kárt okozni. Mert azt hisszük, ember által írt szövegekről van szó.

A Meta e megfontolások szellemében építette fel nyilvánosan hozzáférhető adatokkal (Reddit fórumok, amerikai szabadalmi hivatal szövegei, az Enron-botránnyal kapcsolatos e-mailek stb.) dolgozó OPT-175B modelljét. Az adatok, a kód és a kutatási naplók nyíltak, tehát külsős szakemberek is segíthetnek a torzítások azonosításában, mérséklésében. A kommunikációban viszont mindenképpen igazi emberek utánzása a cél.

A Metánál természetesen tudják, hogy a modell olyanokat is fog mondani, amire nem lesznek büszkék, de felkészültek a kemény kritikákra. A legtöbb vállalat kidolgozta saját belső MI-biztosítékait, valójában viszont a további kutatásokat és döntéseket elősegítendő, szélesebb körű szabványokra lenne szükség, máskülönben az új modellek csak úgy bele a vakvilágba logika szerint fognak működni.

A növekvő számítási kapacitás igénye sem segíti a nyílt versenyt. Olyan teljesítményről van szó, amit csak óriásvállalatok és kormányok engedhetnek meg maguknak, egy-egy startup kizárólag akkor, ha rendelkezésükre bocsátanak nagyobb nemzeti és más laborokat, szuperszámítógépeket. És akkor a brutális géphasználat környezeti hatásairól nem is beszéltünk még… Izgalmas éveknek nézünk elébe.

Nyitókép: Pexels.com

mesterséges intelligencia MI gépi tanulás

Miért lehet akár iszlámellenes is a mesterséges intelligencia?

Az adat mindenhatósága

Mindig mossunk kezet, mielőtt kézen járnánk az emeleten!

A Facebook is bekapcsolódott a versenybe

Szólj hozzá!