Miért lehet akár iszlámellenes is a mesterséges intelligencia?

ugytudjuk.hu 2022-07-24 08:10:58
Egyes mesterséges intelligenciák olyan szövegeket hoznak össze, mintha ember írta volna. Közben persze bicegnek-bocognak is, amiről hajlamosak vagyunk elegánsan megfeledkezni. A nyelvtechnológiák az MI és az infokom egyik legpörgősebb területe.

Kömlődi Ferenc cikke eredetileg társlapunkon, az Azonnali.hun jelent meg.

Az egyre masszívabb kapacitással rendelkező számítógépek, a folyamatosan javuló minőségű algoritmusok és a szédületes tempóban növekvő digitálisadat-mennyiség, együtt komoly változásokat hoztak a mesterségesintelligencia-fejlesztésben.

Ezek a folyamatok vezettek a jelenleg az MI-vel lényegében azonosított gépi tanulás 2000-es évek végi, 2010-es évek eleji, azóta is permanens forradalmához,

a gépek többrétegű tanulását biztosító mélytanuláshoz (deep learning). A forradalom hatására a komputereknek kiadott feladatok a korábbiaknál sokkal hatékonyabb, gyorsabb megoldását elősegítő új módszerek jelentek meg. Ezek egyik csoportja a mostanában nagyon pörgő nyelvtechnológiák.

Az adat mindenhatósága

Szoftvermodelleket a nagy vonalakban az emberi agy neurális architektúráján alapuló szerkezetekkel, többezer vagy többmillió példával gyakoroltatnak – tanítanak – be. Az egyik ilyen architektúra a természetesnyelv-feldolgozásban alkalmazott, 2017-ben bemutatott Transformer.

Ezek a rendszerek szöveges bementeket (inputokat) dolgoznak fel, „bányásznak” bennük, szerveznek át, kapcsolnak össze, állítanak ellentétbe, készítenek összegzést róluk, és persze pontosan megválaszolnak kérdéseket is. Általában döbbenten szemléljük, mire képesek. Az MI-kutatások élharcosai közé tartozó, 2015-ben, részben Elon Musk által alapított (ő később kiszállt belőle), San Franciscói OpenAI tudósai 2018 júniusában fogalmazták meg a generatív előtanulás elméletét irdatlan méretű és változatos szöveges korpuszok adatsorokon keresztüli, gépek által történő tanulásáról.

A modellt (GPT) addig fejlesztették, finomhangolták, amíg képes nem lett emberi felügyelet nélkül tanulni,

és megoldották az adatok rendkívül időigényes manuális felcímkézésének a problémáját is – automatizálták a munkát. Leghíresebb fejlesztésük a 2020. május 28-án bevezetett GPT-3, valamint a szöveges leírások alapján képeket generáló, DAL-E, és ellentétje/kiegészítője, a képekhez szövegeket készítő CLIP (mindkettő 2021-es, az idén április DAL-E 2 az eredetinél realistább képeket alkot).

A GPT-3 a kreatív kísérletezés fellendüléséhez vezetett. Fizetős hozzáféréssel rendelkező kutatók ugyanis homokozóként használták algoritmusaik teljesítményének teszteléséhez. A tanulást megalapozó adatokról viszont nem rendelkeztek kulcsfontosságú információkkal.

Az OpenAI nagy vonalakban ugyan ismertette a forrásokat, és a visszaélések ellen is dolgozott ki irányelveket, de egy csomó megkerülhetetlen részletet kihagytak, például máig semmit nem írtak az adatszűrés mikéntjéről, tehát külsős fejlesztők igazából nem tudják megvizsgálni a gyakorlóadatokat. Márpedig a jelenlegi, „újhullámos” MI-kutatásban az adatsorok már fontosabbak a modelleknél…

Nyílttá tételükkel többet megtudnánk például arról, hogy miért elfogultak.

Mondjuk, egy arabul is trenírozott rendszer valószínűleg nem lenne iszlám- és muszlimellenes, ezzel szemben egy-egy, kizárólag angolul, és csak az Egyesült Államokban begyakoroltatott modell könnyebben az.

Mindig mossunk kezet, mielőtt kézen járnánk az emeleten!

2018-ban, az év másik szakterületi nagy durranásaként, jelent meg a Google BART rendszere is, egy másik transformer – a technika lényege, hogy az MI, a mondatban lévő szavak összehasonlításával következtet a jelentésre és a szövegkörnyezetre (kontextusra). A szintén Google-fejlesztésű, a remekül és értelmesen társalgó, kísérleti LamDA kapcsán, a vállalat etikai bizottságának egyik kutatója májusban azt állította, hogy

ha az MI most nem is, de nagyon hamar öntudattal rendelkezhet.

A hírt azonnal felkapta a világsajtó, a bulvármédia bombasztikusan cikkezett róla, leírták az ilyenkor szokásos szövegeket, a felelőtlenül túlzó szakembert pedig szabadságra küldte a cég, igyekezett eldugni a nyilvánosság elől. A trend egyértelmű: a földkerekség nagy műhelyeiben egyre masszívabb és okosabb modelleket fejlesztenek.

A Microsoft 2020. szeptember 22-én kizárólagos használati jogot szerzett a GPT-3-hoz, ami azt jelenti, hogy a nyilvános API-t (alkalmazásprogramozási felületet) változatlanul bárki használhatja, a rendszert megalapozó modellhez viszont csak a redmondi óriáscég fér hozzá. Teljes változata 175 milliárd gépitanulás-paraméterrel dolgozik, a bétatesztet 2020 júliusában végezték rajta.

Az általa létrehozott szövegek annyira jók, hogy nagyon nehéz megállapítani: ember vagy gép írta azokat.

David Chalmers ausztrál elmefilozófus a valaha volt egyik legérdekesebb és legfontosabb MI-rendszernek tartja a GPT-3-at. Egy 2022. áprilisi New York Times cikk szerint a rendszer olyan folyékonyan ír eredeti szövegeket, mint az ember. Jelenleg mindenképpen ez az egyik legfejlettebb, olvasható szövegek mellett képek és videók generálására is alkalmas nagy nyelvi modell.

Bármit meg tud írni, amire kérjük – kísérőlevelet füvészkerti munkához, Shakespeare-stílusú szonettet az esedékes villanyszámláról, és persze rövid beszámolót is a legutóbbi Barça-meccsről. De amikor egy tanár egyszerű, viszont teljesen értelmetlen kérdést tett fel neki az emeleti sétáról, azt válaszolta, hogy a kézenjárás teljesen biztonságos, előtte viszont mosson kezet.

Adott témakörökről nagyon jól összegzi az online hozzáférhető anyagokat, érvelésben és következtetésben viszont gyengécske, több mondaton keresztül nehezen tud egy témára összpontosítani, és hajlamos túlzottan támadó szellemben fellépni. Ezek a gyengéi. Orvosi tanácsokat még ne osszon ki, és társként se kezeljük.

Felszínes dolgokra viszont tökéletes, például hogy átfussunk egy általa írt szöveget.

Olyan, mintha elalvás közben hallgatnánk egy előadást. Negyvenhat nyelven kommunikál a nyílt modell A GPT-3 és a többi masszív teljesítményű nagy nyelvi modell alkalmazásaival már a hétköznapokban is szembesülünk: chatbotként, beszélgető animált fejekként dolgoznak ügyfélszolgálatokon, automatikusan befejeznek mondatokat az e-mailjeinkben, és persze azt is tartsuk mindig észben, hogy a Google-kereső (és fordító) is mesterséges intelligencia.

Problémás viszont, hogy a fejlesztőcégek titokban tartják a modellek belső működését, így a kívülálló egyáltalán nem is érti a félretájékoztatást, dezinformációt és más károkat okozó hibákat. Nincs rá módja, hogy megértse azokat. Hiába nagyon jók ezek az MI-k szövegek emberi módon történő írásában, és tűnnek koherensnek, valójában nem mindig azok, ráadásul nem túl tényszerűek.

Ezekre a problémákra reagálva, fejlesztette a „jó gépi tanulást demokratizáló és a jövőt építő MI-közösség”, a kétmilliárd dollár értékű, AI 50-es – nevével az ismert emojira utaló – Hugging Face startup a GPT-3 típusú zárt rendszerek antitézisét, a BLOOM modellt, amiben a két O a nyílt tudományt és nyílt hozzáférést rövidíti.

Az általában az angolra és a mandarinra összpontosító többivel szemben, BLOOM 46 nyelven, köztük természetesen spanyolul, franciául és arabul, mellettük 13 indiai és 20 afrikai nyelven is működik. A fejlesztők újabb gépitanulás-forradalmat akarnak elindítani vele.

A Facebook is bekapcsolódott a versenybe

Törekvésükre rímel, hogy az OpenAI és a Google nyomában járó, azokat lekörözni, de legalább utolérni igyekvő Meta (a korábbi Facebook) szintén nyíltabb megközelítésben gondolkozik. Persze az éllovasok titkolózása is érthető – jelenleg az ő rendszereik működnek legjobban, a leginformatívabbak, az alkalmazások óriási pénzeket hoznak házhoz, ezért féltve őrzik őket, és nem működnek együtt másokkal, nem erőltetik a közösségi normák kidolgozását.

Még érthetőbb, hogy a kontroll elvesztésével, az MI-t felelőtlenül is használhatják, és most ne az emberiséget leigázó gépi értelemre, hanem például még több dezinformációra gondoljunk. Mivel egyre nehezebb megállapítani, hogy az adott szöveg géptől vagy embertől származik, szélsőséges politikai elvek terjesztésétől hamis egészségügyi adatok közzétételéig,

rengeteg területen képesek kárt okozni. Mert azt hisszük, ember által írt szövegekről van szó.

A Meta e megfontolások szellemében építette fel nyilvánosan hozzáférhető adatokkal (Reddit fórumok, amerikai szabadalmi hivatal szövegei, az Enron-botránnyal kapcsolatos e-mailek stb.) dolgozó OPT-175B modelljét. Az adatok, a kód és a kutatási naplók nyíltak, tehát külsős szakemberek is segíthetnek a torzítások azonosításában, mérséklésében. A kommunikációban viszont mindenképpen igazi emberek utánzása a cél.

A Metánál természetesen tudják, hogy a modell olyanokat is fog mondani, amire nem lesznek büszkék, de felkészültek a kemény kritikákra. A legtöbb vállalat kidolgozta saját belső MI-biztosítékait, valójában viszont a további kutatásokat és döntéseket elősegítendő, szélesebb körű szabványokra lenne szükség, máskülönben az új modellek csak úgy bele a vakvilágba logika szerint fognak működni.

A növekvő számítási kapacitás igénye sem segíti a nyílt versenyt. Olyan teljesítményről van szó, amit csak óriásvállalatok és kormányok engedhetnek meg maguknak, egy-egy startup kizárólag akkor, ha rendelkezésükre bocsátanak nagyobb nemzeti és más laborokat, szuperszámítógépeket. És akkor a brutális géphasználat környezeti hatásairól nem is beszéltünk még… Izgalmas éveknek nézünk elébe.

Nyitókép: Pexels.com

Szólj hozzá!

Egy friss felmérés szerint minden ötödik magyar diák funkcionális analfabéta 

Az Oktatási Hivatal mérése alapján a tanulók jelentős része még az alapvető szövegértési feladatokkal is nehezen boldogul. 

Tíz perc alatt elfogták a rablót Győrben

A 48 éves szlovák elkövető rekord gyorsasággal került rendőrkézre.

Czeglédy Csaba szinte összes választási plakátjára börtönrácsot rajzoltak Felsőcsatáron

Igencsak billeg ilyenkor, hogy ez rongálásnak vagy véleménynyilvánításnak minősül.

Magyarország melegszik - a 10 valaha volt legmelegebb év az elmúlt másfél évtizedből kerül ki

A klímaváltozás már most is átalakítja hazánk időjárását, vízkészleteit és mezőgazdaságát.

Tárlatvezetések, előadások és kiállításmegnyitó - sűrű hetet kínál a Rómer Múzeum Győrben

Kurátori tárlatvezetés, művészeti előadás, festménybemutató és fotókiállítás is várja az érdeklődőket a győri intézmény következő napokban induló programsorozatában.

Akikre büszke a város - díszközgyűlésen adták át Győr rangos kitüntetéseit

Három díszpolgári címet és három Pro Urbe Győr díjat adtak át a március 15-i ünnepségen a Városháza dísztermében.

Nemény András: "Mindig voltak, mindig lesznek ellentétek, talán mert mindenki a saját hite, meggyőződése szerint akar jobbat Magyarországnak."

1848 hősei, Horváth Boldizsár és a szombathelyi 16 pont mellett, egy csipetnyi aktuálpolitika is belefért a polgármester beszédébe.

Kényelem és egészség a munkahelyeken

Az álló munkavégzés, ami sokak számára mindennapos feladat, súlyos kihívásokat rejthet magában. A lábak folyamatos terhelése huzamosabb ideig nemcsak fárasztó, de hosszú távon egészségkárosító is lehet.

Hat Oscart nyert az Egyik csata a másik után

Paul Thomas Anderson filmje vitte a prímet a 98. Oscar-gálán, ahol több nagy produkció is komoly elismeréseket kapott.

Késsel fenyegette meg a hozzá kiérkező mentősöket egy fertőszentmiklósi férfi

Emellett történt még némi kábítószer birtoklás is. 

Illés Károly szerint az esélyegyenlőség elvét sértette meg a TISZA-párt azzal, hogy közlekedési jelzőtáblák oszlopaira helyezett el plakátokat

A választási bizottság szerint jogsértés nem történt, de kérik a jelölőszerveket, hogy ésszel plakátoljanak.

A benzinkutakra jár ki tankolni Szombathelyen a közösségi közlekedést működtető Blaguss

Mindenkit megnyugatnak, hogy továbbra is zavartalanul járnak a buszok a városban.

Több száz tulipánhajtást loptak el a győri Árkád közeléből

Értjük, hogy aki a virágot szereti rossz ember nem lehet, de azért van egy határ. 

Pontosította a kormány az üzemanyag „védett áráról” szóló rendeletet

Az új szabályok szerint rendszám nélküli járművek is tankolhatnak kedvezményes áron, ha igazolni tudják a magyar honosságot.

Mutatjuk a hétvége győri programkínálatát

A megemlékezés mellett a szórakozás is garantált.

KSH: masszívan visszaesett az építőipari termelés az év elején

Januárban éves alapon és az előző hónaphoz képest is jelentősen csökkent az ágazat teljesítménye.

Negyedik nekifutásra lett Körmendnek költségvetése

A kosárlabda csapat is megkapta a kért 15 millió forintos támogatást.