Kifogyhatunk az adatokból?

2024. május 03. 13:53

A mesterséges intelligencia (MI) képzéséhez rengeteg adatra van szükség. A kutatók szerint az iparág kifogyhat ezekből, és ez lassíthatja a nagy méretű nyelvi modellek fejlődését.

Fekete Kíra

A szerző a Makronóm újságírója.

A pontos és jó minőségű mesterségesintelligencia-algoritmusok betanításához rengeteg adatra van szükségünk. A ChatGPT-t például 570 gigabájtnyi szöveges adaton, azaz körülbelül 300 milliárd szón képezték ki. Elképzelhetetlen mennyiségekről beszélünk.

Hasonlóképpen a stabil diffúziós algoritmust (amely számos MI-képgeneráló alkalmazás, például a DALL-E, a Lensa és a Midjourney mögött áll) az 5,8 milliárd kép-szöveg párosból álló LAION-5B-adathalmazon képezték ki.

Ha egy algoritmust nem megfelelő mennyiségű adaton képeznek ki, akkor pontatlan vagy rossz minőségű lesz a kimenet.

Ezek mellett fontos az adatok minősége is. Az alacsony színvonalúak, például a közösségimédia-posztok vagy az elmosódott fényképek könnyen beszerezhetők, de nem megfelelők a nagy teljesítményű mesterségesintelligencia-modellek betanításához.

Sőt, a közösségimédia-platformokról vett szövegek lehetnek elfogultak vagy előítéletesek, tartalmazhatnak dezinformációt vagy illegális tartalmakat, amelyeket a modell lemásolhat. Amikor például a Microsoft a Twitter-tartalmak felhasználásával próbálta betanítani a mesterségesintelligencia-botját, az rasszista és nőgyűlölő módon válaszolt.

Ezért az MI fejlesztői jó minőségű tartalmakat keresnek. A Google Assistantot 11 ezer, a Smashwords oldalról származó romantikus regényen képezték ki, hogy fejlesszék a beszédkészségét.

Van elég adatunk?

A mesterségesintelligencia-ipar egyre nagyobb halmazokon képezte ki az MI-rendszereket, ezért vannak ma már olyan nagy teljesítményű modelljeink, mint a ChatGPT vagy a DALL-E 3. Ugyanakkor a kutatások szerint az online adatállományok sokkal lassabban bővülnek, mint ahogy arra szükség lenne.

Egy tavaly megjelent tanulmányban egy kutatócsoport azt jósolta, hogy 2026 előtt kifogyunk a jó minőségű szöveges adatokból, ha a jelenlegi MI-tréningtrendek folytatódnak. Becsléseik szerint az alacsony minőségű nyelvi információk valamikor 2030 és 2050 között, a szintén silány kategóriába tartozó képi adatok tárháza pedig 2030 és 2060 között merül ki.

A PwC számviteli és tanácsadó csoport szerint a mesterséges intelligencia 2030-ra akár 15,7 billió dollárral járulhat hozzá a világgazdasághoz. Az adathiány azonban lassíthatja a fejlődést.

Aggódnunk kellene?

Bár mindezek riadalmat kelthetnek, a helyzet talán nem olyan rossz, mint amilyennek látszik. Számos, jelenleg még ismeretlen megoldás létezik az MI fejlesztésére, és vannak módok arra, hogy miként kezelhetik az adathiány kockázatát. Az egyik lehetőség az, hogy a fejlesztők javítják az algoritmusokat, hogy azok hatékonyabban használják fel a már meglévő adatokat.

Valószínű, hogy az elkövetkező években kevesebb információt és számítási teljesítményt felhasználva is képesek lesznek nagy teljesítményű rendszereket képezni. Ez már csak azért is fontos lenne, mert segítene csökkenteni a mesterséges intelligencia karbonlábnyomát is.

Egy másik lehetőség, hogy az MI-t szintetikus adatok létrehozására használják a rendszerek betanításához. Más szóval, a fejlesztők maguk megteremtik azokat.

Számos projekt már most is használ szintetikus tartalmakat, amelyeket gyakran olyan adatgeneráló szolgáltatásoktól szereznek be, mint a Mostly AI. A The Conversation szerint ez a módszer a jövőben egyre elterjedtebbé válhat.

A fejlesztők az ingyenes online téren kívül is keresnek tartalmakat, például a nagy kiadók és más szolgáltatók külső tárhelyein lévőket. Gondoljunk csak az internet előtt megjelentetett szövegek millióira, amelyek digitálisan elérhetővé téve új adatforrást jelenthetnek a mesterségesintelligencia-projektekhez.

A tartalomkészítők tiltakoztak az ellen, hogy a tartalmaikat jogtalanul használják fel mesterségesintelligencia-modellek képzésére, sőt néhányan be is perelték őket. Azonban van remény, mivel a világ egyik legnagyobb híroldal-tulajdonosa, a News Corp nemrégiben közölte, hogy tartalmi megállapodásokról tárgyal MI-fejlesztőkkel. Ezek értelmében az MI-vállalatoknak fizetniük kell a képzési adatokért.

De nem ez a cég az egyetlen. A Financial Times (FT) megállapodást kötött az OpenAI-jal, így a mesterségesintelligencia-modelljeit többek között az említett hírportál archivált cikkein taníthatja be. A megállapodás értelmében az FT licenceli az anyagait a ChatGPT-t feltaláló vállalatnak, hogy segítsen továbbfejleszteni a már eddig is nagy sikerű termékeit.

A neves MI-startuppal az amerikai Associated Press, a német Axel Springer, a francia Le Monde és a spanyol Prisa Media is kötött megállapodást.

Pereskedés szülte a megoldást

Valóban igazán nagyvonalú az OpenAI, hogy fizet a tartalmakért, azonban ezt nem feltétlen jókedvéből teszi, hiszen nem volt ez mindig így. Korábban már pereskedett több alkotóval és vállalattal is emiatt, így valahol kénytelen volt elsimítani a dolgokat.

A The New York Times volt az első nagy amerikai médiacsoport, amely decemberben beperelte az OpenAI-t és a Microsoftot, azzal érvelve, hogy a technológiai vállalatok ingyen használtak fel több millió cikket a ChatGPT alapjául szolgáló modellek létrehozásához. Ezeknek az időknek vége, viszont valószínűleg az OpenAI-nak még így is megéri.

Kapcsolódó:

Címlapfotó: MTI/EPA/Clemens Bilan

További cikkeinket, elemzéseinket megtalálják a makronom.hu oldalon.

Kína vezető lett a mesterséges intelligencia kutatásában (is)

Makronóm

Kína vezet az Egyesült Államok előtt a mesterséges intelligencia (MI) kutatási területeinek több mint felében a Georgetown Egyetem Biztonsági és Feltörekvő Technológiai Központjának (CSET) új kutatása szerint. Az elmúlt öt évben világszerte több mint kétszeresére nőtt a mesterséges intelligenciáról szóló publikációk száma. Az adatok azt mutatják, hogy a kínai intézmények a legjobbak közé tartoznak a MI-kutatások számát és a sokat idézett cikkek mennyiségét tekintve.

Tizedével növelheti a GDP-t a mesterséges intelligencia

Makronóm

A gazdaság átalakulása egyfelől a munkaerőpiac felfordulásával, másfelől a csúcstechnológia, a telekommunikáció, a gyógyszeripar, az oktatás és a bankszektor termelékenységének javulásával jár.

Politikai hovatartozás: már az arcunkról felismeri a mesterséges intelligencia

Belföld

Egy algoritmus meglehetősen nagy pontossággal lőtte be a személyek ideológiai nézeteit.

Így küzdene Brüsszel a mesterséges intelligencia és a dezinformáció ellen az EP-választások előtt

Külföld

Az EP-képviselők felvennék a deepfake és a mesterséges intelligencia elleni harcot.

A világ csúcsvezetői hamarosan megvitatják a mesterséges intelligencia veszélyeit, és egy különleges vendég is ott lesz a találkozón

Külföld

Júniusban ül össze a G7. Ott lesz a katolikus egyházfő is.

Eldőlt Dárdai sorsa a Herthánál

Sport

Dárdai Pál más szerepkörben maradhat a német fővárosi klubnál.

Az ukránoknak szurkol, a liberális pártot támogatja Fico támadója, de a szlovák ellenzéki sajtó gyűlöletkampánya is közrejátszhatott a merényletben

Külföld

Ezt tudjuk eddig a merénylőről és a lehetséges politikai motivációiról.

David Pressman: Magyarország elszigetelődött, magára maradt mind a szövetségen, mind az Európai Unión belül (VIDEÓ)

Belföld

A nagykövet szerint az, hogy Orbán Viktor ellenfélként állította be Amerikát, elfogadhatatlan.

Összesen 11 komment

A kommentek nem szerkesztett tartalmak, tartalmuk a szerzőjük álláspontját tükrözi. Mielőtt hozzászólna, kérjük, olvassa el a kommentszabályzatot.

Sorrend:

sexykitty-82

2024. május 18. 02:08

🍓 ️ Igazi nimfomániák 👉 𝐖𝐖𝐖.𝐗𝟏𝟖.𝐅𝐔𝐍

Válasz erre

Bi Tang Tomee

•••

2024. május 03. 14:52 • Szerkesztve

Vigyázat!! A mesterséges intelligencia esetében - hasonlóan a távirányított közösségi médiákhoz - lejt a pálya, mert túlnyomó részt libsi és globalista narratívákkal töltik fel. Semmi sem hiányzik jobban az emberiségnek, mint hogy a Schwab-féle pszichopaták ellenünk fordítsák az egyre kifinomultabb algoritmusaikat.

Válasz erre

Akitlosz

2024. május 03. 14:07

Az intelligenciához nem kell adat. A "mesterséges intelligencia" nem intelligencia, hanem csak adatfeldolgozás. Milyen számmal folytatná sort? 2, 3, 6, 9, 36, 41, 246, .... Aki nem tudja, ő nem valami intelligens.

Válasz erre

Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Nyugdíjasok mellett egy ismert milliárdos testvérét is átverte Magyar Péter anyós-gazdasági vezetőjének a bűnbandája
origo.hu

Szlovákiában ma több olyan embert letartóztattak, akik kommentekben örömködtek a Fico elleni merénylet miatt
mandiner.hu

Házasság első látásra: titokban ellenőrizték Andrist, mennyire ellenszenves a való életben
metropol.hu

Csődöt jelentett, és az összes üzletét bezárja a magyarok egyik kedvenc ruhamárkája
magyarnemzet.hu

Előkerült Tóth Andi, és izgalmas híreket osztott meg a rajongóival
metropol.hu

Zelenszkij elindítja a harmadik világháborút
magyarnemzet.hu

Erre tessék gombot varrni, Magyar úr! Az Európai Bizottságnak pedig ezúton is hálásan köszönjük
mandiner.hu

Szombati sportműsor: NB I, topligák, F1, hoki-vb, férfi kézi MK-négyes döntő
nemzetisport.hu

Zelenszkij keserű beismerése: Alig van már légvédelmünk
mandiner.hu

Hont András elárulta, mi a különbség Bohár Dániel és Puzsér Róbert között
mandiner.hu

Orbántól és a többi „hasznos idiótától” félti Európát a német lap
mandiner.hu

„Egyre több keletnémet kérdi: miért kéne a nyugathoz hasonlítanunk?” – Katja Hoyer történész a Mandinernek
mandiner.hu

Vicces, hogy egy csatorna, amely a közvéleménykutatások megbízhatatlanságáról készít műsort, utána azzal érvel

Tegnap lezajlott a Partizánon az első EP-listavezetői vita.

1 órája

Eldőlt Dárdai sorsa a Herthánál

Dárdai Pál más szerepkörben maradhat a német fővárosi klubnál.

Az ukránoknak szurkol, a liberális pártot támogatja Fico támadója, de a szlovák ellenzéki sajtó gyűlöletkampánya is közrejátszhatott a merényletben

Ezt tudjuk eddig a merénylőről és a lehetséges politikai motivációiról.

David Pressman: Magyarország elszigetelődött, magára maradt mind a szövetségen, mind az Európai Unión belül (VIDEÓ)

A nagykövet szerint az, hogy Orbán Viktor ellenfélként állította be Amerikát, elfogadhatatlan.

Komoly sztáredző ülhet le a Fradi kispadjára

Akár egy korábbi Bajnokok Ligája-győztes is lehet a zöld-fehérek labdarúgócsapatának új szakvezetője.

Osztrák lap: Mintha megint 1934-ben lennénk – az antidemokratikus erők nyomása alatt nyög Európa

A jólét sokkal nagyobb, a demokratikus gondolkodás sokkal erősebb, mint akkoriban, de a párhuzamok még mindig aggasztóak – írja a Der Standard.

Karácsony szerint Dobrev a legjobb (VIDEÓ)

A főpolgármester elárulta, szerinte ki a legalkalmasabb ellenzéki politikus.

Nagybányaiak a Vajdaságban – sok évtizedes adósságot törlesztenek

Galéria

A nagybányai festőiskola egyedülálló alkotásaiból nyílt június 30-ig látogatható tárlat a Szabadkai Városi Múzeumban.

Ezt látni kell, ahogyan Szoboszlaiék edzője elbúcsúzott a Pooltól (VIDEÓ)

Vasárnap délután egy korszak lezárul Liverpoolban, közel kilenc év után távozik Jürgen Klopp a Vörösöktől. A Wolverhampton elleni meccs biztosan érzelmekkel teli lesz mindenki számára.

Megyeri Dávid

Magyar Nemzet

Regionális hírportálok

Bács-Kiskun - baon.hu Baranya - bama.hu Békés - beol.hu Borsod-Abaúj-Zemplén - boon.hu Csongrád - delmagyar.hu Dunaújváros - duol.hu Fejér - feol.hu Győr-Moson-Sopron - kisalfold.hu Hajdú-Bihar - haon.hu Heves - heol.hu Jász-Nagykun-Szolnok - szoljon.hu Komárom-Esztergom - kemma.hu Nógrád - nool.hu Somogy - sonline.hu Szabolcs-Szatmár-Bereg - szon.hu Tolna - teol.hu Vas - vaol.hu Veszprém - veol.hu Zala - zaol.hu

Közélet

mandiner.hu magyarnemzet.hu szabadfold.hu hirtv.hu origo.hu

Gazdaság

vg.hu figyelo.hu agrokep.hu

Magazin

astronet.hu automotor.hu lakaskultura.hu likebalaton.hu mindmegette.hu travelo.hu dietaesfitnesz.hu vitorlazasmagazin.hu videkize.hu tvmusor.hu hirvilag.hu

Bulvár

borsonline.hu ripost.hu metropol.hu life.hu she.hu

Szolgáltatás

ingatlanbazar.hu freemail.hu koponyeg.hu videa.hu reblog.hu lapcentrum.hu

Rádió

gongradio.hu hirfm.hu

Akták