„Digitálna fosília“ z 50. rokov mätie vedcov: Nezmyselný pojem sa dostal do myslenia umelej inteligencie

  • Zlý sken a chyba v preklade vytvorili neexistujúci pojem
  • Umelá inteligencia ho dnes opakuje ako „pravdu“
  • Čo to o nej prezrádza
Vedci
  • Zlý sken a chyba v preklade vytvorili neexistujúci pojem
  • Umelá inteligencia ho dnes opakuje ako „pravdu“
  • Čo to o nej prezrádza
ČLÁNOK POKRAČUJE POD REKLAMOU

Počul si už niekedy o „vegetatívnej elektrónovej mikroskopii“? Tento vedecky znejúci, no neexistujúci výraz ukazuje, že umelá inteligencia sa neučí významy, ale vzory – a nerozlišuje medzi pravdou a chybou. Ak sa do jej tréningových dát dostane nezmysel, môže ho brať za pravdu. To odhaľuje, aké zraniteľné sú AI modely voči chybám a ako ťažko sa tieto chyby odstraňujú, keď sa už raz stanú súčasťou systému. 

Ako sa „vegetatívna elektrónová mikroskopia“ dostala do dát AI? Predstav si, že niekto spraví preklep v starej knihe, ten preklep sa neskôr oskenuje, digitalizuje a nakoniec sa cez chybný preklad dostane na internet ako akýsi čudný vedecký pojem.

No a potom si túto „chybu“ prečíta umelá inteligencia (AI), zapamätá si ju a začne ju považovať za niečo reálne. To je presne to, čo sa stalo s výrazom „vegetatívna elektrónová mikroskopia“. Ako k tomu došlo a ako by sa dal problém odstrániť, skúmali výskumníci Aaron J. Snoswell, Kevin Witzenberger a El Masri z Queensland University of Technology. Svoje zistenia publikovali v The Conversation.

Zlý sken a chyba v preklade

„Vegetatívna elektrónová mikroskopia“ je fantómový pojem, ktorý sa stal „digitálnou fosíliou“ – chybou zachovanou a posilnenou v systémoch umelej inteligencie (AI), ktorú je takmer nemožné odstrániť z našich vedomostných úložísk. „Podobne ako biologické fosílie uväznené v skale, aj tieto digitálne artefakty sa môžu stať stálymi súčasťami nášho informačného ekosystému,“ píšu v publikovanom článku.

Vznikol omylom, keď sa digitalizovali dve staré vedecké práce z 50. rokov. Počas skenovania sa jedno slovo z jedného stĺpca textu (vegetatívny) spojilo s iným slovom z druhého stĺpca (elektrón) a výsledkom bol nezmyselný výraz. Potom sa k tomu pridala ešte chyba v preklade z perzštiny, kde sa „vegetatívny“ veľmi podobá na slovo pre „skenovanie“, rozdiel je v jednej bodke. 

O niekoľko desaťročí neskôr sa v niektorých iránskych vedeckých prácach objavila „vegetatívna elektrónová mikroskopia“. V rokoch 2017 a 2019 použili dva články tento výraz v anglických titulkoch a abstraktoch.

A keďže AI modely ako ChatGPT alebo iné boli trénované na obrovských balíkoch textov z internetu (napríklad z webu, článkov, publikácií), natrafili aj na tieto falošné dokumenty. A čo spravila AI? Naučila sa, že „vegetatívna elektrónová mikroskopia“ je skutočný pojem.

„Veď to tam bolo napísané“

AI modely nevedia automaticky rozlíšiť, čo je pravda a čo je chyba. Iba kopírujú vzory z dát, ktoré dostanú. A keď sa raz do toho obrovského „trénovacieho balíka“ dostane niečo chybné, je ťažké to odstrániť. Predstav si to, ako keby do kuchárskej knihy niekto omylom napísal, že do bábovky patrí horčica – a odvtedy to všetky recepty preberajú, lebo „veď to tam bolo napísané“.

Výsledok? Podľa Google Scholar sa k dnešnému dňu objavuje „vegetatívna elektrónová mikroskopia“ v 22 dokumentoch. Jeden bol predmetom sporného stiahnutia z časopisu Springer Nature a Elsevier vydal opravu pre ďalší.

Tento výraz sa objavuje aj v novinových článkoch, ktoré sa zaoberajú následnými vyšetrovaniami integrity.

„Vegetatívna elektrónová mikroskopia“ sa začala objavovať častejšie v roku 2020.

Vedela AI o nezmyselnom pojme?

Veľké jazykové modely za modernými chatbotmi AI, ako je ChatGPT, sú „vycvičené“ na obrovské množstvo textu, aby predpovedali pravdepodobné ďalšie slovo v sekvencii. Presný obsah tréningových údajov modelu je často prísne stráženým tajomstvom.

Aby sme otestovali, či model ,vedel‘ o vegetatívnej elektrónovej mikroskopii, vložili sme úryvky z pôvodných článkov, aby sme zistili, či by ich model doplnil nezmyselným výrazom alebo rozumnejšími alternatívami,“ píše sa v článku.

Model GPT-3 chybu prebral, starší nie. Výskumníci našli bod zlomu

„OpenAI GPT-3 dôsledne dopĺňa frázy ,vegetatívnou elektrónovou mikroskopiou‘. Skoršie modely ako GPT-2 a BERT to neurobili. Tento vzor nám pomohol izolovať, kedy a kde došlo ku kontaminácii,“ ozrejmujú výskumníci.

Zistili, že chyba pretrváva aj v neskorších modeloch vrátane GPT-4o a Anthropic’s Claude 3.5. To podľa nich naznačuje, že nezmyselný výraz môže byť teraz natrvalo začlenený do znalostných báz AI.

Porovnaním toho, čo vieme o tréningových súboroch údajov rôznych modelov, identifikovali súbor údajov CommonCrawl zo zoškrabaných internetových stránok ako najpravdepodobnejší vektor, kde sa modely AI prvýkrát naučili tento výraz.

Porovnávali, z akých dát sa jednotlivé AI modely učia, a prišli na to, že pravdepodobným zdrojom tejto chyby je databáza CommonCrawl. CommonCrawl je neziskový projekt, ktorý pravidelne prehľadáva a archivuje obrovské množstvo verejne dostupných webových stránok z celého internetu. Tieto dáta následne sprístupňujeme vo forme veľkých dát, ktoré sú voľne prístupné na výskumné a technologické účely.

Problém s mierkou

A teraz to najdôležitejšie: keď už AI začne takúto chybu používať, je veľmi ťažké ju odstrániť. Nestačí len „vygumovať“ jedno slovo – treba prečistiť celý obrovský systém a overiť, čo všetko s tým súvisí. Navyše, keby sa napríklad všetky výskyty „vegetatívnej elektrónovej mikroskopie“ vymazali, mohli by to omylom odstrániť aj články, ktoré túto chybu len opisujú a kritizujú (ako ten, ktorý práve čítaš).

Celý tento prípad ukazuje, že AI nie je dokonalá a nemá zdravý rozum – funguje len na základe toho, čo jej bolo „nasypané“ do tréningu. A preto môžeme naraziť na situáciu, keď AI hovorí veci, ktoré znejú presvedčivo, ale sú úplne nesprávne.

Výsledok? Nemali by sme slepo veriť všetkému, čo AI povie. Potrebujeme ľudí, ktorí AI výstupy kontrolujú, a vedcov, ktorí vedia rozoznať, čo je chyba a čo nie. Lebo ak sa chyby nekontrolujú, tieto chyby sa môžu stať súčasťou našich digitálnych vedomostí – ako taká „fosília“, ktorá tam zostane navždy.

„Technologické spoločnosti musia byť transparentnejšie, pokiaľ ide o školiace údaje a metódy. Výskumníci musia nájsť nové spôsoby vyhodnocovania informácií tvárou v tvár presvedčivým nezmyslom generovaným AI. Vedeckí vydavatelia musia zlepšiť svoje procesy vzájomného hodnotenia, aby odhalili ľudské chyby aj chyby generované AI,“ uzavreli vedci.

Čítaj viac z kategórie: Technológie a internet

Zdroje: The Conversation, Google Scholar 

Najnovšie videá

Trendové videá