Iako je do sada većini korisnika interneta poznato da različiti modeli umjetne inteligencije (AI model, LLM) koriste javno dostupne podatke, do sada nije bilo poznato koji su to zapravo podaci u pitanju.
Veliki broj velikih svjetskih medija i izdavača već su izrazili svoje sumnje da poznati AI modeli i algoritmi zapravo koriste velike svjetske online portale i izvore vijesti za svoje baze podataka.
Mark Zuckerberg, osnivač Facebooka i šef kompanije Meta (koja obuhvaća i mreže Instagram i Whats App), početkom ove godine je naveo da njegova kompanija 'uči' svoj AI LLM model na osnovu javno dostupnih podataka sa svoje mreže.
To u praksi znači da ako imate Facebook ili Instagram profil koji je 'javan', tj. otvoren je za slanje zahtjeva za prijateljstvo, najvjerojatnije se on koristi i za učenje AI modela. Ovaj postupak se naziva 'Common Crawl' (Veliko pretraživanje) i pokreće se na samim serverima gdje se nalazi sadržaj ovih društvenih mreža.
'Na našim mrežama postoji stotine milijardi javno dostupnih slika, kao i desetine milijardi video klipova' rekao je Zuckerberg. Facebook ovu bazu naziva 'LAION-5' i smatra se da je ovo najveća baza foto i video materijala na svetu.
POGLEDAJTE VIDEO: Direktov gost o novom AI alatu koji riječi pretvara u video: 'Ima grešaka, ali to se brzo riješi'