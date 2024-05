Iako je do sada većini korisnika interneta poznato da različiti modeli umjetne inteligencije (AI model, LLM) koriste javno dostupne podatke, do sada nije bilo poznato koji su to zapravo podaci u pitanju.

Veliki broj velikih svjetskih medija i izdavača već su izrazili svoje sumnje da poznati AI modeli i algoritmi zapravo koriste velike svjetske online portale i izvore vijesti za svoje baze podataka.

Mark Zuckerberg, osnivač Facebooka i šef kompanije Meta (koja obuhvaća i mreže Instagram i Whats App), početkom ove godine je naveo da njegova kompanija 'uči' svoj AI LLM model na osnovu javno dostupnih podataka sa svoje mreže.

To u praksi znači da ako imate Facebook ili Instagram profil koji je 'javan', tj. otvoren je za slanje zahtjeva za prijateljstvo, najvjerojatnije se on koristi i za učenje AI modela. Ovaj postupak se naziva 'Common Crawl' (Veliko pretraživanje) i pokreće se na samim serverima gdje se nalazi sadržaj ovih društvenih mreža.

'Na našim mrežama postoji stotine milijardi javno dostupnih slika, kao i desetine milijardi video klipova' rekao je Zuckerberg. Facebook ovu bazu naziva 'LAION-5' i smatra se da je ovo najveća baza foto i video materijala na svetu.

