Wikimedia Deutschland a anunțat lansarea unui nou proiect menit să simplifice modul în care modelele de inteligență artificială accesează și procesează cunoștințele din Wikipedia.
Inițiativa, denumită Wikidata Embedding Project, aplică o tehnologie de căutare semantică bazată pe vectori, permițând sistemelor AI să înțeleagă mai bine relațiile și sensurile cuvintelor.
Cum schimbă proiectul accesul AI la Wikipedia
Noua bază de date acoperă aproape 120 de milioane de intrări provenite din Wikipedia și platformele conexe, oferind dezvoltatorilor de AI o resursă mai prietenoasă și mai ușor de integrat în sisteme avansate.
Spre deosebire de instrumentele existente, care permiteau doar căutări prin cuvinte-cheie sau interogări complexe în SPARQL, acest proiect facilitează răspunsuri la întrebări formulate în limbaj natural, compatibile cu tehnicile moderne de retrieval-augmented generation (RAG).
Prin această structurare, datele nu mai sunt doar colecții statice, ci includ și context semantic. De exemplu, o căutare pentru termenul „om de știință” va returna nu doar o listă de specialiști celebri, ci și subcategorii precum „oameni de știință nucleari” sau „cercetători de la Bell Labs”.
În plus, baza de date oferă traduceri în diverse limbi, imagini aprobate de Wikimedia și termeni asociați precum „cercetător” sau „academic”.
Proiectul a fost dezvoltat de filiala germană a Wikimedia în colaborare cu Jina.AI, companie specializată în căutare neuronală, și DataStax, firmă de training în timp real deținută de IBM.
Baza de date este disponibilă public pe Toolforge, iar pe 9 octombrie 2025 este programat un webinar dedicat dezvoltatorilor interesați să afle mai multe despre utilizarea acestui instrument.
De ce este important pentru viitorul inteligenței artificiale
Anunțul vine într-un moment în care dezvoltatorii de modele lingvistice caută surse de date de înaltă calitate pentru antrenamente.
În timp ce seturi precum Common Crawl, care agregă pagini web din întreaga lume, oferă cantitate, nu întotdeauna garantează acuratețea informației. În schimb, datele verificate de comunitatea Wikipedia oferă o bază mai solidă pentru aplicații unde precizia este esențială.
Această tendință apare și pe fondul dezbaterilor legate de folosirea conținutului protejat prin drepturi de autor în antrenarea AI.
În august 2025, compania Anthropic a acceptat să plătească 1,5 miliarde de dolari pentru a închide un proces intentat de autori ale căror lucrări fuseseră utilizate fără acord. Astfel, soluții deschise și colaborative precum Wikidata Embedding pot oferi o alternativă sustenabilă și transparentă.
Philippe Saadé, manager al proiectului AI din cadrul Wikidata, a subliniat că inițiativa nu este controlată de marile laboratoare sau giganți tehnologici. „Acest proiect demonstrează că o inteligență artificială puternică poate fi construită deschis, colaborativ și pentru binele tuturor”, a declarat acesta.