OpenAI, la regola umana di ignoranza che impedisce ai bot di rubare contenuti web

Le due più grandi startup di intelligenza artificiale del mondo stanno ignorando le richieste degli editori di media di smettere di estrarre i loro contenuti web per ottenere dati di formazione campione gratuiti, ha appreso Business Insider.

È stato scoperto che OpenAI e Anthropic ignorano o eludono una regola web statica chiamata robots.txt, che impedisce la cancellazione automatica dei siti web.

TollBit, una startup che mira a mediare accordi di licenza a pagamento tra editori e società di intelligenza artificiale, ha scoperto che molte società di intelligenza artificiale si comportavano in questo modo e ha informato alcuni dei principali editori in una lettera venerdì, che è stata Lo ha riferito in precedenza la Reuters. La lettera non includeva i nomi di nessuna delle società di intelligenza artificiale accusate di eludere la regola.

OpenAI e Anthropic hanno dichiarato pubblicamente di rispettare il file robots.txt e di bloccare i propri web crawler, come GTBot e ClaudeBot.

Tuttavia, secondo quanto accertato da TollBit, tali blocchi non vengono rispettati, come sostenuto. Le aziende di intelligenza artificiale, tra cui OpenAI e Anthropic, scelgono semplicemente di “ignorare” il file robots.txt per recuperare o estrarre tutto il contenuto da un particolare sito Web o pagina.

Un portavoce di OpenAI ha rifiutato di commentare oltre la direttiva della BI a un’azienda Post sul blog A partire da maggio, la società afferma di tenere in considerazione le autorizzazioni del web crawler “ogni volta che addestriamo un nuovo modello”. Un portavoce di Anthropic non ha risposto alle e-mail in cerca di commenti.

Robots.txt è un pezzo di codice che è stato utilizzato dalla fine degli anni ’90 come modo per i siti Web di comunicare ai robot crawler che non vogliono che i loro dati vengano cancellati e raccolti. È stata ampiamente accettata come una delle regole di supporto non ufficiali del Web.

Con l’avvento dell’intelligenza artificiale generativa, le startup e le aziende tecnologiche stanno gareggiando per costruire i modelli di intelligenza artificiale più potenti. L’ingrediente chiave sono dati di alta qualità. La sete di tali dati di addestramento ha minato robots.txt e le convenzioni informali che supportano l’uso di questo codice.

OpenAI è dietro il popolare chatbot ChatGPT. Il più grande investitore dell’azienda è Microsoft. Anthropic è dietro un altro chatbot relativamente popolare, Claude. Il suo più grande investitore è Amazon.

Entrambi i chatbot forniscono risposte alle domande degli utenti in tono umano. Tali risposte sono possibili solo perché i modelli di intelligenza artificiale su cui sono costruiti includono grandi quantità di testo scritto e dati estratti dal web, la maggior parte dei quali è protetta da copyright o di proprietà dei suoi creatori.

Diverse aziende tecnologiche hanno sostenuto l’anno scorso davanti al Copyright Office degli Stati Uniti che nulla sul web dovrebbe essere considerato soggetto a copyright quando si tratta di dati di addestramento dell’IA.

OpenAI ha alcuni accordi con gli editori per accedere ai contenuti, incluso Axel Springer, che possiede BI. L’Ufficio statunitense per il copyright aggiornerà le sue linee guida sull’intelligenza artificiale e sul diritto d’autore entro la fine dell’anno.

Sei un impiegato tecnologico o qualcun altro che ha consigli o approfondimenti da condividere? Connettiti con Callie Hayes su khais@businessinsider.com O su un’app di messaggistica sicuraSegnale Al numero +1-949-280-0267. Comunicare utilizzando un dispositivo non lavorativo.

We will be happy to hear your thoughts

Leave a reply