Per anni i modelli di intelligenza artificiale sono stati in grado di guardare le immagini e dirti cosa possono vedere all’interno dell’immagine, ma con l’aggiornamento primaverile OpenAI ha portato le cose a un nuovo livello.
Con l’introduzione di GPT-4o in ChatGPT – anche senza funzionalità audio e video – OpenAI ha svelato uno dei migliori modelli di visione AI rilasciati fino ad oggi.
Il suo successo è in parte dovuto al fatto che è multimediale, avendo una comprensione più profonda di immagini, video, audio e testo. Può ragionare su immagini, parlato, video e testo laddove le altre forme vengono prima convertite in testo.
Per testare le sue capacità, gli ho dato una serie di immagini e gli ho chiesto di descrivere ciò che poteva vedere. Più accurato è il modello. Spesso, i modelli di visione AI, incluso GPT-4, perdono uno o due oggetti o ricevono la descrizione sbagliata.
Test della vista GPT-4o
In ogni test, a ChatGPT-4o è stata fornita l’immagine e la richiesta “Cos’è questo?” Senza alcun contesto o informazione aggiuntiva. Questo è più vicino al modo in cui le persone probabilmente utilizzeranno questa funzionalità nel mondo reale e al modo in cui l’ho utilizzata di recente in un evento a Parigi.
L’obiettivo è vedere quanto bene viene analizzata l’immagine. Ho contattato ogni volta per chiedere se fosse in grado di rilevare se un’immagine era stata generata o meno dall’intelligenza artificiale. Sono tutti creati utilizzando un ideogramma dalla descrizione creata da Claude 3, quindi completamente AI.
Dopo le prime foto della conversazione, ha iniziato spontaneamente a dirmi se pensava che la foto fosse generata dall’intelligenza artificiale o meno, senza che io dovessi chiederlo.
Ho iniziato con l’app ChatGPT Desktop ma ha iniziato a non rispondere, quindi sono passato al Web e ha funzionato correttamente.
1. Riconoscimento degli oggetti
Per questa prima immagine, ho creato l’immagine di una tazza di ceramica rossa piena di caffè caldo. Era messo su un piatto su un tavolo di legno in un bar, ma il caffè era indistinto. L’idea è vedere come GPT-4o interpreta il background e lo scenario.
GPT-4o ha scritto: “Questa immagine mostra una tazza di caffè fumante in una tazza rossa e un piattino posizionati su un tavolo rustico di legno. Lo sfondo è sfocato, raffigurante un ambiente interno accogliente con persone sedute e che parlano in quella che sembra essere una grotta- come un bar o un interno unico con muri in pietra.” Il focus è sulla tazza di caffè, evidenziando il vapore che sale dalla bevanda calda.
Questo è il più accurato e descrittivo possibile. Anche disegnare un quadro della scena va oltre la semplice descrizione. Per scherzo gli ho chiesto: “Descrivi i pensieri di chi è seduto al tavolo con questo caffè pronto da bere”.
Ha risposto con una panoramica piuttosto descrittiva, ma questa frase risaltava: “Questo caffè è più di una semplice bevanda; È un rituale, un prezioso momento di solitudine e contemplazione in mezzo al trambusto della vita quotidiana.
2. Riconoscimento ottico dei caratteri (OCR)
Il riconoscimento ottico dei caratteri (OCR) è una tecnologia vecchia quanto l’informatica, quindi dovrebbe essere banale per qualsiasi modello di visione, anche gli smartphone lo fanno sul dispositivo. Le ho regalato una semplice foto che mostrava il primo piano di un vecchio cartello di legno che diceva “Benvenuti a Oakville” in uno stile vintage scritto a mano. Voglio qualcosa di più di un semplice messaggio dall’intelligenza artificiale.
GPT-4o consegnato; Scrittura: “Questa foto mostra un cartello dall’aspetto vintage che dice ‘Benvenuti a Oakville’. Il cartello appare invecchiato, con una vecchia finitura rustica, indicando che è stato esposto agli elementi per un po’ di tempo. Il testo è in grassetto bianco su fondo rosso, con qualche segno di usura, che ne aumenta il fascino nostalgico. L’insegna è in parte circondata dal verde, suggerendo che potrebbe essere stata collocata all’esterno, forse all’ingresso di una città o comunità chiamata Oakville.
Non solo il testo veniva letto correttamente, ma suggeriva anche maggiori dettagli sulla posizione, identificando una possibile città o insediamento ed estraendo i dettagli del segno stesso.
3. Riconoscimento facciale
Si tratta di un uso controverso della tecnologia AI ed è in qualche modo vietato nell’Unione Europea. Ma quanto bene GPT-4o può descrivere un volto? L’immagine era una rappresentazione generata dall’intelligenza artificiale di una donna sulla quarantina con capelli scuri e caldi occhi castani. Aveva un sorriso amichevole.
GPT-4o l’ha descritta come segue: “Questa immagine è un primo piano di una donna sorridente con i capelli scuri e ricci L’attenzione è sul suo viso, che è ben illuminato e mostra i dettagli della struttura della pelle e dei lineamenti espressione amichevole e i suoi occhi guardano direttamente nella fotocamera. Lo sfondo è sfocato”, concentrandosi sull’argomento.”
Volevo qualcosa di più, anche a una certa età. Le ho chiesto: “Quanti anni ha questa persona e qual è il suo stato emotivo?” Lei ha risposto dicendo che ha tra i 30 e i 40 anni ed è in uno stato d’animo positivo, spiegando: “L’impressione generale è che si trovi emotivamente in una buona posizione e probabilmente si senta bene e a suo agio”.
4. Rivelare sentimenti
Successivamente, volevo vedere come se la sarebbe cavata GPT-4o con l’immagine di un vecchio con un’espressione triste. Lo catturerà o semplicemente descriverà la scena? Ricorda che l’unico input che aveva era “cos’è questo” e l’immagine.
GPT-4o ha funzionato bene. La foto diceva: “Questa foto è una foto di un uomo anziano seduto su una panchina all’aperto, molto probabilmente in un parco. L’illuminazione indica che la foto è stata scattata durante l’ora d’oro, con la morbida luce del sole che ne illumina il viso pensieroso, con un leggero accenno di malinconia o contemplativo. Indossa una camicia e una giacca con colletto, e lo sfondo è sfocato, focalizzando l’attenzione sull’uomo fornendo allo stesso tempo un ambiente piacevole e naturale.
Il modello AI ha fatto esattamente quello che speravo: ha descritto la scena e ha suggerito cosa avrebbe potuto provare l’uomo in quel momento.
5. Comprendi la scena
Quanto bene GPT-4o è in grado di descrivere una scena da un’immagine e identificare gli elementi all’interno della scena? Questa è un’abilità utile poiché i modelli di intelligenza artificiale sono sempre più utilizzati per aiutare a descrivere il mondo reale. È una delle caratteristiche principali della nuova modalità audio di ChatGPT.
“Questa foto mostra un vivace mercato agricolo all’aperto in una giornata soleggiata”, ha annunciato GPT-4o. “Vari stand sono stati allestiti sotto le tende, esponendo un’abbondanza di prodotti freschi tra cui frutta, verdura e altri beni. curiosando, facendo acquisti e interagendo con i venditori. “Il mercato sembra essere situato in una bellissima area alberata, con fogliame verde sullo sfondo. L’atmosfera sembra vivace e orientata alla comunità, con un’enfasi sui prodotti locali e freschi.
Non c’è molto da dire. È stato accurato nella descrizione del quadro e della situazione. Hai fornito più dettagli di quanto mi aspettassi e hai evidenziato alcuni dei prodotti in vendita.
6. Valutazione della qualità dell’immagine
Ho chiesto a Ideogram di creare quattro immagini quasi identiche in una griglia, ma dando a ciascuna una risoluzione o un livello di composizione diverso. Volevo vedere come GPT-4o lo avrebbe descritto. Può gestire l’immagine di base, ma che dire di quattro di essi, ognuno leggermente diverso?
“L’immagine è una raccolta di quattro fotografie di paesaggi disposte in una griglia, ciascuna delle quali mostra una vista mozzafiato di dolci colline ricoperte di erba verde e fiori di campo sotto un cielo pieno di nuvole”, ha scritto GPT-4o. Fin qui tutto bene.
E continua: “La foto in alto a sinistra mostra un morbido cielo sfumato di rosa e blu, che suggerisce l’alba o il tramonto, con colline immerse in una calda luce dorata, che esalta la vibrante erba verde e i fiori gialli e bianchi. La foto in alto a destra mostra una scena simile ma in toni tenui, suggerendo… Primo mattino o tardo pomeriggio. L’immagine in basso a sinistra ha colori più freddi e un cielo azzurro più chiaro, suggerendo mezzogiorno con un’illuminazione più morbida. L’immagine in basso a destra è più calda e più satura, con una sfumatura rosa nel cielo , che suggerisce la luce calda di un tramonto. Queste differenze nell’illuminazione e nella tonalità dei colori illustrano come i diversi momenti della giornata e le tecniche fotografiche possano influenzare l’atmosfera e l’aspetto della stessa scena naturale.
Sebbene non capisse lo scopo della griglia di quattro immagini – confrontare la composizione – è stata in grado di descriverle individualmente, il che è stato impressionante. In realtà ha fatto il suo confronto tra le foto.
7. Rilevamento di oggetti multipli
Infine, c’è un test importante se un modello deve essere utile come strumento di accessibilità: quanto bene rileva gli oggetti in una scena affollata. Stessa affermazione di altri. La foto mostra una scrivania in disordine e mi aspetto che tiri fuori almeno una piccola cosa.
GPT-4o ha scritto: “La foto mostra uno spazio di lavoro d’ufficio moderno e organizzato con vista sulla città visibile attraverso grandi finestre sullo sfondo. La scrivania è ordinatamente organizzata con molti oggetti tipici di un ambiente di lavoro produttivo, incluso un laptop in una postazione centrale. una lampada da scrivania in metallo e una tazza di caffè suggeriscono un’atmosfera rilassata ma concentrata. Quaderni e documenti sparsi suggeriscono il lavoro attivo e la presa di appunti, mentre una piccola pianta in vaso aggiunge un tocco di verde. Una foto incorniciata di due persone fornisce un tocco personale, potenzialmente servire come risorsa per la motivazione. Lo spazio di lavoro è pieno di articoli per ufficio come penne, matite e organizzatori, garantendo funzionalità. Lo sfondo urbano dello skyline della città con moderni grattacieli crea un ambiente dinamico e stimolante.
Ha funzionato. Ho deciso di proseguire e chiedergli di dirmi il colore del vaso della pianta e ha funzionato subito. Quindi gli ho chiesto di trovare i miei occhiali nella foto e lui ha detto correttamente: “I tuoi occhiali sono sulla scrivania a destra del laptop, sopra un taccuino”.
riepilogo
Ogni modello di visione che ho utilizzato in passato ha commesso almeno un errore, di solito grave, come identificare erroneamente un oggetto o non cogliere un colore o una marca.
GPT-4o ottiene ognuno di questi punti. Il passaggio alla vera multimodalità ha rappresentato un punto di svolta per OpenAI.
Dimostra anche il valore potenziale degli occhiali intelligenti come il vero futuro dell’interazione dei dati. Dimentica lo smartphone, usiamo la visione per unire reale e digitale.