Come Funziona ChatGPT

categorie

What Is ChatGPT Doing … and Why Does It Work


Quando ChatGPT scrive qualcosa come un saggio, ciò che fa è chiedersi ripetutamente "dato il testo fino a qui, quale dovrebbe essere la prossima parola ?",
Questa "parola" aggiunta si definisce "token", e potrebbe anche essere incompleto, per cui a volte possono essere "inventate nuove parole". Ad ogni passo si ottiene un elenco di parole con le relative probabilità.
Se a volte (a caso) si scelgono parole di rango inferiore, si può ottenere un saggio "più interessante".
Il parametro che regola questa scelta si chiama "temperatura", e determina la frequenza con cui vengono usate le parole di rango più basso; in molti casi una "temperatura" di 0,8 sembra essere l'ideale.

Con l'addestramento su un numero sufficiente di testi in lingua, si possono ottenere stime abbastanza buone non solo per le probabilità di singole lettere o coppie di lettere (2-grammi), ma anche per serie di lettere più lunghe. Ad esempio ci sono circa 40.000 parole ragionevolmente usate in inglese.
Esaminando un ampio corpus di testi in inglese (ad esempio qualche milione di libri, con un totale di qualche centinaio di miliardi di parole), possiamo ottenere una stima di quanto sia comune ogni parola.
E con questa si può iniziare a generare "intere frasi", in cui ogni parola è scelta indipendentemente a caso, con la stessa probabilità che appaia nel corpus.
Come per le lettere, possiamo iniziare a prendere in considerazione non solo le probabilità per le singole parole, ma anche quelle per le coppie o per gli n-grammi di parole più lunghi.

Supponiamo di voler sapere (come fece Galileo alla fine del 1500) quanto tempo impiegherà una palla di cannone lanciata da ogni piano della Torre di Pisa a toccare il suolo. Si potrebbe misurare in ogni caso e fare una tabella dei risultati. Immaginiamo di avere dei dati (un po' idealizzati) su quanto tempo impiega una palla di cannone a cadere da vari piani: come facciamo a capire quanto tempo impiega a cadere da un piano di cui non abbiamo dati espliciti?
In questo caso particolare, possiamo usare le leggi fisiche conosciute per calcolarlo.
E da questa linea retta possiamo stimare il tempo di caduta per qualsiasi piano.

Ma per ChatGPT dobbiamo creare un modello di testo in lingua umana del tipo prodotto da un cervello umano. E per una cosa del genere non abbiamo (almeno per ora) nulla di simile alla "matematica semplice".
Se il nostro obiettivo è produrre un modello di ciò che gli esseri umani possono fare nel riconoscimento delle immagini, la vera domanda da porsi è cosa avrebbe fatto un essere umano se gli fosse stata presentata una di quelle immagini sfocate, senza sapere da dove provenisse.
Abbiamo un "buon modello" se i risultati che otteniamo dalla nostra funzione concordano tipicamente con quello che direbbe un umano.

L'approccio attuale più popolare, e di successo, utilizza le reti neurali. Inventate negli anni '40, in una forma molto simile a quella attuale, le reti neurali possono essere considerate come semplici idealizzazioni del funzionamento del cervello.
La configurazione di un "diagramma di Voronoi" separa i punti nello spazio euclideo 2D; il compito di riconoscimento delle cifre può essere pensato come se facesse qualcosa di molto simile, ma in uno spazio a 784 dimensioni formato dai livelli di grigio di tutti i pixel di ogni immagine.

Soprattutto nell'ultimo decennio, ci sono stati molti progressi nell'arte dell'addestramento delle reti neurali.
Ma per lo più le cose sono state scoperte per tentativi ed errori, aggiungendo idee e trucchi che hanno progressivamente costruito una tradizione significativa su come lavorare con le reti neurali.
Questo non vuol dire che non esistano "idee strutturanti" rilevanti per le reti neurali.
Così, ad esempio, avere matrici di neuroni in 2D con connessioni locali sembra almeno molto utile nelle prime fasi di elaborazione delle immagini.
E le attuali reti neurali, con gli attuali approcci all'addestramento delle reti neurali, si occupano specificamente di matrici di numeri.

Ora c'è il problema di ottenere i dati con cui addestrare la rete.
Molte delle sfide pratiche legate alle reti neurali e all'apprendimento automatico in generale si concentrano sull'acquisizione o sulla preparazione dei dati di addestramento necessari. Quanti dati bisogna mostrare a una rete neurale per addestrarla a un compito particolare?
In generale, le reti neurali hanno bisogno di "vedere molti esempi" per allenarsi bene.
È inoltre necessario mostrare alla rete neurale variazioni dell'esempio.

La spiegazione approfondita nell'articolo: What Is ChatGPT Doing … and Why Does It Work?.

wikipedia


Sumplete - Progettato dalla AI

sumplete

Sumplete è stato progettato e realizzato completamente da chatGPT.

E' stato chiesto prima di consigliare un nuovo rompicapo da giocare per chi apprezza il Sudoku.
Dopo aver ottenuto un buon elenco di risultati, già tutti noti, ci si è chiesto se ChatGPT potesse davvero inventare un proprio rompicapo. Al quarto tentativo è venuto fuori questo "Sum Delete puzzle" che sembrava interessate. Ma è in grado di crearne una versione giocabile ?
30 secondi dopo c'era già una versione completamente giocabile del puzzle nel browser. Alla fine è stato chiesto perfino di migliorare il design aggiungendo alcuni CSS e di inventarsi un nome.

Il processo completo


Le Proprietà Emergenti della AI

categorie

137 emergent abilities of large language models


Un'abilità è considerata "emergente" se non è presente nei modelli più piccoli ma lo è in quelli più grandi. I modelli linguistici odierni sono stati dimensionati principalmente in base a tre fattori: quantità di calcolo, numero di parametri e dimensione del set di dati di addestramento.
In generale, si può considerare l'emergere di nuove proprietà come una funzione di molte variabili correlate. La scala in cui si osserva per la prima volta l'emergere di un'abilità dipende da una serie di fattori e non è una proprietà immutabile. In figura si vede come le prestazioni esplodano oltre un certo ordine di grandezza dei parametri.

Ecco una breve lista di oltre 200 proprietà emergenti dei modelli:

- La capacità di eseguire un compito tramite brevi serie di prompt legati (few-shots) è emergente quando un modello ha prestazioni casuali fino a una certa scala, dopodiché le prestazioni aumentano fino a diventare ben superiori.
- L'aumento di parametri aumenta le prestazioni della capacità di risolvere domande basate sulla conoscenza che abbraccia una vasta gamma di argomenti.
- Le prestazioni di Word in Context (WiC), che sono una soglia di comprensione semantica, sembrano non molto influenzate dal numero dei parametri, anche fino a 540B+.
- I compiti di ragionamento, in particolare quelli che prevedono più passaggi, sono stati una sfida per i modelli linguistici e per i modelli NLP in generale. Una recente strategia chiamata "chain-of-thought prompting" permette ai modelli linguistici di risolvere tali problemi guidandoli a produrre una sequenza di passaggi intermedi prima di fornire la risposta finale soprattutto quando viene scalato a 100B+ parametri.

Altre proprietà sono: Ragionamento a più Fasi, Seguire Istruzioni, Esecuzione di Programmi, Calibrazione dei Modelli.

The Unpredictable Abilities Emerging From Large AI Models
137 emergent abilities of large language models
209 Emergent Abilities of large language models.pdf


Death Trap Dungeon Design

categorie



Seance: Deathtrap Dungeon Design: la playlist.

Ryan (The Weekly Scroll, The Adventure Archive) e Sersa Victory (Trident Gamebooks, Storytelling Collective) costruiscono in streaming un deeath trap dungeon ispirato a Tomb of Horrors. Ogni episodio mette in luce un elemento diverso della progettazione di un dungeon, approfondendo la teoria alla base di mostri, trappole, enigmi, tesori, mappe, scelte difficili e altro ancora. I conduttori condivideranno anche consigli e tecniche che potrete utilizzare per creare le vostre avventure in un dungeon mortale.

[via]

Simple LLaMA Finetuner

categorie

Simple LLaMA Finetuner

Simple LLaMA Finetuner è un'interfaccia facile da usare per facilitare la messa a punto del modello linguistico LLaMA-7B utilizzando il metodo LoRA tramite la libreria PEFT (State-of-the-art Parameter-Efficient Fine-Tuning) su GPU NVIDIA di qualità.

Con un set di dati di piccole dimensioni e una lunghezza dei campioni di 256, è possibile eseguire questa operazione anche su una normale istanza di Colab Tesla T4.

Grazie a questa intuitiva interfaccia utente, è possibile gestire facilmente il dataset, personalizzare i parametri, addestrare e valutare le capacità di inferenza del modello LL.

Simple LLaMA Finetuner

Image Credit: Tydence Davis

Chris Williamson Modern Wisdom

categorie



Il Modern Wisdom Podcast di Chris Williamson cerca di offrire lezioni di vita con persone intelligenti come Jordan Peterson, Jocko Willink, Andrew Huberman, Ryan Holiday, James Clear, Robert Greene, Balaji Srinivasan, Steven Pinker, Alex Hormozi, Douglas Murray, Michael Malice, James Smith, David Sinclair, Mark Manson e altri ancora.

youtube
twitter
instagram

Gurwinder Bhogal


De Gustibus

categorie

The Man with the Golden Helmet
The Man with the Golden Helmet era considerato uno dei più grandi dipinti di Rembrandt, ma negli anni Sessanta alcuni studiosi avevano iniziato a mettere in dubbio che fosse stato proprio il maestro a dipingerlo. Dopo un'analisi approfondita, è emerso un consenso accademico sul fatto che probabilmente è stato realizzato da uno dei suoi studenti. Ci si chiede quindi se il dipinto sia ancora un capolavoro o se gli abbiamo attribuito un valore troppo alto quando abbiamo pensato erroneamente che fosse un Rembrandt.

Il gusto è la facoltà con cui esprimiamo giudizi sull'arte, ed è sempre personale: un giudizio, ma un giudizio proprio. Non ci vuole una grande capacità di osservazione per notare che persone diverse preferiscono cibi diversi, e l'etichetta latina de gustibus non est disputandum afferma che non si può discutere sui gusti.

L'autonomia del gusto individuale e l'esistenza di un principio più ampio di eccellenza sono spesso in contrasto. Il gusto nelle arti aggiunge un ulteriore livello di complessità, poiché le persone non sono tutte uguali. Alan Bennett ne parla nella sua opera teatrale Una questione di attribuzione, in cui suggerisce che le persone che guardano i vecchi maestri si dividono in tre gruppi: quelli che vedono ciò che è senza che glielo si dica, quelli che lo vedono quando glielo si dice e quelli che imparano dal gusto degli altri.

On Taste - How do we know whether art is any good?