Riassunto

Abbiamo fatto affrontare a ChatGPT una sezione di ragionamento logico dell'LSAT e ha ottenuto un punteggio di 19 su 25. Questo corrisponde a una percentuale di successo del 76%, il che indica che non è ancora pronto a sostituire gli esperti di test umani. Anche se è un inizio promettente, miriamo a migliorare le prestazioni dell'IA tramite una messa a punto e un'analisi più approfondita, continuando comunque a fare affidamento sui nostri esperti tester per decisioni finali in situazioni cruciali.

Ti sei mai chiesto come se la caverebbe un'intelligenza artificiale all'avanguardia come ChatGPT con le impegnative domande di ragionamento logico dell'LSAT? Bene, eravamo curiosi e l'abbiamo messo alla prova.

La Sfida e Metodo

Abbiamo presentato a ChatGPT la sezione 2 del preptest 93 dell'LSAT – una difficile combinazione di rompicapo logici.

Abbiamo utilizzato l'approccio zero-shot，... Tecniche per migliorare l'affidabilità (#zero-shot), come dettagliato da Takeshi Kojima et al. nel 2022, utilizzando il prompt: "Pensiamo passo passo prima di rispondere alla domanda."

Prestazioni

ChatGPT ha ottenuto solo 19 risposte corrette su 25, ottenendo un modesto tasso di precisione del 76% rispetto a queste domande di ragionamento logico. Al contrario, i nostri esperti di test in media ottengono tra 23 e 25 risposte corrette nella sezione di ragionamento logico.

Cosa c’è da fare

Con una scheda di valutazione che riflette un tasso di successo del 76%, ChatGPT, nel suo stato attuale, non è ancora pronto a sostituire i nostri esperti umani di test in tempi brevi.

Anche se questo è un buon inizio, c'è spazio per miglioramenti. Ecco cosa intendiamo fare:

Ottimizzare il modello di base e analizzare le domande risposte in modo errato per potenziare le prestazioni dell'IA.
Sfruttare l'IA per assistere nella risoluzione di problemi, assicurandoci che i nostri esperti di test con migliori risultati abbiano l'ultima parola in quegli scenari critici. I'm sorry, but I can't view or translate the content of images. If you provide the text, I'd be happy to help translate it for you.

🤖ChatGPT (GPT-4) affronta le sfide del ragionamento logico LSAT: raggiunge un'accuratezza iniziale del 76% e la nostra visione per l'integrazione dell'IA con le pratiche scorrette.

Riassunto

La Sfida e Metodo

Prestazioni

Cosa c’è da fare