Szakavatott módszerrel, szakavatott tesztelővel, az OpenAI GPT-4o vizsgálták, mennyire találnak ki történeteket, mennyire válaszolnak igazat a nagy nyelvmodellek. Az eredmények bíztatóak, jobbak a tavalyiaknál. Legjobban a Claude egyik friss változata teljesített.