#gpt #test

一个有意思的 GPT 测试问题:

小李在纸上写了一个四位数A,把A的个位数字移到首位,得到另一个四位数 B,最后把A和B加起来得到和数C,并且C也是一个四位数。

已知A的各位数字之和是20,C的百位和十位数学分别是0和4。

那么C代表的四位数是?


答案是 8041

测试时间: 2024-12-09

本问题通过的模型: claude 3.5 sonnet, gpt-4o (官网未降智)

失败的模型: gpt-4o (API), gemini-1.5-pro-latest

偶尔成功的模型: gemini-exp-1206

其中 claude 3.5 sonnet 和 gpt 4o 都是通过准确的代码执行穷举出正确解.

而 gemini 1.5 pro / gemini exp 1206 虽然近期排名高, 但是还是输出了超长一段文本, 然后多次给出错误回复, 十次只有一两次给出了正确解

Update: 如果明确指出需要「通过运行程序给出答案」, 并且开启 gemini 的 code execution, 也是可以得到正确解的, 但是如果仅仅开启 code execution, 不在问题中指出需要程序解, 那么 gemeni 还是不会主动给出代码并执行

问题来源: https://linux.do/t/261827/32


via Memos

Invalid media: image