#gpt #test
一个有意思的 GPT 测试问题:
答案是
测试时间:
本问题通过的模型:
失败的模型:
偶尔成功的模型:
其中 claude 3.5 sonnet 和 gpt 4o 都是通过准确的代码执行穷举出正确解.
而 gemini 1.5 pro / gemini exp 1206 虽然近期排名高, 但是还是输出了超长一段文本, 然后多次给出错误回复, 十次只有一两次给出了正确解
Update: 如果明确指出需要「通过运行程序给出答案」, 并且开启 gemini 的 code execution, 也是可以得到正确解的, 但是如果仅仅开启 code execution, 不在问题中指出需要程序解, 那么 gemeni 还是不会主动给出代码并执行
via Memos
Invalid media: image
一个有意思的 GPT 测试问题:
小李在纸上写了一个四位数A,把A的个位数字移到首位,得到另一个四位数 B,最后把A和B加起来得到和数C,并且C也是一个四位数。
已知A的各位数字之和是20,C的百位和十位数学分别是0和4。
那么C代表的四位数是?
答案是
8041测试时间:
2024-12-09本问题通过的模型:
claude 3.5 sonnet, gpt-4o (官网未降智)失败的模型:
gpt-4o (API), gemini-1.5-pro-latest偶尔成功的模型:
gemini-exp-1206其中 claude 3.5 sonnet 和 gpt 4o 都是通过准确的代码执行穷举出正确解.
而 gemini 1.5 pro / gemini exp 1206 虽然近期排名高, 但是还是输出了超长一段文本, 然后多次给出错误回复, 十次只有一两次给出了正确解
Update: 如果明确指出需要「通过运行程序给出答案」, 并且开启 gemini 的 code execution, 也是可以得到正确解的, 但是如果仅仅开启 code execution, 不在问题中指出需要程序解, 那么 gemeni 还是不会主动给出代码并执行
问题来源: https://linux.do/t/261827/32
via Memos
Invalid media: image