当前位置：首页 > news >正文

51c大模型~合集155

news 2025/7/17 9:14:54

自己的原文哦~ https://blog.51cto.com/whaosoft/14053474

#When Semantics Mislead Vision

大模型看图“猜”字? MLLMs场景语义幻觉首次揭秘！

近年来，多模态大模型（MLLMs）在图像理解领域飞速发展，然而在面对模糊、无语义的场景文字时，它们常常“翻车”：生成出看似合理、实则脱离图像内容的回答。

来自特伦托大学、香港科技大学等机构的研究者们将这一现象命名为 语义幻觉（Semantic Hallucination），并系统分析了其成因。研究发现—— 模型内部越关注文字区域的层，越能避免幻觉的发生，这为改进多模态感知提供了关键线索。

基于这一洞察，团队提出了一套 无需重新训练的幻觉抑制方案，包括两个核心模块： ZoomText：一种无需外部检测器的“由粗到细”策略，用于自动锁定潜在文本区域； Grounded Layer Correction：智能识别“抗幻觉”的模型层，在解码阶段引导输出更贴合图像。该方法可以无痛移植到任何MLLMs中，以提升多模态大模型在自然场景OCR的表现。

此外，团队还构建了首个专为语义幻觉设计的评估基准—— TextHalu-Bench，包含1730个真实复杂场景样本，覆盖5类常见生活场景，全面检验多模态大模型在场景文字识别和理解的鲁棒性。

论文标题：When Semantics Mislead Vision:Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
论文链接：https://arxiv.org/abs/2506.05551
项目链接：https://github.com/shuyansy/MLLM-Semantic-Hallucination

背景介绍｜什么是语义幻觉？

随着多模态大模型（MLLMs）在通用图像问答领域的强势崛起，研究者们希望它们能取代传统 OCR 系统，实现端到端的场景文字识别与理解。然而，大模型在自然ocr场景下的鲁棒性是个悬而未决的问题。

实际上，当场景文本中的词语语义完整时，主流的MLLMs（Qwen-VL）能给出较为准确的答案，然而面对无语义的单词时，这些模型便会“看走眼”——它们仍然输出语义合理但视觉上错误的答案。例如将图像上的 “apole” 依旧识别成“apple”。我们称这种现象为：语义幻觉（Semantic Hallucination）。

通俗来说，就是模型靠“猜语义”而不是“看图像”在作答。

图一通过图像编辑方法和真实场景图片中进一步验证了这一猜想： 现有模型往往严重依赖语言先验，而非真正从图像中“看懂”文字。

图一：多模态大模型的语义幻觉探究 a: 大模型往往倾向于将没有语义的单词误识别为有语义的单词 b & c：大模型在OCRBench 和 ICDAR 2015上分别在有语义单词和无语义单词的识别结果

现象解剖｜语义幻觉的根源

那么，语义幻觉究竟是如何在模型中“悄悄发生”的？

研究团队深入挖掘了这一问题的根源，发现语义幻觉的出现，与模型不同层级的注意力分布密切相关。为此，他们计算了幻觉文本在每一层的“幻觉倾向得分”，并与真实文本进行了对比，进一步将这一信息融合到模型的注意力图中，从而观察模型在各层是“靠看”还是“靠猜”。

令人惊讶的是，模型在处理文本时的策略，随着层数的提升发生了显著变化：在底层，模型主要提取视觉特征，此时幻觉倾向较低；而在高层，特别是涉及语义理解的层，模型更倾向于根据语义进行“脑补”，幻觉文本的风险显著上升。换句话说：层级越高，模型越容易“用语义代替视觉”。

更进一步的分析还发现了一种有趣的“负相关关系”：当模型的注意力集中于真实文字区域时，反而不容易产生幻觉。这提示我们，也许在某些中间层，模型“看得更准”——既能识别文本，又不过度依赖语义推断。

于是，一个关键问题被提出：能否找到模型中“最会看字”的那一层，并让它帮助模型做出更精准的判断？

图二探究语义幻觉的原因

方法设计｜两大模块

1. ZoomText：无需外部检测器即可定位文字区域

为了找到模型中“最会看字”的那一层，首先需要定位文字区域的位置。尽管ocr专有模型可以检测文字区域，然而这会增大模型的推理效率。因此，能否利用模型自身的能力去定位文字至关重要。

首先，模型会通过计算文本查询token和图像token之间的交叉注意力，识别出潜在的文本区域。通过对这些高响应区域进行阈值筛选，获得粗略的文本区域候选集。同时，模型利用“相对注意力特性”，即和文本查询相关的视觉token在不同层展现不同的关注度，从而滤除噪声区域。

2. Grounded Layer Correction：优化解码过程，减少幻觉现象

利用zoomtext得到的文本token，模型会计算LLM中每个transformer层中的文本区域注意力，即文本区域中的视觉token attention ratio。随后，模型会选择最强的文本区域注意力层），并将该层的信息与最终解码层的隐藏状态结合。具体而言，研究团队利用加权融合的方式在解码前将来自视觉对齐层的知识与全局信息结合，从而优化模型输出，既保留了语义信息，又减少了幻觉的产生。

图三 ZoomText示意图

语义幻觉，如何评估？｜TextHalu-Bench

现有的场景文本基准如 ST-VQA 和 TextVQA，虽然在推动多模态研究上发挥了重要作用，但它们的测试集大多集中于语义明确、视觉清晰的图像。这种设计让模型可以“猜语义”而非“看图像”，很难真实评估其视觉感知能力。

为此，研究团队提出了首个聚焦语义幻觉现象的基准测试集——TextHalu-Bench。

该基准集从 ICDAR2013、ICDAR2015、MSRA-TD500 等多个公开数据集中精心筛选标注出 1,730 个样本，刻意选择那些视觉模糊、语义不完整的“非语义文本”场景：孤立数字、未完成单词、生僻字符……这些正是模型最容易“脑补”的地方。

为了全面评估模型的能力，TextHalu-Bench设计了两个子任务：Spotting（从图像中提取文本）和Understanding（评估模型能否进行语义对齐）

同时，数据涵盖商业、工业、交通、公共设施、日常生活五大现实场景，贴近实际应用，全面衡量模型在真实世界中的视觉稳健性。

TextHalu-Bench 的出现，不仅首次为“语义幻觉”提供了量化评估标准，也为后续模型训练与优化提供了方向。

图三 TextHalu-Bench示意图

实验结果｜幻觉明显减少，多模态理解任务全面提升

在我们对七个场景文本基准的广泛实验中，得出了三大主要结论：

1.语义幻觉仍然是多模态大模型的重大挑战

在提出的TextHalu-Bench上，表现最好的专有模型GPT-4o仅取得45.3的F1分数。这一挑战主要来自两个方面：首先，场景文本的复杂性和多样性比文档OCR任务更具挑战性；其次，非语义文本需要依赖精确的视觉定位，而非语义先验，很多模型在这一点上仍存在严重的幻觉问题。

2.本工作提出的幻觉抑制方法有效提升模型性能

该方法在不同模型上带来了显著的性能提升。具体而言，Mini-Monkey和Qwen2.5-VL分别提高了4.1%和5.5%的F1分数，表明该策略有效地帮助模型在场景文本的识别和理解中更好地对齐视觉信息。。

3.本工作方法的泛化能力

除了TextHalu-Bench，该方法在多个公共视觉-语言基准上也表现出色。比如，Mini-Monkey在ST-VQA上提升了约4%的准确率，Qwen2.5-VL在SEED-Bench上提高了约3%。这些结果表明，该抑制方法具有广泛的通用性，有效增强了视觉对齐能力，而不会削弱模型其他能力。

表一本工作主要实验结论

展望｜语义幻觉，这一大盲点正逐渐浮出水面

研究团队首次系统揭示了其成因与表现，并提出了专为该现象设计的评估基准，填补了多模态理解中缺乏“反语言偏置”测试样本的空白。在此基础上，进一步设计了面向场景文本任务的幻觉抑制方法，可无缝集成进主流多模态大模型中，大幅提升其视觉对齐能力。

目前数据、方法与代码均已开源，希望能为更稳健、更可信的多模态系统建设提供助力，推动大模型从“会说”走向“看懂再说”。

#Deterministic Object Pose Confidence Region Estimation

6D位姿置信区间估计的直接法

本篇分享 ICCV 2025 论文Deterministic Object Pose Confidence Region Estimation，提出6D位姿置信区间估计的直接法。

论文链接：https://arxiv.org/abs/2506.22720

在自动驾驶、机器人操作、增强现实等安全关键领域，精确感知三维物体的位置和姿态（6D位姿）至关重要。然而，仅提供单一的最优位姿估计，在面对视觉模糊等情况时无法保证系统的可靠性，甚至可能引发灾难性后果。因此，对位姿估计进行不确定性量化，即提供一个能以特定概率包围真实位姿的“置信区间”，已成为学术界和工业界的前沿方向。

当前主流的置信区间估算方法严重依赖于随机采样，这一过程不仅计算效率低下，而且生成的置信区间往往过于宽泛（体积过大），极大地限制了其实际应用价值。为解决这些挑战，国防科技大学图像测量与视觉导航团队提出了一种高效的确定性6D位姿置信区间估计方法。

该方法摒弃了耗时的采样过程，首先通过神经网络直接回归关键点的概率分布，然后利用归纳保形预测（Inductive Conformal Prediction）将其校准为具有用户指定覆盖率的2D关键点置信区间。核心创新在于，团队借助隐函数定理（Implicit Function Theorem），将2D关键点置信区间确定性地、直接地传播到6D位姿空间，生成紧凑的椭球置信区间。

实验结果表明，该方法在保证相近的真实位姿覆盖率的前提下，推理速度提升超过33%，并且生成的置信区间体积大幅度缩小——旋转置信区间体积最多减小99.9%，平移置信区间体积最多减小99.8%。该工作为高可靠性、安全关键应用的落地提供了坚实的技术支撑。

Abstract

本文提出了一种位姿置信区间估计的直接法。对于用户，只需要自定义覆盖率，其后算法能生成以指定覆盖率覆盖位姿真值的6D位姿置信区间，并且能够输出紧凑的位姿置信区间。

本文的贡献与创新点如下：

提出了一种基于 ICP (归纳保形预测) 的方法来预测关键点置信区域，该方法依赖于对高斯关键点分布的确定性回归。
利用 IFT (隐函数定理)，将关键点置信区域直接传播到6D位姿中，同时保持了与采样方法相当的位姿覆盖率。
提出了全面的度量标准来评估估计出的位姿置信区域。

Method

本文提出的确定性位姿置信区间估计流程如图2所示，主要包含三个核心步骤。给定输入图像(a)，方法首先回归关键点的二维高斯分布(b)；随后通过归纳保形预测校准得到2D关键点置信区间(c)；最后，通过基于隐函数定理的确定性传播，高效地得到紧凑的6D位姿置信区间(d)。

图2

1. 确定性关键点回归 (Keypoint Deterministic Regression)

不同于计算和存储开销大的热力图方法，本文采用一种高效的回归模型，直接预测图像中每个语义关键点的二维高斯分布参数（均值和协方差矩阵）。这种方式直接对关键点位置的不确定性（Aleatoric Uncertainty）进行建模。

2. 归纳保形预测与置信区间校准 (Conformal Prediction & Calibration)

为了使预测的置信区间具有严格的统计保障，本文采用归纳保形预测（ICP）框架。该框架利用一个校准数据集，计算出一个非符合性分数阈值。对于新的测试图像，该阈值可以确保生成的2D关键点置信区间（一系列以预测均值为中心，以协方差和阈值为半径的圆形区域）能够以用户预先设定的概率（例如）覆盖所有真实的关键点位置。

3. 基于隐函数定理的确定性传播 (IFT-based Deterministic Propagation)

这是本文的核心创新。团队摒弃了传统的随机采样，利用隐函数定理（IFT）来解析PnP求解器中6D位姿（输出）相对于2D关键点（输入）的雅可比矩阵。这个雅可比矩阵建立起了输入和输出不确定性之间的映射关系。随后，根据不确定性传播理论，将2D关键点的协方差矩阵（代表2D置信区间）通过该雅可比矩阵，“确定性”地、直接传播为6D位姿的协方差矩阵。这个6D协方差矩阵最终定义了一个紧凑的椭球体，作为最终的旋转和位移置信区间。

此外，本文还提出了一套更完善的评估指标，不仅评估位姿精度和覆盖率，还首次将置信区间的体积作为关键衡量标准，以更全面地评价不确定性量化方法的性能。

Experiments

Main Results

表3给出了本文方法的位姿真值覆盖率和其它采样方法的对比。从表中可以发现，由于大幅降低置信区间体检，我们的方法覆盖率相对于采样方法会降低一些。此外，为了更全面的展示我们的方法的性能，我们计算了数据集置信区间体积：

表4给出了本文置信区间估计方法和其它采样方法的对比，我们设计了专门用于置信区间的评价指标（置信区间体积）。从表中可以发现，我们的方法作为一种无需采样的范式，其置信区间更紧凑。

可视化实验

此外，为了更全面的展示我们的方法的性能，我们进行了位姿置信区间的可视化：

如图3所示，我们展示了LMO数据集中本文方法二维关键点置信区间（第一列）和位姿置信区间（第二列表示旋转，第三列表示平移）和采样方法（第四列表示旋转，第五列表示平移）输出置信区间凸包。结果显示，本文方法可以输出更加紧凑的置信区间。

图7表示的是本文方法在SPEED数据集，输出的关键点置信区间和位姿置信区间。更多的实验结果和实验细节，欢迎阅读我们的论文原文以及补充材料。

#种子轮就估值120亿美元

她能打造另一个OpenAI吗？

据《金融时报》报道，OpenAI 前 CTO Mira Murati 的创业公司 Thinking Machines Lab 在一轮「种子轮融资」中成功募集了 20 亿美元，投后估值达到 120 亿美元，成为硅谷历史上规模最大的种子轮融资之一。

从「几百万」到「二十亿」

20 亿的种子轮投资是什么概念？让我们先从一个金融知识开始。

「种子轮融资」（Seed Round Funding）：创业初期，你有点子却缺资金。这时，你需要第一笔启动资金，这笔钱好比「种子」，用来孕育你的公司。它通常金额不大，但风险最高，因为公司仅有想法和团队，尚未推出产品或积累用户。

绝大多数 AI 初创企业早期融资只有几百万到几千万美元，即便是同为 OpenAI 的「校友」公司、如今 AI 巨头之一的 Anthropic，其第一轮正式融资也仅为 1.24 亿美元（2021 年 5 月）。20 亿甚至可以买下大半个 Windsurf 公司（核心技术加主要团队）。

这似乎颠覆了传统「创业」的定义。过去，一个颠覆性的想法在车库里就能诞生，几百万美元的种子轮足以让它发芽。

Google 的第一个办公地点车库。

可以预测，这笔钱的核心用途是构建一个在当今 AI 竞赛中缺一不可的「共生体」：顶尖的人才团队和支撑他们工作的海量算力。

此轮融资由知名风投公司 a16z 领投，芯片巨头 Nvidia 和 AMD 也位列投资者名单，这也许是 Thinking Machines Lab 不用在「算力荒」中挣扎的有力证据。

但这 20 亿不只是光环，也是悬在 Murati 头上的达摩克利斯之剑，投资者不是慈善家，他们投入天价赌注，要求的是超高回报。她必须在规定时间内拿出颠覆性成果，否则估值泡沫会瞬间破灭。

出走者的「新理想国」？

OpenAI 安全团队负责人 Jan Leike 在离职时公开发文，怒斥 OpenAI 及其领导层忽视「安全」而偏爱「光鲜亮丽的产品」。这几乎是公开宣告了公司内部「加速派」与「安全派」的决裂。详见xxx报道：《OpenAI 解散 Ilya 重要团队，前高管怒斥，宫斗第二季》。

Mira Murati 的离开和创业，也发生在 OpenAI 领导层「政变」风波之后。她的新公司，是否旨在建立一个她认为更理想的 AI 开发环境？

尽管 Thinking Machines Lab 成立不到一年，且对其具体研究内容高度保密，但 Murati 透露了公司未来的方向。她表示，公司正在构建「能以自然交互方式工作的多模态 AI——通过对话、视觉以及我们进行协作时那种略显混乱的真实方式」。

在 OpenAI 名字里还带着「Open」，却日益走向封闭的当下，Murati 明确提出产品将包含一个「开源组件」，对开发定制模型的研究人员和初创公司很有用。她还补充说，公司将分享其「最优秀的科学成果」以回馈研究社区。

不过有意思的是，Meta 作为开源社区的最大贡献者之一，近期却有转向开发闭源模型的传言。详见xxx报道《内部爆料：Alexandr Wang 上任第一把火，Meta 大模型闭源》。

另外不得不提的是同为「出走者」的 Ilya Sutskever，他在 2024 年 6 月宣布成立新公司 Safe Superintelligence Inc. (SSI)，其唯一目标就是安全地构建超级智能，不为产品和商业利润所动。

同样有 OpenAI 的光环，同样至今 0 产品，却似乎正在探索两条截然不同的道路。Ilya 走向了极致的、纯粹的「安全」，不问商业，而 Murati 似乎试图在理想与现实中找到平衡。

Thinking Machines Lab

其实 Thinking Machines Lab 这个名字也挺有意思的，字面意思就已相当清晰。另外还有猜测它是在致敬一家成立于 1980 年代的计算机公司 Thinking Machines Corporation，以其开发的高性能并行计算机闻名，曾在超级计算和人工智能领域具有开创性意义。

在激烈的人才争夺战中，Thinking Machines Lab 已经吸引了多位重量级人物，堪称「AI 梦之队」。详见xxx往期报道《最豪华大模型创业阵容！OpenAI 前 CTO 组建，翁荔、Schulman 等 ChatGPT 核心成员加盟》。

这其中最引人注目的成员，莫过于创始人 Mira Murati 本人，她在 AI 领域拥有卓越的履历。她在 OpenAI 曾负责 ChatGPT、Dall-E 等核心产品的开发，并在 2023 年 11 月的董事会风波中短暂担任临时首席执行官。此前，她还曾在特斯拉担任高级产品经理，参与了 Model X 的研发。

Mira Murati 在旧金山接受了《连线》与 Emily Chang 的采访。

另外，据媒体报道，近期在 AI 人才战中大获全胜的 Meta 公司也曾就收购 Thinking Machines Lab 进行过谈判，但最终未能进入正式报价阶段。

从近期的 AI 工程师天价「转会」风波，到 Thinking Machines Lab 20 亿的种子融资，我们可以看到 AI 在这个时代毫无争议的重要地位。

无论如何，大家对 Thinking Machines Lab 新产品的期待值已经拉满了。

参考链接：
https://www.wired.com/story/thinking-machines-lab-mira-murati-funding/https://www.ft.com/content/136c04f2-787b-4ec3-9e0e-11eda682d52fhttps://techcrunch.com/2025/07/15/mira-muratis-thinking-machines-lab-is-worth-12b-in-seed-round/

#ReliableMath

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳，导师为黄锦辉教授，目前在伦敦大学学院进行访问交流，他的研究方向包括可信大模型，模型不确定性，对话系统等，在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文，并长期在知乎写作大模型、机器学习等专栏文章，个人主页为：

https://amourwaltz.github.io

研究问题

面对无解问题最强模型也会束手无策？

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。

对于复杂的推理任务，一个可靠的模型应当在思考分析后，对可解问题给出正确答案，对不可解问题则指出无解；如果问题超出模型能力范围无法判断可解性，一个次优的选择就是拒答以避免误导用户，如上图（b）和（c）所示，这样回复才是可靠的，同时也能抑制幻觉发生。

近期由港中文和华为诺亚实验室联合提出的 ReliableMath 基准，旨在探究大模型推理任务的可靠性。该工作文章和数据集均已开源，并持续在 leaderboard 上更新最新模型结果，目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性测试结果，欢迎大家关注补充～

论文题目：ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models

论文作者：Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong

论文地址：https://arxiv.org/pdf/2507.03133

GitHub 地址：https://github.com/AmourWaltz/ReliableMath

数据集地址：https://huggingface.co/datasets/BeyondHsueh/ReliableMath

Leaderboard 地址：https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性评估准则

知之为知之，不知为不知，是知也

此前大模型可靠性的研究集中在知识任务上，探究是否知道某个知识，缺乏对更难的推理任务的探索。由于推理问题本身可能无解，并且问题可解性以及模型能否回答都需要经过推理才能得出，增加了研究挑战。

根据前文对推理任务可靠性的定义，本工作提出一套推理任务可靠性的评估准则，如下图所示，将问题分为可解（A）和不可解（U），将模型回复分为成功（S），拒答（R）和失败（F）。成功表示对可解问题匹配到正确答案或对不可解问题指出其无解，这是最好的情况；次优是拒答，即对可解和不可解问题都回复我不知道；其余回复均认为是失败。

分别使用精度（Prec.）和谨慎度（Prud.）来表示成功率和拒答率，评估可靠性时优先看精度，其次看谨慎度。

ReliableMath 数据集

首个高质量数学无解问题集

由于缺乏无解的数学问题，本文提出一个评估数学推理可靠性的数据集 ReliableMath，包含可解和不可解的问题。可解问题从当前开源数学问题集中收集，不可解问题通过对可解问题进行改写构造获得，改写方式有两种：删除必要数学条件或增加与已知条件矛盾的条件，如下图所示。

为了得到高质量的无解问题，本文提出一套完整的无解解问题构造流程，如下图所示，包含三步：1）通过对现有可解问题进行改写使其不可解；2）对改写问题使用模型验证，并过滤掉不合格的问题；3）对过滤数据再次进行人工验证评估问题是否无解，保留确实无解的问题，这样就得到了高质量的无解问题构成 ReliableMath 数据集。

ReliableMath 包含不同难度的数学任务，包括奥赛级的 AIME、AMC、Minerva、及高中级的 MATH。人工标注时，对判断问题无解的难度也进行了标注，对那些很容易判断出无解的，比如几何题缺失图片信息等，难度标为 0，而对于需要经过思考才能判断无解的，难度标为 1，数据统计可参考原文。

实验分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了实验，并指出以下几条关键发现：

对模型直接输入无解问题时（standard prompt），模型几乎不具备拒答或指出不可解的能力，可靠性极差；我们发现模型能注意到无解问题本身存在问题，但不敢承认其无解或拒答，反而是会不断地回溯、反思导致生成大量无意义的思考过程，直到截断或虚构一个答案，造成严重浪费和幻觉，损害了可靠性；
当在提示词中加入允许模型拒答或指出问题无解的指令后（reliable prompt），我们发现在可解问题上的可靠性变化不大，但大部分模型在不可解问题上可靠性有明显提升，尽管仍低于可解问题的可靠性，并且生成序列长度也有明显下降，说明使用 reliable prompt 可以在不损害可解问题性能的前提下，提高不可解问题的可靠性，并减少过度思考。
对较大的模型，使用 reliable prompt 后慢思考模型的可靠性普遍高于对应快思考模型，如 Deepseek-r1 vs. Deepseek-v3；而对于小模型，使用 reliable prompt 后慢思考模型在不可解问题上的可靠性仍然很差，并没有高于对应的快思考模型，如 Distill-7b vs. Qwen-7b，意味着小模型可靠性有进一步提升空间。
较简单的数学测试集的可靠性要高于较难的测试集的可靠性。

此外，本文也对 ReliableMath 数据集做了分析，下图（a）分别测试了使用移除必要条件和增加矛盾条件两种改写方式构造的问题的可靠性，结果表明移除条件构造的不可解问题可靠性偏低，这是因为模型倾向于假设缺失条件虚构答案。图（b）分别展示了不同难度的无解问题的可靠性，发现难度为 1 的不可解问题可靠性偏低，即这些问题需要模型经过推理才能发现问题无解，这种情况更难也符合预期，说明大模型与人类在识别问题无解难度的相关性是一致的，尽管人工评估难度存在主观性。