Skip to main content
research-analysis

概述

科学是人类迄今为止发明的最可靠的认知工具。从伽利略的望远镜到现代的随机对照实验,科学方法论帮助我们穿越偏见、直觉和噪声,接近事物的真相。 本页包含 10 个科学研究与批判性思维的完整 Skill 模板。每个 Skill 都基于经过验证的科学方法论和批判性思维理论,帮助你像科学家一样严谨地分析问题、评估证据、检验假说。将 [方括号] 中的内容替换为你的具体问题即可。
所有 Skill 均为中文编写,专为豆包优化。这些 Skill 不仅是分析工具,更是思维训练器——长期使用可以显著提升你的科学素养和批判性思维能力。

1. 科学方法论分析

来源与原理

理论来源: 卡尔·波普尔(Karl Popper)在《科学发现的逻辑》(The Logic of Scientific Discovery, 1934) 中系统阐述了科学方法的逻辑基础。科学方法论的标准流程——观察、假设、预测、实验、分析、结论——是人类认知世界最可靠的方法,从物理学到医学,从社会科学到工程实践,无不依赖这一循环。 核心思想:
  • 科学不是”证明真理”,而是”排除错误”
  • 科学方法的核心是可证伪性 — 一个理论必须能够被观察或实验推翻,才是科学的
  • 科学循环:观察现象 → 提出假设 → 做出可检验的预测 → 设计实验 → 收集数据分析 → 得出结论 → 新的观察
  • 关键原则:控制变量、可重复性、同行评审

适用场景

  • 分析日常生活中的”为什么”问题(如:为什么这个策略有效/无效?)
  • 评估商业决策时,用实验思维替代直觉判断
  • 解决技术问题时,系统排查原因而非随机尝试
  • 教育和学习中,用科学方法验证学习策略的有效性
  • 政策讨论中,区分经过验证的结论和未经检验的假设

完整 Skill 模板

请你作为一位严谨的科学方法论专家,帮我用标准的科学方法来分析以下问题。不要给我直觉判断或经验之谈,而是引导我像科学家一样系统地探究真相。

【待分析问题】:[在这里填入你想用科学方法分析的问题,例如:为什么我们团队最近三个月的项目交付总是延期?]

请严格按照科学方法的六个步骤进行分析:

## 第一步:系统观察 — 收集现象和数据
在提出任何解释之前,先彻底观察和记录现象:
- 具体发生了什么?用尽可能精确的语言描述观察到的现象。
- 这个现象的频率、强度、持续时间如何?有没有可量化的数据?
- 这个现象在什么条件下出现?什么条件下不出现?
- 有没有相关但容易被忽略的伴随现象?
- 其他观察者看到的是否和你一致?有没有观察者偏差?
- 列出至少 8-10 个观察到的事实,区分"确定的事实"和"推测"。

## 第二步:提出假设 — 构建可检验的解释
基于观察到的事实,提出多个可能的假设(解释):
- 提出至少 4-5 个不同的假设来解释观察到的现象。
- 每个假设需要满足以下标准:
  - **具体性**:假设足够具体,而非模糊的泛泛之谈
  - **可检验性**:假设能够通过收集数据或做实验来验证或推翻
  - **可证伪性**:必须能说出"如果观察到X,则这个假设就被推翻"
  - **解释力**:假设能解释所有(或大部分)已观察到的事实
- 列出每个假设的前提条件和适用范围。
- 标注哪个假设是你当前最倾向的,以及为什么——但提醒自己警惕确认偏误。

## 第三步:做出预测 — 如果假设成立,应该观察到什么?
对每个假设,推导出可检验的具体预测:
- 如果假设 A 成立,我们应该观察到什么现象?不应该观察到什么?
- 如果假设 B 成立,预测结果和假设 A 有什么不同?
- 找到能区分不同假设的"关键预测"——即如果某个结果出现,可以同时支持一个假设并排除另一个。
- 预测应尽量具体和可量化(如"如果假设成立,指标 X 应该在 Y 范围内")。

## 第四步:设计实验/验证方案 — 如何检验这些预测?
为每个关键预测设计验证方案:
- 需要收集什么数据?通过什么方式收集?
- 如何控制变量?——改变一个因素的同时保持其他因素不变。
- 需要多大的样本量才能得出可靠结论?
- 如何避免常见的实验偏差?(选择偏差、观察者偏差、安慰剂效应等)
- 实验/验证的成本和时间估算是什么?
- 有没有更简单或更快速的"先导实验"可以先做?

## 第五步:分析证据 — 数据说了什么?
基于已有的数据和证据(或假设实验已完成)进行分析:
- 现有数据支持哪些假设?反对哪些假设?
- 证据的强度如何?是强证据还是弱证据?
- 有没有与所有假设都不符的"异常数据"?这些异常意味着什么?
- 用"证据支持度"对各假设排序。
- 数据是否可能有其他解释?有没有混淆变量未被考虑?

## 第六步:得出结论并识别局限性
- 基于以上分析,最可能的解释是什么?置信度有多高?
- 这个结论的适用范围和边界条件是什么?
- 分析中最大的局限性是什么?(数据不足、样本偏差、无法控制的变量等)
- 还需要什么额外的证据才能进一步确认或推翻这个结论?
- 如果要让一个怀疑者信服,最需要补充什么证据?
- 下一步应该做什么?

请在整个分析过程中保持科学家的态度:对数据忠诚,对假设怀疑,对结论谦虚。

使用示例

请你作为一位严谨的科学方法论专家,帮我用标准的科学方法来分析以下问题:【待分析问题】:我每天喝三杯咖啡,最近睡眠质量明显下降,是咖啡导致的吗?

2. 因果推断框架

来源与原理

理论来源: 朱迪亚·珀尔(Judea Pearl),图灵奖得主,在《为什么:关于因果关系的新科学》(The Book of Why, 2018) 中提出了因果推断的系统框架。珀尔将因果推理分为三个层次——“因果阶梯”(Ladder of Causation),彻底改变了我们理解因果关系的方式。 核心思想:
  • 因果阶梯三层
    • 第一层 — 观察(Seeing):“当我看到X时,Y的概率是多少?” — 这只是相关性
    • 第二层 — 干预(Doing):“如果我主动改变X,Y会怎样?” — 这才是因果性
    • 第三层 — 反事实(Imagining):“如果当时X没有发生,Y会怎样?” — 最高层次的因果推理
  • 相关不等于因果:冰淇淋销量和溺水人数正相关,但冰淇淋不导致溺水(共同原因是高温)
  • 混淆变量:隐藏的第三方变量可能同时影响原因和结果
  • 辛普森悖论:整体数据显示的趋势在分组后可能完全逆转

适用场景

  • 商业决策:区分”做了A之后B变好了”和”做了A导致B变好了”
  • 健康分析:评估某种生活方式是否真的影响健康
  • 政策评估:判断一项政策是否真正产生了预期效果
  • 日常判断:避免将巧合误认为因果
  • 投资分析:识别真正的因果关系而非虚假相关

完整 Skill 模板

请你作为一位因果推断专家,运用朱迪亚·珀尔的因果推断框架,帮我严格分析以下现象中的因果关系。我需要你帮我区分"看起来相关"和"真正存在因果"。

【待分析因果关系】:[在这里填入你想检验的因果关系,例如:远程办公是否导致了团队协作效率下降?]

请严格按照以下步骤进行因果推断分析:

## 第一步:明确因果声明
将待分析的关系精确表述为因果声明:
- **原因(X)**:具体是什么?如何精确定义和测量?
- **结果(Y)**:具体是什么?如何精确定义和测量?
- **因果声明**:X 导致了 Y(用精确语言表述)
- **时间顺序**:X 是否确实发生在 Y 之前?时间顺序是否清晰?
- **这个声明是谁提出的?基于什么证据?**

## 第二步:因果阶梯分析
用珀尔的因果阶梯三层来审视这个关系:

### 第一层 — 观察层(相关性)
- X 和 Y 之间是否存在统计相关性?相关的方向和强度如何?
- 这种相关性在不同群体、不同时间、不同条件下是否一致?
- 仅凭观察到的相关性,我们能确定因果关系吗?为什么不能?

### 第二层 — 干预层(因果性)
- 如果我们主动改变 X(而不是被动观察),Y 会怎样变化?
- 有没有随机对照实验(RCT)的证据?如果没有,能否设计一个?
- 有没有"自然实验"——现实中恰好出现了类似随机分配的情况?
- 如果无法做实验,有没有准实验方法可以近似推断因果?(如双重差分法、断点回归等)

### 第三层 — 反事实层
- 如果 X 没有发生,Y 还会发生吗?
- 在那些 X 没有发生的对照组/类似案例中,Y 的表现如何?
- 反事实推理中,你需要做哪些关键假设?这些假设合理吗?

## 第三步:混淆变量排查
系统排查可能存在的混淆变量:
- 画出因果关系图:X → Y 之间有没有其他变量 Z 同时影响 X 和 Y?
- 列出至少 5 个可能的混淆变量,对每个变量分析:
  - 它如何影响 X?
  - 它如何影响 Y?
  - 如果控制了这个变量,X 和 Y 的关系还存在吗?
- 有没有可能存在"反向因果"——实际上是 Y 导致了 X?
- 有没有可能 X 和 Y 都是某个共同原因 Z 的结果?

## 第四步:辛普森悖论检查
- 如果将数据按某个关键变量分组,整体趋势是否会逆转?
- 哪些分组维度最可能导致辛普森悖论?
- 分组后的数据和整体数据哪个更可信?为什么?
- 有没有"生态学谬误"——用群体数据推断个体行为?

## 第五步:替代解释评估
除了"X 导致 Y"之外,还有哪些替代解释?
- **纯粹巧合**:这只是随机波动吗?概率有多大?
- **反向因果**:Y 导致了 X?
- **共同原因**:X 和 Y 都是 Z 的结果?
- **中介变量**:X 通过 M 间接影响 Y?真正的原因是 M 而非 X?
- **选择偏差**:我们观察到的样本本身就不具有代表性?
- 对每个替代解释,用现有证据评估其可信度。

## 第六步:因果结论与置信度
- 综合以上分析,X 和 Y 之间的关系最可能是什么?
  - 直接因果 / 间接因果 / 相关但非因果 / 反向因果 / 证据不足无法判断
- 你对这个结论的置信度有多高?(用百分比表示)
- 还需要什么额外证据才能提高置信度?
- 基于目前的因果判断,你的行动建议是什么?
- 如果因果判断是错误的,行动的风险有多大?

请在分析中始终牢记珀尔的核心提醒:从数据中读出因果关系是一种推理行为,而非观察行为。

使用示例

【待分析因果关系】:阅读量大的孩子成绩是否更好?即:大量阅读是否导致了学业成绩提升?

3. 论证谬误检测器

来源与原理

理论来源: 逻辑谬误的系统研究可追溯到亚里士多德的《诡辩式反驳》(Sophistical Refutations)。现代系统化的整理见于摩尔和帕克的《批判性思维》(Critical Thinking, 12th Edition) 以及道格拉斯·沃尔顿(Douglas Walton)的《非形式逻辑》(Informal Logic, 1989)。这些教材总结了人类论证中反复出现的 100+ 种逻辑错误模式。 核心思想:
  • 逻辑谬误是”看起来有说服力但实际上推理有缺陷”的论证模式
  • 谬误之所以危险,恰恰因为它们很有说服力——如果容易识别就不会有人犯了
  • 识别谬误不等于否定结论——一个论证有谬误不代表结论一定错,只代表论证过程不成立
  • 常见谬误分类:形式谬误(推理结构有误)、非形式谬误(内容或语境有误)

适用场景

  • 阅读新闻/文章时,识别其中的论证漏洞
  • 讨论/辩论中,识别对方(和自己)的逻辑错误
  • 评估广告、营销文案中的说服技巧
  • 写作时自检论证的严密性
  • 审核商业计划书或提案中的逻辑链条

完整 Skill 模板

请你作为一位逻辑学和批判性思维专家,帮我对以下文本/论述进行严格的逻辑谬误检测。你的任务是像一位严谨的逻辑审计师一样,找出论证中所有的推理缺陷。

【待检测文本/论述】:[在这里粘贴你想检测的文本、论述或论点,例如一段新闻评论、一个商业提案的核心论证、或一段网上的辩论]

请按照以下步骤进行系统化的谬误检测:

## 第一步:论证结构还原
在检测谬误之前,先梳理出论述的逻辑结构:
- **核心结论**:作者想要证明什么?用一句话概括。
- **主要论据**:作者用了哪些论据来支持结论?逐条列出。
- **推理链条**:从论据到结论的推理步骤是什么?
- **隐含前提**:有哪些未明说但必须成立的前提?
- 用"因为P1、P2、P3,所以C"的格式重构论证。

## 第二步:逐一检测常见逻辑谬误
对照以下 15 种常见逻辑谬误清单,逐一检查论述中是否存在:

### 与论证结构相关的谬误
1. **稻草人谬误(Straw Man)**:是否歪曲了对方的观点,然后攻击这个被歪曲的版本?
2. **循环论证(Begging the Question)**:论据是否预设了结论的成立?即用结论来证明结论?
3. **虚假二分法(False Dilemma)**:是否把复杂问题简化为非此即彼的两个选项,忽略了其他可能?
4. **滑坡谬误(Slippery Slope)**:是否不合理地假设一个小行动必然导致一连串极端后果?
5. **不当类比(False Analogy)**:所使用的类比在关键方面是否不成立?

### 与证据相关的谬误
6. **诉诸权威(Appeal to Authority)**:是否用权威人士的话代替实际证据?该权威是否在相关领域?
7. **诉诸无知(Appeal to Ignorance)**:是否因为"无法证明不存在"就认为"存在"?
8. **轶事证据(Anecdotal Evidence)**:是否用个别案例代替统计数据和系统性证据?
9. **樱桃采摘(Cherry Picking)**:是否只选择支持自己观点的证据,忽略反面证据?
10. **以偏概全(Hasty Generalization)**:是否从太少的案例得出太宽泛的结论?

### 与论证手法相关的谬误
11. **人身攻击(Ad Hominem)**:是否不回应论点本身,而是攻击提出论点的人?
12. **诉诸情感(Appeal to Emotion)**:是否用情感操纵代替理性论证?
13. **诉诸传统/大众(Appeal to Tradition/Popularity)**:是否因为"大家都这么做"或"一直都这样"就认为正确?
14. **红鲱鱼(Red Herring)**:是否引入不相关的话题来转移注意力?
15. **移动门柱(Moving the Goalposts)**:当论证被反驳时,是否悄悄改变了原始主张?

## 第三步:谬误严重性评估
对发现的每个谬误,评估其影响:

| 谬误类型 | 出现位置 | 原文引用 | 严重程度 | 对核心论证的影响 |
|---------|---------|---------|---------|----------------|
| [谬误名称] | [第几段/哪句话] | [相关原文] | 致命/严重/轻微 | [是否动摇核心结论] |

- **致命谬误**:如果这个谬误成立,整个论证就崩塌
- **严重谬误**:显著削弱论证力度,但不完全摧毁
- **轻微谬误**:有逻辑瑕疵,但不影响核心论点

## 第四步:论证修复建议
对于每个发现的谬误,给出修复建议:
- 如何用更严谨的论证替代有谬误的论证?
- 需要补充什么证据才能弥补这个逻辑漏洞?
- 如果无法修复,是否需要放弃或修改结论?

## 第五步:综合评估
- 这段论述的整体逻辑质量评分(1-10分)。
- 论述中最强的论证环节是什么?
- 最薄弱的环节是什么?
- 去掉所有有谬误的论据后,剩余的论据还能支撑结论吗?
- 一个公正的评判者会被这个论证说服吗?为什么?

请注意:发现论证有谬误并不意味着结论一定是错的。一个结论可能是正确的,只是论证的方式有问题。请区分"结论是否正确"和"论证是否有效"。

使用示例

【待检测文本/论述】:“现在的年轻人越来越不努力了。我爸那一代人每天工作12小时,从来不抱怨。你看现在的年轻人,动不动就说’职场PUA’、‘工作生活平衡’。一个不愿意吃苦的民族是没有未来的。日本经济就是因为年轻人躺平才衰退的。”

4. 反事实思维

来源与原理

理论来源: 反事实思维(Counterfactual Thinking)的系统研究始于丹尼尔·卡尼曼(Daniel Kahneman)和阿莫斯·特沃斯基(Amos Tversky)在 1982 年发表的开创性论文。菲利普·泰特洛克(Philip Tetlock)在《超预测》(Superforecasting, 2015) 中进一步将反事实分析发展为提升预测能力的核心工具。历史学家尼尔·弗格森(Niall Ferguson)在《虚拟的历史》(Virtual History, 1997) 中也系统探讨了反事实推理在历史分析中的价值。 核心思想:
  • 反事实思维:思考”如果当时做了不同的选择,结果会怎样?”
  • 上行反事实:“如果当时做得更好……” — 帮助学习和改进
  • 下行反事实:“如果当时做得更差……” — 帮助感恩和评估风险
  • 事后诸葛亮陷阱(后见之明偏误):知道结果后觉得一切”显而易见”,但当时并非如此
  • 泰特洛克的核心洞察:顶级预测者的共同特质之一就是善于进行严格的反事实分析

适用场景

  • 项目复盘:分析如果做了不同决策,结果是否会不同
  • 历史分析:评估历史事件的必然性和偶然性
  • 战略推演:评估”如果竞争对手/市场环境不同”的情景
  • 个人反思:从过去的决策中提取真正的教训(而非虚假教训)
  • 风险评估:理解哪些”差点就发生”的风险

完整 Skill 模板

请你作为一位精通反事实推理的分析专家,帮我对以下事件/决策进行严格的反事实分析。帮我避免"事后诸葛亮"的陷阱,真正理解什么是必然发生的、什么是偶然的、什么教训是真实的。

【待分析事件/决策】:[在这里填入你想进行反事实分析的事件、决策或历史节点,例如:我三年前放弃了加入某创业公司的机会,那家公司后来上市了]

请按照以下步骤进行严格的反事实分析:

## 第一步:还原决策时的真实情境
在进行反事实推理之前,必须先排除后见之明偏误:
- 决策发生的时间点是什么?当时的背景是什么?
- 在那个时间点,你掌握的信息是什么?不知道的信息是什么?
- 列出决策时可选的方案有哪些?
- 当时选择这个方案的理由是什么?这个理由在当时是否合理?
- 当时对各种结果的预期概率分别是多少?(注意:不要用现在知道的结果来修改当时的预期)
- 当时是否有合理的理由做出不同的选择?还是当时的选择在信息范围内是最优的?

## 第二步:构建反事实情景
系统地构建"如果当时不同"的平行世界:

### 上行反事实 — "如果做了更好的选择"
- 反事实情景 A:如果当时选择了 [替代方案],最可能发生什么?
- 注意:不要只想象最好的结果。列出该替代方案下的多种可能结果及其概率:
  - 最好的情况(概率 ___%):[描述]
  - 较好的情况(概率 ___%):[描述]
  - 一般的情况(概率 ___%):[描述]
  - 较差的情况(概率 ___%):[描述]
  - 最坏的情况(概率 ___%):[描述]

### 下行反事实 — "如果情况更糟"
- 反事实情景 B:如果当时遇到了更不利的情况,会怎样?
- 有哪些"差一点就发生"的坏结果?
- 当时有哪些风险是你回避了的(也许是无意中回避的)?

## 第三步:关键变量敏感性分析
在反事实情景中,识别哪些是"关键转折点":
- 如果改变变量 A,结果会大幅改变吗?——这是关键变量
- 如果改变变量 B,结果基本不变吗?——这不是关键变量
- 哪些是你能控制的关键变量?哪些是运气/环境决定的?
- 结果中有多大比例取决于个人决策?多大比例取决于外部运气?
- 画一个"决策树",标注每个分叉点的概率:

决策点 ├── 选择 A(实际选择) │ ├── 如果环境好(50%)→ 结果 A1 │ └── 如果环境差(50%)→ 结果 A2 └── 选择 B(反事实) ├── 如果环境好(50%)→ 结果 B1 └── 如果环境差(50%)→ 结果 B2

## 第四步:后见之明偏误校正
严格检查你的反事实分析是否受到后见之明偏误的污染:
- 你现在知道的结果,在当时真的"应该预见到"吗?
- 有没有把"小概率事件恰好发生"误认为"这是必然结果"?
- 如果当时的决策以60%的概率导致好结果但运气不好遇到了40%的坏结果,是决策错了还是运气差了?
- 反过来,如果当时的决策以30%的概率导致好结果但运气好成功了,这算"正确的决策"吗?
- 核心问题:**决策质量和结果质量是两回事**。一个好的决策可能导致坏的结果(运气差),一个坏的决策也可能导致好的结果(运气好)。

## 第五步:提取真实教训(而非虚假教训)
基于以上反事实分析:
- **真实教训**(可迁移到未来类似情境的认知):
  - 从决策过程中学到了什么?(而非从结果中)
  - 信息收集、分析框架、决策速度方面有什么改进空间?
  - 有哪些系统性偏误影响了判断?
- **虚假教训**(看起来像教训但实际是后见之明的"发现"):
  - 哪些"教训"只有在知道结果后才能得出?
  - 哪些"教训"不具备可迁移性——只适用于这个特定案例?
- **关于运气的认知**:
  - 在这个事件中,运气成分占了多大比重?
  - 如何区分"好的决策+坏运气"和"坏的决策+好运气"?

## 第六步:前瞻性应用
- 从这次反事实分析中,提炼出可以应用到未来决策的原则。
- 未来面临类似决策时,你会有什么不同的做法?
- 如何在日常决策中减少后见之明偏误的影响?

使用示例

【待分析事件/决策】:2020年初新冠疫情刚爆发时,我把所有股票都卖了,后来市场V型反弹,我错过了一年50%的涨幅。

5. 可证伪性检验

来源与原理

理论来源: 卡尔·波普尔(Karl Popper)在《猜想与反驳》(Conjectures and Refutations, 1963) 中提出了可证伪性(Falsifiability)原则,这是区分科学与非科学的核心标准。波普尔指出,一个理论如果不能被任何可能的观察或实验推翻,它就不是科学理论——不管它听起来多么有道理。 核心思想:
  • 可证伪性:一个科学理论必须能够明确指出”如果观察到X,则该理论就被推翻”
  • 确认偏误的危险:人们倾向于寻找支持自己观点的证据,而忽视反面证据。波普尔认为,我们应该主动寻找可能推翻理论的证据
  • 黑天鹅问题:无论你观察到多少只白天鹅,也不能证明”所有天鹅都是白色的”——但只需要一只黑天鹅就能推翻这个理论
  • 伪科学的特征:无论发生什么都能”解释”、永远不可能被证伪、信徒只关注支持证据
  • “可证伪”不等于”已被证伪” — 可证伪性是理论品质的标志,不是缺陷

适用场景

  • 评估一个观点/理论是否有科学依据
  • 识别伪科学、阴谋论、迷信思维
  • 在商业中检验假设是否真的被”验证”了
  • 个人信念审计:检查自己深信不疑的观点是否经得起检验
  • 学术研究中评估研究假说的质量

完整 Skill 模板

请你作为一位科学哲学专家,运用卡尔·波普尔的可证伪性原则,帮我严格检验以下理论/观点/信念是否符合科学思维的标准。

【待检验的理论/观点】:[在这里填入你想检验的理论、观点或信念,例如:"性格决定命运" / "XXX疗法可以治愈一切慢性病" / "我们公司的成功完全归功于企业文化"]

请按照以下步骤进行可证伪性检验:

## 第一步:精确表述待检验的理论
首先,将这个理论/观点用尽可能精确的语言重新表述:
- 原始表述是什么?
- 精确表述:将模糊的表述转化为清晰、具体、可检验的命题。
  - 主语是什么?(谁/什么?)
  - 谓语是什么?(做了什么/是什么?)
  - 条件是什么?(在什么情况下?)
  - 范围是什么?(所有情况还是特定情况?)
- 这个理论的核心预测是什么?它预测了什么会发生、什么不会发生?

## 第二步:可证伪性检验 — 核心测试
回答这个关键问题:**什么样的证据或观察结果,如果出现,就可以推翻这个理论?**

- 你能具体描述至少 3 种可能推翻该理论的情况吗?
  - 反例 1:如果观察到 ___,则该理论被推翻。
  - 反例 2:如果观察到 ___,则该理论被推翻。
  - 反例 3:如果观察到 ___,则该理论被推翻。
- 这些反例在现实中是否有可能被观察到?
- 理论的支持者是否接受这些反例?还是他们会对任何反例都"重新解释"?

### 可证伪性评级:
- **高可证伪性**(科学品质高):能明确指出多种可能推翻它的观察
- **中可证伪性**:原则上可以推翻,但很难设计具体的检验方案
- **低/零可证伪性**(伪科学警告):无论发生什么都能自圆其说

## 第三步:确认偏误检测
检查围绕这个理论是否存在确认偏误:
- 支持者通常引用什么样的证据?这些证据经得起审视吗?
- 有没有被忽视的反面证据?
- 当出现反例时,支持者如何处理?
  - 是否用"特设假说"(ad hoc hypothesis)来解释反例?即不断添加新的例外来保护核心理论
  - 是否转移话题或攻击质疑者?
  - 是否承认反例的存在并修正理论?
- 你自己在评估这个理论时,是否也有确认偏误?你是带着支持/反对的预设在分析吗?

## 第四步:与已知科学知识的一致性
- 这个理论与已知的、经过充分验证的科学知识一致吗?
- 如果不一致,它需要推翻多少已确立的科学结论?
- 非凡的声明需要非凡的证据——这个理论提供了足够非凡的证据吗?
- 有没有更简单的解释可以解释同样的现象?(奥卡姆剃刀)

## 第五步:证据质量审计
对支持该理论的证据进行质量审计:

| 证据 | 证据类型 | 质量等级 | 是否经过独立验证 | 是否有替代解释 |
|------|---------|---------|---------------|--------------|
| 证据1 | [个案/统计/实验/专家意见] | [高/中/低] | [是/否] | [是/否] |
| 证据2 | ... | ... | ... | ... |

证据等级参考(从高到低):
- 系统综述/元分析
- 随机对照实验
- 队列研究/观察研究
- 案例研究
- 专家意见
- 个人轶事

## 第六步:最终裁定
基于以上分析,给出最终评估:
- 这个理论的科学性评级:
  - 科学理论(高可证伪性,有充分证据支持)
  - 合理假说(可证伪,但证据尚不充分)
  - 不可检验的哲学/价值观(非科学,但不意味着无价值)
  - 伪科学(声称是科学但不可证伪,或已被证伪但拒绝承认)
- 如果你目前持有这个信念,你应该以什么样的"置信度"持有它?
- 你应该主动寻找什么样的证据来进一步检验这个信念?

使用示例

【待检验的理论/观点】:“吸引力法则”——只要你内心真正渴望某件事,宇宙就会帮你实现它。

6. 统计思维纠偏

来源与原理

理论来源: 达莱尔·赫夫(Darrell Huff)在《统计数据会说谎》(How to Lie with Statistics, 1954) 中用通俗语言揭示了统计数据被误用的方式。纳西姆·塔勒布(Nassim Nicholas Taleb)在《随机漫步的傻瓜》(Fooled by Randomness, 2001) 中深入探讨了人类对概率和随机性的系统性误判。丹尼尔·卡尼曼的《思考,快与慢》也大量涉及统计直觉的缺陷。 核心思想:
  • 幸存者偏差(Survivorship Bias):我们只看到了成功者,看不到大量的失败者
  • 基准率忽视(Base Rate Neglect):忽略事件的基础概率,被生动个案影响
  • 回归均值(Regression to the Mean):极端表现之后通常会回到平均水平
  • 小样本谬误(Law of Small Numbers):从太少的数据中得出太强的结论
  • 辛普森悖论(Simpson’s Paradox):整体数据的趋势在分组后可能完全逆转
  • 相关性错觉:人类大脑天生会在随机数据中”发现”不存在的模式

适用场景

  • 阅读新闻/报告中的统计数据时,识别误导
  • 商业决策中避免被数据表象欺骗
  • 健康信息评估:正确理解医学统计数据
  • 投资分析:避免对随机波动做过度解读
  • 日常生活中提升概率直觉的准确性

完整 Skill 模板

请你作为一位统计思维纠偏专家,帮我检测以下信息/数据/结论中可能存在的统计思维错误。人类的统计直觉出了名地不靠谱,我需要你帮我做一次系统的"统计体检"。

【待检测的信息/数据/结论】:[在这里填入你想检测的统计数据、结论或信息,例如:"某成功学课程声称学员平均收入提升了200%" / "我连续三天打车都遇到堵车,这条路一定有问题" / 任何包含数据的新闻报道]

请按照以下统计思维偏误清单逐一排查:

## 第一步:信息还原与基本审查
在检测偏误之前,先梳理基本信息:
- 这个数据/结论的来源是什么?来源可信吗?
- 样本量是多少?样本是如何选取的?
- 数据是什么时间段的?时间范围是否合理?
- 用了什么统计指标?(平均数、中位数、百分比、增长率?)
- 有没有给出置信区间或误差范围?
- 原始数据是否可获取和可验证?

## 第二步:七大统计思维偏误逐一排查

### 1. 幸存者偏差检查
- 数据中是否只包含了"幸存者"(成功者/存活者/留下来的人)?
- 那些"没有幸存"的个体(失败者/退出者/沉默者)去哪了?他们的数据为什么被排除?
- 如果把这些消失的个体加回来,结论还成立吗?
- 典型问题:"成功企业家都辍学了"——你没看到辍学后失败的那些人。

### 2. 基准率忽视检查
- 这个事件的基准概率(base rate)是多少?
- 结论是否忽视了基准率而被特殊案例所吸引?
- 如果考虑基准率,结论会改变吗?
- 例:"某检测准确率99%,结果阳性"——如果疾病发生率只有0.1%,阳性的真实患病概率其实只有约9%。

### 3. 回归均值检查
- 当前的数据点是否处于异常高/低的状态?
- 所谓的"改善"或"恶化"是否只是自然回归到均值?
- 有没有对照组来区分"干预效果"和"自然回归"?
- 例:最差成绩的学生下次考试通常会进步——不是因为惩罚有效,而是因为回归均值。

### 4. 小样本谬误检查
- 样本量是否足够大以支撑如此强的结论?
- 如果换一个样本,结论还成立吗?
- 有没有"大数定律"的提醒——小样本的波动性远大于大样本?
- 例:连续抛硬币出现5次正面不说明硬币有问题——样本太小。

### 5. 辛普森悖论检查
- 如果将数据按某个关键变量(性别、年龄、地区等)分组,整体趋势是否会逆转?
- 数据的分组方式是否合理?有没有遗漏关键的分组维度?
- 整体数据和分组数据矛盾时,哪个更可信?
- 例:某药物整体看有效,但分性别看男女都无效——辛普森悖论。

### 6. 樱桃采摘与数据操纵检查
- 数据的起止时间是否被精心选择以展示某种趋势?
- 是否只展示了有利的数据而隐藏了不利的数据?
- 坐标轴的刻度是否被操纵以夸大趋势?
- 是否使用了误导性的图表类型?
- 是否混淆了绝对数字和相对百分比?("增长200%"vs"从1个变成3个")

### 7. 相关性错觉检查
- 所谓的"相关性"是否来自随机噪声?
- 如果做足够多次的数据挖掘,发现"显著相关"的概率有多大?(多重比较问题)
- 有没有做过假设检验和p值校正?
- 相关系数的实际大小是多少?统计显著不等于实际重要。

## 第三步:缺失数据追问
- 有什么数据是应该展示但没有展示的?
- 有没有"沉默的证据"——那些不会主动进入你视野的信息?
- 如果你是反方,你会要求提供什么额外数据来检验这个结论?

## 第四步:正确的统计解读
- 去除偏误后,这个数据/信息的正确解读应该是什么?
- 有没有更恰当的统计指标来衡量同一个问题?
- 如果要做出可靠的结论,还需要什么额外数据?

## 第五步:纠偏总结
| 检测项目 | 是否存在 | 严重程度 | 对结论的影响 |
|---------|---------|---------|------------|
| 幸存者偏差 | 是/否/不确定 | 高/中/低 | [说明] |
| 基准率忽视 | 是/否/不确定 | 高/中/低 | [说明] |
| 回归均值 | 是/否/不确定 | 高/中/低 | [说明] |
| 小样本谬误 | 是/否/不确定 | 高/中/低 | [说明] |
| 辛普森悖论 | 是/否/不确定 | 高/中/低 | [说明] |
| 樱桃采摘 | 是/否/不确定 | 高/中/低 | [说明] |
| 相关性错觉 | 是/否/不确定 | 高/中/低 | [说明] |

- 纠偏后的正确结论是什么?
- 对原始结论的可信度评分(1-10)。

使用示例

【待检测的信息/数据/结论】:某自媒体文章称:“哈佛大学研究发现,每天冥想10分钟的人,收入比不冥想的人高出40%。所以冥想可以让你更有钱。”

7. 范式转换分析

来源与原理

理论来源: 托马斯·库恩(Thomas Kuhn)在《科学革命的结构》(The Structure of Scientific Revolutions, 1962) 中提出了”范式”(Paradigm)和”范式转换”(Paradigm Shift)的概念。这本书被认为是 20 世纪最重要的科学哲学著作之一,“范式转换”一词已进入日常语言。 核心思想:
  • 常规科学(Normal Science):在既定范式内解谜,大多数时候科学就是这样运作的
  • 异常(Anomaly):常规科学中出现范式无法解释的现象
  • 危机(Crisis):异常积累到一定程度,引发对范式的怀疑
  • 科学革命(Revolution):旧范式被新范式替代——如牛顿力学 → 相对论
  • 范式不可比性(Incommensurability):新旧范式之间不能简单比较,因为它们看世界的方式根本不同
  • 不是所有”革命”都是范式转换:真正的范式转换改变的是整个问题框架和世界观,而非仅仅是一个新答案

适用场景

  • 判断某个行业是否正在经历根本性变革
  • 评估一项新技术的颠覆性潜力
  • 理解为什么既有巨头总是在范式转换中被淘汰
  • 个人知识更新:识别自己需要”换套操作系统”的领域
  • 投资分析:区分”渐进式改良”和”颠覆式革命”

完整 Skill 模板

请你作为一位精通科学哲学和技术变革理论的分析专家,运用托马斯·库恩的范式转换理论,帮我分析以下领域是否正在经历(或即将经历)一次范式转换。

【待分析领域/趋势】:[在这里填入你想分析的领域或趋势,例如:人工智能对教育行业的影响 / 电动汽车对交通系统的影响 / 远程办公对企业管理的影响]

请按照库恩的范式转换框架进行分析:

## 第一步:描述当前的主流范式
首先,清晰定义当前领域的"常规范式":
- 这个领域当前的主流"世界观"是什么?即大多数从业者共享的基本假设和信念。
- 主流范式下的核心实践和方法论是什么?
- 主流范式下的成功标准是什么?什么被认为是"好的"?
- 这个范式是什么时候确立的?经历了怎样的发展历程?
- 当前范式的教科书、权威机构、核心人物分别是什么/谁?
- 这个范式最大的优势和成就是什么?

## 第二步:识别异常现象(Anomalies)
在当前范式下,有哪些"用现有框架解释不了"的现象?
- 列出至少 5-8 个当前范式无法很好解释或解决的问题。
- 这些异常是最近才出现的,还是长期存在但一直被忽视的?
- 主流从业者如何应对这些异常?
  - 忽视("这不重要")?
  - 修补("在现有框架中加个补丁")?
  - 承认("我们需要新的方法")?
- 这些异常在数量和严重性上是否在增加?
- 有没有某个异常是"致命的"——即它根本不可能在当前范式内被解决?

## 第三步:危机信号检测
评估当前范式是否进入"危机阶段":

### 危机指标清单
- [ ] 核心假设开始被质疑(学术界或实践界)
- [ ] 修补性假说越来越多、越来越复杂("托勒密式打补丁")
- [ ] 年轻一代从业者对现有范式不满
- [ ] 跨界者(来自其他领域的人)提出根本不同的方法
- [ ] 资本和人才开始流向替代方案
- [ ] 出现了标志性的"失败案例"——老范式的方法彻底失效
- [ ] 关于"第一原则"的争论增多
- [ ] 行业会议上"变革"成为热门话题

匹配的指标越多,范式危机的可能性越大。

## 第四步:新范式识别
是否有一个新的范式正在形成?
- 新范式的核心世界观/基本假设是什么?与旧范式有什么根本区别?
- 新范式能解释旧范式无法解释的异常吗?
- 新范式是否创造了全新的问题框架?(不只是回答旧问题,而是提出新问题)
- 新范式的早期采用者和倡导者是谁?
- 新范式的支持证据有多强?是否已经有成功的实践案例?
- 新范式有没有自己的弱点和局限?它无法解释什么?

## 第五步:范式转换障碍分析
为什么旧范式不会轻易消亡?
- **认知惯性**:从业者在旧范式中投入了多少学习成本和职业资本?
- **制度惯性**:现有的组织架构、法规、标准是否围绕旧范式建立?
- **经济惯性**:旧范式的受益者有多大的动力和能力来阻止变革?
- **心理惯性**:人们对旧范式有多大的情感依附?
- 库恩的警告:范式转换往往不是旧范式的支持者被说服,而是"他们退出了舞台,新一代人从一开始就接受了新范式"。

## 第六步:预测与建议
- 这个领域是否真的在经历范式转换?还是只是范式内的"渐进式改良"?
- 如果是范式转换,目前处于哪个阶段?(异常积累 / 危机爆发 / 新范式涌现 / 转换完成)
- 范式转换的时间线预估:5年内/10年内/20年以上?
- 对个人/组织的建议:
  - 如果你在旧范式中,应该如何应对?
  - 如果你想拥抱新范式,应该从哪里开始?
  - 如何在转换期保持灵活性?
  - 最大的风险是什么——过早跳到新范式 vs 过晚离开旧范式?

使用示例

【待分析领域/趋势】:大语言模型(如 GPT、豆包)对软件开发行业的影响

8. 溯因推理

来源与原理

理论来源: 查尔斯·皮尔士(Charles Sanders Peirce, 1839-1914),美国哲学家和逻辑学家,提出了”溯因推理”(Abduction)的概念。皮尔士认为,除了演绎(从一般到特殊)和归纳(从特殊到一般),还存在第三种推理方式——溯因推理(从观察到的结果推断最佳解释)。这也是福尔摩斯式推理的逻辑基础。 核心思想:
  • 演绎推理:所有人都会死 + 苏格拉底是人 → 苏格拉底会死(保真但不产生新知识)
  • 归纳推理:观察到100只乌鸦都是黑色 → 所有乌鸦都是黑色(扩展知识但不保真)
  • 溯因推理:地面是湿的 → 最佳解释是”下过雨”(从结果推断原因,寻找最佳解释)
  • 溯因推理是日常推理的主力:医生看到症状推断疾病、侦探看到证据推断嫌疑人、工程师看到故障推断原因
  • “最佳解释”的标准:简洁性、解释力、与已知知识的一致性、可检验性

适用场景

  • 故障排查:从症状推断根本原因
  • 市场洞察:从消费者行为推断真实需求
  • 事件分析:从已知的结果推断可能的原因链
  • 战略判断:从竞争对手的行为推断其战略意图
  • 日常推理:任何需要”从证据推断解释”的场景

完整 Skill 模板

请你作为一位精通溯因推理的分析专家,帮我像侦探一样从已知的证据和现象出发,推断出最佳解释。不要凭直觉猜测,而是用系统化的溯因推理方法。

【已观察到的现象/证据】:[在这里描述你观察到的现象、症状或证据,例如:我们的电商平台上周三的订单量突然下降了40%,但访问量没有明显变化]

请按照以下溯因推理步骤进行分析:

## 第一步:全面收集和梳理证据
在推断之前,先把所有"线索"摆在桌面上:
- 核心现象:精确描述观察到的主要现象,尽量量化。
- 伴随现象:有没有同时出现的其他变化或异常?
- 时间线:现象是什么时候开始的?是突然发生还是逐渐变化?
- 范围:现象是全局性的还是局部性的?(所有用户还是部分用户?所有产品还是部分产品?)
- "狗没叫"线索:有什么"应该发生但没有发生"的事情?(沉默的证据往往是重要的线索)
- 区分事实和推测:哪些是确认的事实?哪些是他人的描述?哪些是你的推测?

## 第二步:生成候选解释
基于证据,用"创造性思维"生成尽可能多的候选解释:
- 提出至少 6-8 个可能的解释(不要自我审查,先求数量)。
- 包括"显而易见的解释"和"不太可能但不能排除的解释"。
- 对每个解释,用一句话说明:如果这个解释成立,它如何解释所有已知的证据?
- 有没有"组合解释"——即多个原因共同作用?

## 第三步:评估每个解释的"最佳解释"得分
用以下标准对每个候选解释评分(每项1-5分):

| 候选解释 | 解释力 | 简洁性 | 一致性 | 可检验性 | 先验概率 | 总分 |
|---------|-------|-------|-------|---------|---------|------|
| 解释1 | [1-5] | [1-5] | [1-5] | [1-5] | [1-5] | [/25] |
| 解释2 | [1-5] | [1-5] | [1-5] | [1-5] | [1-5] | [/25] |
| ... | ... | ... | ... | ... | ... | ... |

评分标准:
- **解释力**:它能解释所有已知证据吗?有没有证据它无法解释?
- **简洁性**:它需要多少个假设?(假设越少越好——奥卡姆剃刀)
- **一致性**:它与已知知识和背景信息一致吗?
- **可检验性**:它做出了什么可检验的预测?
- **先验概率**:在没有这些具体证据之前,这种情况发生的概率有多大?

## 第四步:关键检验 — 区分竞争性解释
对排名前 3 的候选解释,设计"关键检验":
- 什么证据能同时支持解释 A 但排除解释 B?
- 什么证据能同时支持解释 B 但排除解释 A?
- 有没有"决定性证据"——一旦发现就能锁定唯一解释?
- 检验的成本和难度如何?建议的检验优先级?

## 第五步:推理链条可视化
用推理链条图展示从证据到最佳解释的逻辑路径:

证据1 ──┐ 证据2 ──┤ 证据3 ──┼──→ 推断A ──→ 进一步推断B ──→ 最终解释 证据4 ──┤ “狗没叫” ─┘

标注每个推理步骤的置信度:
- 高置信度:证据直接且充分
- 中置信度:证据间接但一致
- 低置信度:推测成分较多

## 第六步:最终结论
- 最佳解释是什么?置信度有多高?
- 次佳解释是什么?在什么情况下它可能取代最佳解释?
- 还需要什么额外信息来确认或推翻最佳解释?
- 基于最佳解释,建议的行动是什么?
- 如果最佳解释被证明是错误的,Plan B 是什么?

使用示例

【已观察到的现象/证据】:我家的一棵养了三年的绿萝突然开始叶子发黄,近两周枯了一大半。其他植物没有问题。最近没有换位置,浇水频率也没变。

9. 系统综述方法

来源与原理

理论来源: 系统综述(Systematic Review)方法源自循证医学(Evidence-Based Medicine)运动,由阿奇·科克伦(Archie Cochrane)在 1970 年代倡导,后来发展为 Cochrane 系统综述标准。Cochrane 协作网每年发布数千篇系统综述,是全球医学决策的”黄金标准”。这一方法论后来被扩展到教育、社会科学、政策分析等众多领域。 核心思想:
  • 单一研究的结论往往不可靠(样本小、可能有偏差、可能是偶然结果)
  • 系统综述通过”系统搜索 → 严格筛选 → 质量评估 → 综合分析”的流程,整合所有相关研究的证据
  • 证据等级金字塔(从高到低):系统综述/元分析 > 随机对照实验 > 队列研究 > 病例对照研究 > 案例报告 > 专家意见
  • 核心原则:全面性(不遗漏)、系统性(有标准)、透明性(可重复)

适用场景

  • 对某个争议话题做全面的证据梳理
  • 在信息过载时做出有循证依据的决策
  • 写研究报告或深度分析文章
  • 评估某种方法/产品/策略的有效性
  • 在多种矛盾信息面前找到最可靠的结论

完整 Skill 模板

请你作为一位循证研究方法论专家,帮我对以下主题进行一次小型的"系统综述"。虽然我们无法做到学术级别的完整系统综述,但我希望你用系统综述的方法论精神,对现有证据进行尽可能全面和严谨的梳理。

【综述主题】:[在这里填入你想系统综述的问题,例如:间歇性断食对减重和健康的效果 / 远程办公对生产力的影响 / 早期教育对儿童长期发展的效果]

请按照以下系统综述标准流程进行:

## 第一步:明确综述问题(PICO框架)
用 PICO 框架精确定义综述问题:
- **P(Population)— 人群/对象**:研究对象是谁/什么?
- **I(Intervention)— 干预/因素**:研究的干预措施或影响因素是什么?
- **C(Comparison)— 对照**:与什么进行比较?
- **O(Outcome)— 结果**:关注的结局指标是什么?
- 用一句话表述完整的综述问题。
- 明确纳入标准和排除标准:什么样的证据会被考虑?什么不被考虑?

## 第二步:系统搜索证据
基于你的知识,系统梳理与这个问题相关的所有主要证据来源:

### 高质量证据
- 有没有已发表的系统综述或元分析?结论是什么?
- 有没有大型随机对照实验(RCT)?关键发现是什么?
- 有没有大型队列研究或长期追踪研究?

### 中等质量证据
- 有哪些重要的观察性研究?
- 有没有来自权威机构(WHO、NIH、各国卫生部等)的指南或共识?

### 低质量但可参考的证据
- 有哪些案例研究或专家意见?
- 有哪些来自行业实践的经验数据?

### 证据地图
| 证据来源 | 证据类型 | 主要发现 | 证据等级 | 样本量 |
|---------|---------|---------|---------|-------|
| [来源1] | [RCT/观察/综述等] | [关键结论] | [高/中/低] | [N=?] |
| [来源2] | ... | ... | ... | ... |

## 第三步:证据质量评估
对每条主要证据进行质量评估:
- **内部效度**:研究设计是否严谨?有没有偏倚风险?(选择偏倚、测量偏倚、失访偏倚等)
- **外部效度**:研究结果是否可推广?样本是否有代表性?
- **一致性**:不同研究的结论是否一致?如果不一致,可能的原因是什么?
- **精确性**:效应量的置信区间有多宽?
- **发表偏倚**:有没有可能存在阳性结果更容易被发表的偏倚?

## 第四步:综合分析
将所有证据综合在一起:

### 证据一致的方面
- 大多数研究都支持的结论是什么?
- 这些一致性结论的置信度有多高?

### 证据矛盾的方面
- 不同研究给出矛盾结论的领域有哪些?
- 矛盾可能的原因是什么?(研究人群不同?方法不同?随访时间不同?)
- 如何调和这些矛盾?

### 证据不足的方面
- 哪些重要问题目前缺乏足够的研究?
- 这些知识空白对我们的决策有什么影响?

## 第五步:证据等级总结
用 GRADE 方法(推荐分级的评估、制定与评价系统)或类似框架,对每个关键结论给出证据等级:

| 关键结论 | 证据等级 | 置信度 | 说明 |
|---------|---------|-------|------|
| 结论1 | 高/中/低/极低 | [说明] | [支持和限制因素] |
| 结论2 | ... | ... | ... |

## 第六步:结论与建议
- **确定的结论**:有充分证据支持的、可以有信心的结论。
- **可能的结论**:有一定证据支持,但需要更多研究确认的结论。
- **不确定的领域**:证据不足,无法得出结论的方面。
- **实践建议**:基于目前最佳可用证据,推荐的行动是什么?
- **未来关注**:需要关注什么新研究来更新这些结论?

请在综述中保持"证据说了什么就报告什么"的态度,不要让个人偏好影响证据的解读。

使用示例

【综述主题】:冷水浴/冰浴对运动恢复和健康的效果

10. 预测校准训练

来源与原理

理论来源: 菲利普·泰特洛克(Philip Tetlock)在《超预测》(Superforecasting: The Art and Science of Prediction, 2015) 中,基于”良好判断计划”(Good Judgment Project)——一项涉及数万名预测者、历时多年的大规模研究——总结了”超级预测者”(superforecasters)的核心特质和方法。这些普通人在地缘政治预测中击败了拥有机密情报的 CIA 分析师。 核心思想:
  • 超级预测者的共同特质:谦逊、好奇、数字敏感、善于更新信念、思维灵活、有自我批评精神
  • 概率校准(Calibration):当你说”70%概率”时,这件事应该在 70% 的情况下发生。大多数人的概率估计是严重失准的
  • 费米估算(Fermi Estimation):将大问题分解为可估算的小问题,逐步逼近答案
  • 信念更新:像贝叶斯推理一样,随着新信息的出现不断调整预测
  • 蜻蜓眼视角:综合多个信息源和多种视角,而非依赖单一视角
  • 区分能力的关键:不是”是否预测对了”,而是”概率估计是否校准”

适用场景

  • 提升日常预测的准确性(天气、项目工期、市场趋势)
  • 在不确定环境中做出更好的决策
  • 训练概率思维,替代”非黑即白”的二元判断
  • 战略规划中的情景预测
  • 投资决策中的概率估算

完整 Skill 模板

请你作为一位"超级预测"训练教练,运用菲利普·泰特洛克在《超预测》中总结的方法论,帮我对以下问题进行严格的预测分析和概率校准训练。

【预测问题】:[在这里填入你想预测的具体问题,例如:未来12个月内,OpenAI 是否会发布一个能通过图灵测试的AI系统?]

请按照超级预测者的方法论进行:

## 第一步:问题分解与精确化
超级预测者的第一步是确保问题足够精确:
- 将模糊问题转化为精确的、可验证的预测问题。
- 明确定义关键术语(避免歧义)。
- 设定明确的时间范围和判定标准。
- 问题是否可以分解为多个子问题?如果可以,列出子问题。
- 最终的精确版本:"在 [时间范围] 内,[具体事件] 发生的概率是多少?"

## 第二步:外部基准(Outside View)— 费米估算
先用"外部视角"估算基准概率,避免被内部细节影响:
- **参考类别**:这类事件在历史上的基准概率是多少?
  - 找到可参考的"参考类别"(Reference Class)
  - 该类别中类似事件的发生频率是多少?
- **费米估算**:将问题分解为可估算的子问题:
  - 子问题 A 的估计值是 ___(依据:___)
  - 子问题 B 的估计值是 ___(依据:___)
  - 子问题 C 的估计值是 ___(依据:___)
  - 综合计算得到初始估计:___%
- 这个基准概率就是你的"锚点"——后续分析在此基础上调整。

## 第三步:内部分析(Inside View)— 具体因素
现在用"内部视角"分析这个特定案例的具体因素:

### 提高概率的因素(正向调整)
| 因素 | 为什么它提高概率 | 调整幅度 |
|------|---------------|---------|
| 因素1 | [理由] | +___% |
| 因素2 | [理由] | +___% |
| ... | ... | ... |

### 降低概率的因素(负向调整)
| 因素 | 为什么它降低概率 | 调整幅度 |
|------|---------------|---------|
| 因素1 | [理由] | -___% |
| 因素2 | [理由] | -___% |
| ... | ... | ... |

注意:每次调整都不应过大。泰特洛克发现,超级预测者的典型调整幅度是 5-15 个百分点,而非大幅跳跃。

## 第四步:综合概率估计
- 基准概率(外部视角):___%
- 正向调整合计:+___%
- 负向调整合计:-___%
- **当前最佳估计:___%**

### 置信度检查
- 这个概率估计的不确定性有多大?给出一个范围(如 30-50%)
- 有什么关键的"未知的未知"可能完全改变这个估计?
- 如果你被迫在这个估计上下注,你愿意下多大的赌注?(这是检验真实信心的好方法)

## 第五步:预判关键信号和更新触发器
列出未来可能出现的关键信号及其影响:

| 可能出现的新信号 | 如果出现,概率更新为 | 如果不出现,概率更新为 |
|----------------|-------------------|---------------------|
| 信号A | ___% | ___% |
| 信号B | ___% | ___% |
| 信号C | ___% | ___% |

- 设定定期检查点:每隔多长时间重新评估一次?
- 什么情况下需要紧急重新评估?

## 第六步:预测后分析框架
为了日后复盘和校准,记录以下信息:
- 预测日期:___
- 预测问题:___
- 概率估计:___%
- 关键依据(前3条):
  1. ___
  2. ___
  3. ___
- 最大的不确定性来源:___
- 下次检查日期:___

## 第七步:校准练习 — 元认知检查
对你自己的预测能力进行元认知检查:
- 你在类似问题上的历史预测准确度如何?
- 你的典型偏误是什么——过度自信还是不够自信?
- 你更容易高估还是低估极端事件的概率?
- 有没有"情感因素"在影响你的概率估计?(你希望某个结果发生,就不自觉地高估了它的概率?)
- 如果让一个完全理性、没有情感偏好的人来估计,他的概率会和你一样吗?

记住泰特洛克的核心发现:最好的预测者不是最聪明的人,而是最善于校准自己信心水平、最愿意根据新证据修改判断的人。

使用示例

【预测问题】:未来2年内,中国一线城市的房价会下跌超过20%吗?

快速选择指南

不确定该用哪个科学思维工具?参考以下表格:
你的需求推荐工具一句话说明
用科学方法系统分析问题科学方法论分析观察→假设→实验→结论的标准流程
判断两件事是否有因果关系因果推断框架相关不等于因果,用珀尔三层框架检验
检测论述中的逻辑漏洞论证谬误检测器15种常见谬误逐一排查
分析”如果当时不同”会怎样反事实思维严格的反事实推理,避免事后诸葛亮
检验一个观点是否科学可证伪性检验波普尔标准:能被推翻才是科学
识别数据和统计中的陷阱统计思维纠偏七大统计偏误系统排查
判断行业是否正在被颠覆范式转换分析库恩框架:异常→危机→革命
从证据推断最佳解释溯因推理像侦探一样从线索推断真相
对一个话题做全面证据梳理系统综述方法循证方法论的简化版系统综述
提升预测准确度预测校准训练超级预测者的概率校准方法
组合使用建议: 科学思维工具之间可以强力组合。例如,先用”系统综述方法”梳理某领域的证据全景,再用”因果推断框架”检验其中的因果关系,用”统计思维纠偏”排查数据陷阱,最后用”预测校准训练”对未来趋势做出概率估计。这种多层次的科学分析流程,能产生远超单一工具的洞察深度和结论可靠性。