8  案例:AI 解读 Wing (2024)

本章以 Wing et al. (2024) 的论文为例,介绍如何使用 AI 工具来解读论文。

与 ChatGPT 的对话过程:点击查看

此前,我也用豆包帮我读过这篇论文,参见 豆包对话过程

8.1 泛聊并形成大纲

我把 Wing et al. (2024) 的论文上传到 ChatGPT,并编写了如下提示词:

提示词 1:泛聊

#论文解读:

> Wing, C., Yozwiak, M., Hollingsworth, A., Freedman, S., & Simon, K. (2024). Designing Difference-in-Difference Studies with Staggered Treatment Adoption: Key Concepts and Practical Guidelines.  
Annual Review of Public Health, 45(1), 485–505.  
[Link](https://doi.org/10.1146/annurev-publhealth-061022-050825).

我想写一篇论文推介,介绍这篇论文。

你帮我列个提纲。包括如下要点:

  1. 论文的核心观点和主要结论是什么?
  2. 文中介绍了哪些主要方法 (参见 Table 1)?
  3. 作者提供了哪些实操建议?参见 Section 5

ChatGPT 的回答简明扼要,基本上抓住了这篇论文的要点。让我有点惊喜的是,它居然还贴心地列了一个表格,把文中提到的五种方法对应的 Stata 和 R 实现命令也总结好了。

回复 1:ChatGPT 首轮回答

## 1. 论文的核心观点与主要结论

  • 核心问题:传统 DID 在处理“分期处理”(staggered adoption)时会面临严重的混淆偏误(confounding),尤其是在存在时间异质性处理效应的情况下。

  • 关键结论

    • 两大核心理念:

      1. 复杂 DID = 简单 2×2 DID 的加权平均,理解这一点有助于解析 TWFE 存在哪些“坏的比较”;
      2. 干净的控制组(clean controls)设计是避免偏误的关键。
    • TWFE 估计量存在混杂:它不仅包括“treated vs untreated”,还包括“late vs early”这种有偏比较;

    • 推荐使用的新方法(如 stacked DID 和 Callaway & Sant’Anna 方法)能更清楚地识别组 × 时间的异质性效应,并给出更可信的平均处理效应。

## 2. 文中介绍的主要方法(Table 1)

方法 软件支持 输出内容 优点 注意事项
Stacked DID STATA/R 通用实现 加总或 event study 图 保证干净控制组;结构直观 权重不透明;标准误需聚类
Callaway & Sant’Anna (2021) did (R), csdid (Stata) 所有 ATT(a, t),可自定义加权 明确估计每个 group × time 效应 稍复杂;推荐用包
Gardner (2022) Did2s (R) 加总效应或 event study 利用未处理组构建双重残差 加权等权,需理解设计
Sun & Abraham (2020) eventstudyinteract event study 图 区分 group × period 的处理异质性 无法处理时间变化协变量
Wooldridge (2022) 回归可实现 ATT(a, t),加总 ATT 可以纳入时间变协变量 无专门包
de Chaisemartin & D’Haultfoeuille (2020) did_multiplegt 单一加总效应 利用“状态切换”识别处理效应 假设较强,解释为首次变化效应

## 3. 作者提供的实操建议(Section 5)

作者提出了 6 条实用建议,帮助研究者在实际操作中避免偏误和提升估计质量:

  1. 明确定义研究问题:是否目标是估计长期效应?平均效应?还是事件时间上的动态路径?
  2. 数据准备中避免混淆比较:识别每个组的处理时间,排除已经处理过的“污染对照组”。
  3. 慎用 TWFE 回归:除非确认处理效应恒定,否则应避免直接使用。
  4. 优先使用 event-study 构建组 × 时间 ATT:推荐 Callaway & Sant’Anna 或 stacked DID 实现。
  5. 合理使用协变量调整:特别是时间不变协变量,可用于强化并行趋势假设。
  6. 图形化展示 ATT 路径和 pre-trend 检验:通过 event-study 图来验证 no anticipation 和 common trends 假设。

如需将其撰写为一篇推文文章或教学讲义,我可以按结构扩写每节内容,并添加图例说明和代码演示。是否继续?

我担心自己遗漏重要内容,便追问:

提示词 2:补充内容

除了我提供的三个要点,你认为这篇论文推介海英包含哪些要点?

ChatGPT 认为需要再补充三个要点:

回复 2:ChatGPT 补充回答

很好的问题。在你已指定的三个要点基础上(核心观点、主要方法、实操建议),为了使这篇论文推介更系统、完整、适合教学与学术传播用途,我建议增加以下 3 个要点,一共构成 6 个板块的完整推介结构:


## 4. 样例设计与图形直观解释(Section 2)

  • 推荐加入理由:作者构造了一个关于磺胺药物(sulfa drugs)分期推出的模拟案例,并通过图形展示了不同组别(早期、中期、晚期、未处理)在 mortality 变化上的差异。 ……

## 5. 异质性与 TWFE 偏误的来源与后果(Section 3.5)

  • 推荐加入理由:该部分系统总结了 TWFE 偏误的数学机制(由 Goodman-Bacon 提出),是该领域的核心争议之一。 ……

## 6. 软件与实操实现建议(Section 4.3, Table 1)

  • 推荐加入理由:Table 1 对当前主流 DID 实现方法做了清晰对比,有利于读者选择合适的工具。 ……
  • 建议用途:可以补充一个附录,提供 R 和 Stata 用户分别应如何使用这些方法(如 csdiddid_multiplegteventstudyinteract 等)。

8.2 总结:建议的论文推介结构(共 6 节)

  1. 论文核心观点与主要贡献(What and Why)
  2. 主流估计方法与适用情境(Table 1)
  3. 作者的实操建议与方法选择(Section 5)
  4. 教学案例与图形展示(sulfa drugs 模拟实验)
  5. TWFE 的偏误与异质性陷阱(Goodman-Bacon decomposition)
  6. 软件工具与实证操作建议(含软件包、命令、标准误估计等)

虽然我对这个结构比较满意,但我担心 AI 写东西太过教条,或者过于简略。于是,我设定了读者的角色、他们的知识背景,并征询 AI 对篇幅的看法。

提示词 3:细化提纲

如果想写一篇适合初学者,主要是博士生和青年老师,他们的理论基础有些薄弱,希望能能通过通俗的语言,简明扼要的数学公式了解文中提到的各种方法的要点、适用场景和结果的解释方法。
我应该如何安排这篇论文的结构和篇幅,每个部分大概多少字?

回复 3:ChatGPT 列出的细化提纲

非常好的设问。

我建议这篇文章安排为如下 7 个部分,总篇幅建议控制在 8000–10,000 字左右(中文字符),既适合长推文,也便于改写为课程讲义或公众号文章。


## 拟定结构与篇幅建议

序号 模块标题 内容要点 建议字数
1 导言:分期处理的 DID 为什么值得关注? - 现实案例(如政策滚动式推出)
- TWFE 的流行与质疑
- 本文阅读指南与学习目标
600–800
2 直觉解释:DID 的本质与“分期处理”的陷阱 - 用简单例子解释 2×2 DID 的逻辑
- Goodman-Bacon decomposition 的直觉化说明(配图)
- “坏的比较”如何引入偏误
1000–1500
3 最常用的几种估计方法:思想、公式与适用场景 - 逐一介绍以下方法:
a. TWFE(回顾)
b. Stacked DID
c. Callaway & Sant’Anna (csdid)
d. Sun & Abraham
e. Gardner (did2s)
f. de Chaisemartin & D’Haultfoeuille
- 每种方法配一句话直觉、一组简要公式、一个适用场景
3000–3500
4 一个教学例子:sulfa drugs 与死亡率(图 + 模拟) - 作者构建的模拟示例介绍
- 图 1 与图 2 解读:每组死亡率的变化逻辑;哪些 DID 比较是有偏的
800–1000
5 推荐的分析策略:设计、估计与解释的 checklist - Section 5 的总结
- 6 条建议的通俗表达与应用建议
- 表格呈现每条建议与推荐方法
800–1000
6 结果解读技巧:估计量、ATT、Event Study 的含义 - 估计的 ATT 是哪个?
- 如何理解组 × 时间的动态路径?
- 如何做稳健性分析(pre-trend)?
600–800
7 附录:软件实现对照表与入门路径推荐 - R 与 Stata 的软件包对应
- 推荐教程、代码仓库(如作者的 GitHub)
- 延伸阅读(几篇核心综述文献)
600–800

……

如你愿意,我可基于该结构逐一撰写每一节,并配合教学/推文风格的 markdown 文稿。是否开始撰写第一节?或者是否要我提供一个样板段落?

看到这个提纲后,我意识到,我这篇推介应该重点强调「实操建议」,这是读者最关心的内容。为此,我编写了如下提示词:

提示词 4:局部修正

这篇推文的主要目的是给读者提供一些实操建议,因此,各个 section 的内容尽量循序渐进,确保各个模型的介绍与 Section 5 中的实操建议能有机衔接,让读者看完这篇推介后能上手应用到自己的论文中。

AI 对提纲你进行了调整,并给出了一个更为详细的结构 (详情参见原始对话),受限于篇幅,这里进列出它的提供的总结:

回复 5:ChatGPT 进一步细化写作提纲

非常好,我已理解你的目标:这篇推文不仅是综述,更是实践指南,要让初学者「看得懂、用得上、写得进论文」。基于这个要求,我对之前的结构做了进一步优化,以实现 从直觉启发 → 方法入门 → 模拟案例 → 实操建议 的自然过渡,并确保每个方法介绍最终都能在 Section 5 实操建议中找到落地应用。

8.3 撰写论文推介正文

接下来的工作就很简单了:按照上面的提纲,逐步撰写每个部分的内容。

此时,建议明确说明对正文的撰写要求。比如,是否需要使用教学风格的语言,是否需要配合图表,是否需要提供代码示例等。

下面是我经过长时间打磨形成的一个比较稳定的提示词:

提示词 6:撰写正文

按照 {优化后的推文结构(强调“实操衔接”)} 的结构来写,每个 section 输出一次。
字数严格按照计划执行,不要缩减。

格式要求:

  1. 按照 ## 1. sec_title; ### 1.1 sub_sec_title 的方式编号 ;每个 section 添加一个标签 {lab-sec#},便于后续修改时定位
  2. 语言风格:中文讲义,20 年从教的老教授的风格,语言平和,准确,有力
  3. 不要使用任何表情符号
  4. 重要文献和链接务必在文中 提供超链接,文末提供完整的引文信息
  5. 引文信息尽量使用如下格式,如果 PDF 链接无法获取,可以留空或删除 [-PDF-]() 部分的信息 引文信息采用 APA 格式,附加 [Link](), [PDF](), [Google](), [github]() 信息。即: Authors. ({Year}). {title_of_paper}, 45(1), 485–505. [Link](https://doi.org/{DOI}), [PDF](http://sci-hub.ren/{DOI}), [Google](<{title_of_paper}>), [github-replication](https://github.com/{ID}/{rep_name})
  6. 文中的例子最好具体化,并保持全文一致,逐步推进和扩展。

细心的读者可能会注意到,我在提示词的第一行,用比较严肃的语气写到「字数严格按照计划执行,不要缩减。」。这是因为,有些 AI 工具经常会「偷工减料」。虽然到目前我还没有完全搞清楚背后的原因,但大体上应该有如下可能:由于内存的限制,多数 AI 工具只能记住最近的 1-2 个对话的内容;此外,也有可能某些参数的设定,使之倾向于提供较为简洁的回答。为了避免这种情况,我在提示词中明确要求它严格按照计划的字数来输出结果。

8.4 最终文稿

ChatGPT 输出的 Section 1 的内容基本符合我的要求。然后他开始输出 Section 2 的内容,并询问我是否需要继续输出。我给出了如下提示词,然后陪儿子去楼下散步 (回来后就可以收割所有输出结果了)。

提示词 6:连续输出

继续输出所有 sections,无需停顿

👉 点击查看 最终成稿。