11 如何借助 AI 寻找工具变量?
11.1 简介
内生性是因果推断中最关键的问题,在处理内生性问题的方法中,工具变量是最常用的方法之一。但寻找有效的,还要满足排他性限制 (exclusion restrictions) 的工具变量,主要依赖于作者的说理论证,这一过程对写作者的说理能力和创造力的要求是很高的。因此,本文提出利用大型语言模型 (LLMs) 来辅助发现新的工具变量。
在最近的一篇论文中,Han (2024) 提出了一个基于 LLMs 的工具变量搜索方法,称为 FindIt-IV。该方法通过与 LLMs 的交互,帮助研究者在特定的论文情景下快速找到潜在的工具变量。
- Han, S. (2024). Mining Causality: AI-Assisted Search for Instrumental Variables (Version 3). arXiv. Link (rep), PDF, Google。
作者认为,使用大语言模型搜索工具变量有如下好处:
- 在特殊的论文情景下,实现快速搜索工具变量;
- 与大语言模型互动,可以在自己的研究领域发现更多新的工具变量;
- 利用大语言模型系统搜索工具变量,可以提高获取多个工具变量的可能性,有助于研究者通过过度识别检验来验证多工具变量的有效性;
- 利用大语言模型找到更多的工具变量,有助于研究者提高给 IV 找到合适数据的机会,或者指导研究者通过其他算法或者实验找到工具变量所需的数据。
作者在原文中,根据工具变量需要满足的一系列假设,为读者提供了利用大语言模型搜索工具变量可操作的方法和提示词。在最后,本推文也展示了一个中文顶刊中的文献情景,利用大语言模型为这篇文章搜索更多工具变量的案例。
中山大学的张弛同学使用该文的思路,分析了一篇中文顶刊文章,利用大语言模型为这篇文章搜索更多的工具变量。详情参见:张弛, 2025, 找不到IV?如何借助大语言模型寻找工具变量。
下面,我介绍我最近在做的一篇文章是如何借助 AI 寻找工具变量的。
我要研究的问题是:政府引导基金能否降低产业链上的长鞭效应。解释变量是一个虚拟变量,如果一家公司受到了政府引导基金的资助,对应的数值取 1,否则的话取 0。背景式变量是文献里面常用的用来衡量产业链上长边效应的指标。
模型设定如下:
\[ Y = \beta_0 + \beta_1 D + \beta_2 X + \varepsilon_i \]
11.2 对话思路
完整讨论过程:ChatGPT
简要介绍了我的问题背景,询问 AI 我研究的问题中是存在哪些可能的内生性问题;
让 AI 帮我分析这些内生性问题的可能来源,并分析机制;
询问「遗漏变量」偏误应该如何应对?
聚焦到 IV 上,让 AI 提供 5 个备选的 IV,并论证其合理性 (相关性、外生性和排他性);
逐一论证每个 IV 的合理性 (从外生性、相关性和排他性三个角度分析),并给出可能的后门路径;
模型设定:为了关闭后门路径,询问 AI 我需要控制哪些变量;
可行性:询问 AI 工具变量的具体定义,数据来源等;
让 AI 对所有 IV 进行综合评价,给出推荐的 IV。
11.3 主要提示词
完整讨论过程:ChatGPT
Prompt 01:
我正在做一篇实证分析的文章。我研究的问题是政府引导基金能否降低产业链上的长鞭效应。解释变量是一个虚拟变量,如果一家公司受到了政府引导基金的资助,对应的数值取1,否则的话取0。背景式变量是文献里面常用的用来衡量产业链上长边效应的指标。我研究的这个问题是否存在一些潜在的内生性的问题,有哪几种可能的来源?
Prompt 02:
对于 2. 遗漏变量 (Omitted Variable Bias),我有哪些可以采用的实证研究方法?
Prompt 03:
能否具体讨论一下,在我的研究背景下,可能遗漏了哪些重要的变量?遗漏问题如何影响我的统计推断?
Prompt 04:
如果我想采用 IV 估计,能否提供 5 个备选的 IV,并论证其合理性 (相关性、外生性和排他性)。最好有明确的理论和文献依据。
Prompt 05:
如果使用 「地方政府财政压力 (比如,用地方政府财政赤字率或债务水平来衡量)」作为 IV 是否可以?
Prompt 06:
财政压力是否会通过其他渠道影响长鞭效应?这些变量是否需要控制?
Prompt 07:
你分析的很好,但我无法在论文中控制太多的变量。如果只选择三个变量来控制,以满足排他性要求,我应该选择哪三个?我在正文中是否需要绘制一个 DAG 图形来辅助论述?
Prompt 08:
这些变量都是宏观层面的变量 (我的基本数据是 firm-year 层面的),这就意味着我无法在模型中加入 i.year 了,但这可能导致我遗漏了一些不可观察的宏观层面的时序变量。我该如何应对?
Prompt 09:
很好,你把咱们的讨论整合一下,写一个详细的研究笔记: 1. 问题背景 2. 内生性问题分析 3. 工具变量的选择和讨论 4. IV-地方财政压力:选择依据、合理性分析、……
Prompt 10:
可以写的更详细一些,把我们之前讨论过程中很多细节写进来
Prompt :
我们现在讨论一下使用「地方政府财政赤字率」和「地方债务水平」做工具变量的合理性。
分别从外生性、相关性、排他性三个角度进行分析。
对于排他性,分析三种潜在的渠道(W1, W2, W3),以便我在模型中选择合理的控制变量以便关闭这些潜在的后门路径。Z –> (W1 | W2 | W3) –> Y。
注意:W1-W3 这三个变量必须要有明确的定义,以便我能找到对应的数据,衡量这些变量。
11.4 例子:“地方政府财政赤字率” 作为工具变量的合理性论证
我对 AI 建议的「地方政府财政赤字率」和「地方债务水平」这两个工具变量比较感兴趣。然而,在正式使用之前,还需要对这两个变量作为工具变量的合理性分析,否则,我们在论文中是无法写清楚的。
完整讨论过程:ChatGPT
我们现在讨论一下使用「地方政府财政赤字率」和「地方债务水平」做工具变量的合理性。 1. 分别从外生性、相关性、排他性三个角度进行分析。
2. 对于排他性,分析三种潜在的渠道(W1, W2, W3),以便我在模型中选择合理的控制变量以便关闭这些潜在的后门路径。Z –> (W1 | W2 | W3) –> Y。注意:W1-W3 这三个变量必须要有明确的定义,以便我能找到对应的数据,衡量这些变量。
11.4.1 AI 的回答
下面详细分析使用「地方政府财政赤字率 (Deficit Ratio)」与「地方债务水平 (Debt Level)」作为工具变量(IV)的合理性,包括从外生性、相关性和排他性三个维度的分析,以及排他性可能受到破坏的三种潜在渠道(W1, W2, W3),并明确给出这些渠道变量的定义与度量方法。