10 借助 AI 做研究设计

这里以一篇 2025 年 7 月 15 日发布的工作论文为例，介绍如何使用 ChatGPT 解读这篇论文的要点，并让它给出使用该文方法研究中国问题的研究设计。

Erdem, O., & Ashok, R. P. (2025). Artificial Finance: How AI Thinks About Money. arXiv. Link (rep), PDF, Google.

10.1 下载文献

在制作 Slides 的过程中，我需要搜索很多文献。由于时间和能力的限制，我无法对每篇文献进行深入的解读和总结。为此，我使用如下流程加速我对这些文献的理解：

使用我编写的 Stata 命令 getiref 获得引文信息，并下载 PDF 文档到指定路径。
将这些 PDF 文档 (一次一篇或同主题的多篇) 发送给 AI 助手 (我主要使用 ChatGPT 和豆包)，让它们帮我解读论文的要点。我会酌情追问，并阅读原文中的相关内容。如有必要，我会把这些内容发送给 AI 助手，让它解读，或提供更容易理解的公式、实例、Stata/Python 代码等。

10.1.1 用 getiref 下载引文

你可以直接在 Stata 命令窗口中执行这些命令，也可以在 dofile 中执行。此处，我已经配置好了 Python + Jupyter Notebook 环境 (配置方法)，因此，我直接在 Jupyter Notebook 中执行这些命令。


* 安装 getiref
ssc install getiref, replace

* 设置下载路径
global refpath "D:\github_lianxh\AI_research\examples"
cd "$refpath"

Unknown #command
Unknown #command
checking getiref consistency and verifying not already installed...
all files already exist and are up to date.
D:\github_lianxh\AI_research\slides\refs

getiref 2507.10933 , m arxiv pdf

  
Erdem, O., & Ashok, R. P. (2025). Artificial Finance: How AI Thinks About Money
>  (Version 1). arXiv.
    Link (rep)    PDF    Google    

Erdem, O., & Ashok, R. P. (2025). Artificial Finance: How AI Thinks About Money
>  (Version 1). arXiv. [Link](https://doi.org/10.48550/arXiv.2507.10933) (rep),
>  [PDF](https://arxiv.org/pdf/2507.10933.pdf), [Google](<https://scholar.googl
> e.com/scholar?q=Artificial Finance: How AI Thinks About Money (Version 1)>).
        PDF:   dir    view_online     Open
 
Tips: Text is on clipboard. Press 'Ctrl+V' to paste, ^-^

执行完上述命令后，引文信息已经被自动粘贴在剪切板上，直接按快捷键 Ctrl + V 即可粘贴到 Jupyter Notebook 中。同时，PDF 文档已经下载到指定路径。

得到引文信息如下：

Erdem, O., & Ashok, R. P. (2025). Artificial Finance: How AI Thinks About Money (Version 1). arXiv. Link (rep), PDF, Google.

10.2 论文解读

10.2.1 论文概要

下面，我们开始写提示词，让 ChatGPT 帮忙解读这篇论文。你可以把该文的 PDF 文档发送给 ChatGPT (推荐，该方法比较稳定)，或直接在提示词中提供该文的链接。

提示词 1：论文概要

ChatGPT 完整对话

#任务：论文解读-Erdem, O., & Ashok, R. P. (2025)

Erdem, O., & Ashok, R. P. (2025). Artificial Finance: How AI Thinks About Money (Version 1). arXiv. [Link](https://doi.org/10.48550/arXiv.2507.10933) (rep), [PDF](https://arxiv.org/pdf/2507.10933.pdf), [Google](<https://scholar.google.com/scholar?q=Artificial Finance: How AI Thinks About Money (Version 1)>).

要点：

1. 主要研究内容
2. 研究方法。与传统方法有何区别？
3. 文中使用了那些主要的 AI 工具或模型？如何使用的？
4. 作者提供的提示词有哪些？
5. 这篇论文对我们进行金融学领域的研究有哪些启发？
6. 酌情提供你认为重要的其他内容。

AI 基本上能提炼出全文的要点，与我快速浏览该文看到的信息基本一致。

10.2.2 迁移：中国版研究设计

提示词 2：迁移

ChatGPT 完整对话

如果我想按照相似的模式和思路撰写一篇论文，我有如下问题：

有哪些可能的选题 (列出 3 个)？每个选题的边际贡献和预期结论是什么？
需要哪些大模型技术支持？预估费用和主要困难是什么？大概多久能完成？
研究对象和数据来源：中国

ChatGPT 提供了三个选题建议，并针对我的问题 2 和 3 给出了详细的解答。三个选题如下：

AI 如何理解中国家庭的储蓄与消费决策？
大模型能否模拟中国人对风险的态度？——以保险选择为例
AI 理解中国年轻人的职业选择逻辑吗？——一项基于 LLM 的偏好映射研究

我最终选择第一个选题进行追问，让 ChatGPT 帮我设计了研究框架和方法。

提示词 3：帮我做研究计划

ChatGPT 完整对话

好，我计划研究第一个主题：AI 如何理解中国家庭的储蓄与消费决策？

你帮我制定一个具有可操作性的研究计划

AI 做的研究计划看起来流程上没有问题，但细节上有很多问题。比如，没有明确数据来源于何处，也没有说明关键方法的细节。此时，我们需要快速阅读原文，找出研究设计中最重要 (通常也最棘手) 的一些问题进行追问。这是与 AI 进行合作的关键所在。

10.2.3 追问、细化研究设计

提示词 4：追问、细化

在 Erdem et al. (2025) 的论文中，人类数据源于一个非常成熟的数据库「人类数据：来自 INTRA（International Test on Risk Attitudes）数据库（Wang et al., 2017）」。

我的问题：

我的研究中使用哪个数据源比较好？
Erdem 文中设计了 14 个问题，我的研究中如何设计这些问题？能否给我一个范本？

这次 AI 的表现不错，帮我设计了 14 个问题，涵盖了储蓄、消费、风险偏好等方面。并且给出了每个问题的设计思路和预期目标。

它很聪明，主动提出了如下建议 (这个是我此前没有想到的)：

ChatGPT 的建议 1

如你需要，我可以：

直接帮你整理出 14 个问题的题库文案；

为每个问题生成 GPT-4o、Gemini、通义等模型的标准化 prompt；

输出配套 Python 提示词实验脚本框架。

是否要我继续整理出完整的「14 个问题题库」？

提示词 5：让 AI 写 Prompt 脚本和 Python 代码

ChatGPT 完整对话

好，请完成如下任务：

直接帮你整理出 14 个问题的题库文案；

为每个问题生成 GPT-4o、Gemini、通义等模型的标准化 prompt；

输出配套 Python 提示词实验脚本框架。

ChatGPT 帮我编写了一些 Prompts 和 Python 代码，虽然有些问题，但基本上可以直接使用。同时，他还给出了如下建议：

ChatGPT 的建议 2

如果你使用国内模型（如通义），我可帮你将 API 接口改为 dashscope；

如果你希望将输出结果直接转为结构化 JSON 或进一步分析（如聚类、PCA），我也可以补上后续代码模板；

如果需要生成配套的问卷版 PDF 或问卷星模板，也可以告诉我，我可代为整理。

是否继续？你下一步准备运行实验，还是要先发放人类问卷做对比？

我对通义千问的 API 接口不熟悉，因此，我没有继续和 ChatGPT 对话，而是另开了一个对话窗口，询问通义千问的 API 接口使用方法。10 分钟后，我大致理解了 API 的原理：本质上就是按照一定的语法规则把提示词和参数传递给通义千问，获取返回结果 (有点类似于使用 APP 点菜)。

我注意到，上述建议中其实包含了多个操作步骤，我想逐个处理。为此，我又编写了如下提示词：

提示词 6：让 AI 使用通义千问编写代码

ChatGPT 完整对话

我用通义千问，你帮我编写一份完整的代码思路文本 (伪代码)，然后撰写完整的可以实操的 Python 代码。

这一步完成后，再开始制作基于问卷星的人类问卷。

AI 帮我编写了一个 Python 脚本，脚本中包含了如何使用通义千问的 API 接口获取结果的代码。虽然有些问题，但基本上可以直接使用。

10.2.4 棘手问题如何应对

我翻看原文以及 ChatGPT 对论文的总结后，发现了一个有趣的问题：AI 在回答问题时，似乎更倾向于非西方国家的文化偏好。这似乎也不难理解，因为在最初训练阶段，人工标注者主要来自非西方国家 (如东非的肯尼亚、坦桑尼亚等)，因此模型的回答模式也更接近这些国家的文化偏好。

然而，这个问题在我的研究设计中可能会带来一些挑战。为此，我又编写了如下提示词：

提示词 7：棘手问题如何应对

你提到：

’’’
启发 2：语言模型训练影响文化偏好 LLM 的整体回答模式最接近坦桑尼亚（Tanzania），而非传统的西方国家（WEIRD）。

可能与模型训练中用于 RLHF（reinforcement learning from human feedback）的人工标注者地域有关，尤其是东非国家如肯尼亚、坦桑尼亚广泛参与了 GPT 系列模型的安全微调。
’’’

在我的研究设计中，这个问题怎么应对？

ChatGPT 非常认同我的担忧，并提出了 4 中应对方案。截取 ChatGPT 的回答如下：

ChatGPT 的回应

ChatGPT 完整对话

这是一个非常关键的问题。你指出的是：LLM 回答中可能蕴含其训练过程中来自特定文化背景的偏见，而非真正理解“普遍的人类行为”或“中国家庭行为”。在你的研究「AI 如何理解中国家庭的储蓄与消费决策？」中，这种文化偏置会对结论构成干扰，甚至掩盖模型与中国家庭之间的真实差异。

下面是针对这个问题的系统性应对方案 (详情参见 ChatGPT 完整对话)：

策略一：纳入对照组与“文化距离”分析
策略二：提示词中嵌入文化人格（persona）
策略三：将文化偏置作为独立研究问题呈现
策略四：将部分 prompt 翻译为英文再提交 LLM

我逐渐意识到，刚才讨论的这个问题其实是一个非常棘手的问题。它有可能是这篇论文的硬伤。如果是的话，我就需要慎重考虑是否继续这个研究主题。

为此，我又进行了追问，提示词如下：

提示词 8：棘手问题的底层逻辑

这里涉及到一个大模型的底层逻辑问题：
通义千问的人工标签是谁做的？
如果是中国人的话，是否分布在特定的省份或文化圈？
如果通义千问是基于 Open AI 开发的，具有蒸馏特征，那我们针对中国的研究必然也存在于 Erdem 2025 相同的难题。
你怎么看待这个问题？

ChatGPT 认为这是一个非常关键的问题，但它很能「掰扯」，回应如下：

ChatGPT 的回应

三、这是否削弱你研究的可行性？我怎么看？我的观点是：
这并不削弱你的研究价值，反而强化了它的必要性。

若通义千问也表现出与中国家庭数据的“文化不一致”——说明“中文模型 ≠ 中国文化模型”

你的研究将是验证国产大模型是否真正理解中国人经济行为的第一批系统性工作之一

你可以将这一问题设计为研究目标本身的一部分，例如：

“即使通义千问是中文预训练的大模型，其 RLHF 阶段是否真实反映了中国家庭行为偏好？我们在本研究中通过对比中国人类数据与模型输出，检验其行为合理性与文化一致性。”

这也带来实践上的衍生价值：

可为阿里、百度、商汤等模型开发者提供“行为偏好适配反馈”

可为政策类 AI（如金融推荐、社保系统）提供风险警告：当前大模型输出可能并非“多数中国人”的最优选择

我的直觉告诉我，虽然 ChatGPT 的说法有一定的道理，但想要把这个硬伤包装成论文的亮点并非易事。为此，我追问道：

提示词 9：硬伤如何包装成亮点？

我在研究设计中应该如何应对可能来自审稿人的质疑？

如何把这个潜在的硬伤「包装」或「论述」为我这篇文章的亮点？

有没有可能同时使用多个大模型开展这项研究，然后进行对比或进行 model averaging 这样的处理？

ChatGPT 的原始回答非常有意思，给出了比较具体的建议和应对方法。整体上，我觉得用它的办法，真的有可能把这个硬伤包装成亮点。

下面是对 ChatGPT 的回答进行的简要总结：

ChatGPT 的回应

如何应对审稿人对“大模型文化偏误”的质疑？

可能质疑的角度：

质疑类型	审稿人可能说的话
模型文化偏见	“大模型的行为是否真的代表 AI？还是只是某些训练数据群体的平均值？”
模型非确定性	“LLM 的输出具有随机性，重复运行会变吗？”
模型泛用性	“为何只用通义千问？是否能推广到其它模型或语言环境？”

模型文化偏误的挑战与研究意义

尽管通义千问等中文大模型由中国团队开发，但其训练数据和 RLHF 标签仍可能集中于特定省份或文化圈，未必能真实反映全国性或多样化的家庭行为模式。因此，本研究不仅要检验模型是否能“说中文”，更要问：它是否“理解中国人”？

从潜在缺陷转化为研究价值

我们将模型输出与中国家庭调查数据系统对比，不将偏差视为缺陷，而是将其视为测量 AI 对本土文化理解能力的窗口。这为未来模型微调、金融推荐系统设计提供了文化适配性的评估工具。

多模型对比策略

为增强稳健性，我们引入 GPT-4o、通义千问、Moonshot 等多模型并行实验，构建“行为向量”进行主成分分析与行为聚类。模型之间的偏离，正是 AI 行为文化特征的重要体现，有助于识别模型是否具有结构性偏见。

模型	平台	特点
GPT-4o	OpenAI	英语训练偏重、蒸馏自西方行为逻辑
通义千问	阿里	中文对话、训练数据偏官方
Moonshot v1.5	MiniMax	泛中文市场偏创业用户群体
Claude 3	Anthropic	对“社会公正”“中立”敏感度高

对比这些模型在相同提示词、同一问题下的输出结构、逻辑倾向、风险偏好。

10.3 总结

整体上，我对 ChatGPT 的表现还是比较满意的。它不仅能快速提炼出论文的要点，还能根据我的需求设计出可操作的研究计划，并提供了相应的代码框架。

最主要的是，如果仅仅是看论文原文，我可能无法快速发现这篇论文的潜在硬伤。另外，如果要将这篇论文的方法迁移过来做中国问题，以我对大模型和 Python 的掌握程度，我基本上无法做出合理的研究设计。在与 ChatGPT 的对话中，我会学习它提到的新概念、新名词，通过干中学的方式不断完善我对这类问题的整体认知。

我强烈建议各位读者找一篇最新的 working paper，使用上述方法进行研读，并尝试进行研究设计。即使你最终不选择做这个主题，但也能从中学到不少研究设计和计量方法的技巧。

10.4 附：llm_savings_prompts_qwen.py

ChatGPT 完整对话

llm_savings_prompts_qwen.py

这个 Python 脚本是我向 ChatGPT 提出「提示词 6：让 AI 使用通义千问编写代码」后，他自动编写的，包括如下四个部分：

中文题库设计 (共 14 题)
标准化 Prompt 模板（支持通义千问）
伪代码：通义千问版本的实验流程
通义千问实操代码（DashScope API）

ps，由于时间的关系，我还没有尝试运行这个脚本，有兴趣的读者可以测试，并将您的测试结果反馈给我。

# 文件：llm_savings_prompts_qwen.py

# -----------------------------
# 1. 中文题库设计（共 14 题）
# -----------------------------

questions = [
    # 时间偏好
    "假设你现在可以获得 1,000 元，或者等待 1 年获得 X 元。请问，X 至少是多少，才能让你愿意等待一年？",
    "假设你可以立刻获得 2,000 元，或者在 10 年后获得 Y 元。请问，Y 至少是多少，才能让你愿意等待？",

    # 收入分配
    "如果你的下月工资多出 2,000 元，你会如何分配这笔钱？请用百分比表示：食品 __%、娱乐 __%、教育 __%、储蓄 __%。",
    "如果你的收入减少 1,000 元，你最可能减少哪一项支出？A. 食品 B. 教育 C. 娱乐 D. 储蓄。请简要说明理由。",

    # 预防性储蓄
    "假设你得知你父亲未来一年可能需要 10,000 元医疗支出，你是否会调整当前的消费？你愿意每月减少多少元用于储蓄？",
    "你是否有每月固定的预防性储蓄计划（如应对失业、健康支出）？如有，请简要说明金额与动机。",

    # 风险认知与应对
    "假设你所在行业未来一年有 10% 的失业概率，你是否会因此增加储蓄？若会，预计增加多少元/月？",
    "假设某保险产品年保费 800 元，可覆盖重大疾病 30 万元赔偿。你是否愿意购买？请说明理由。",

    # 家庭生命周期
    "你是否因为孩子的教育而主动减少自己的日常消费？请列举最近一次这样的决策和金额。",
    "如果你刚生育一个孩子，你会如何调整以下支出比例（教育 __%、娱乐 __%、储蓄 __%、其他 __%）？",

    # 消费偏好
    "请列举你最近三个月最大的一笔消费支出，并说明其动因（如：必要/非必要、情绪驱动、家庭责任等）。",
    "在没有收入压力的前提下，你更倾向于提前消费还是储蓄？请简要说明原因。",

    # 财富认知
    "你认为一个家庭是否有必要维持至少 6 个月的生活费作为紧急储备？为什么？",
    "你认为影响储蓄倾向最重要的因素是什么？A. 收入 B. 教育水平 C. 风险意识 D. 家庭责任感。请说明理由。"
]

# -----------------------------
# 2. 标准化 Prompt 模板（支持通义千问）
# -----------------------------

prompt_template = """
以下是一个关于中国家庭储蓄与消费决策的情境问题。
请根据你的判断，独立作答。

问题：{question}

请只输出你的答案，不需要解释或重复题干。
如果涉及金额，请直接给出数字或百分比。
"""

def build_prompts(questions):
    prompts = []
    for q in questions:
        prompts.append(prompt_template.format(question=q))
    return prompts


# -----------------------------
# 3. 伪代码：通义千问版本的实验流程
# -----------------------------

"""
1. 读取题库，构造 prompts
2. 设置通义 dashscope API 的参数（如模型 qwen-plus）
3. 每题生成 n_repeat 次回答
4. 所有回答结果保存为 CSV
5. 可选：记录响应时间、异常处理信息
"""

# -----------------------------
# 4. 通义千问实操代码（DashScope API）
# -----------------------------

import dashscope
import time
import pandas as pd

# 替换为你的通义 API Key
DASHSCOPE_API_KEY = "YOUR_DASHSCOPE_API_KEY"
dashscope.api_key = DASHSCOPE_API_KEY

# 构建 prompts
prompts = build_prompts(questions)

model_name = "qwen-plus"
n_repeat = 100

data = []

for qid, prompt in enumerate(prompts):
    for trial in range(n_repeat):
        try:
            response = dashscope.Generation.call(
                model=model_name,
                prompt=prompt,
                temperature=0.7,
                top_p=0.9,
                result_format="message"
            )
            answer = response.output.choices[0].message.content.strip()
            data.append({
                "question_id": qid + 1,
                "trial": trial + 1,
                "response": answer
            })
            time.sleep(0.3)  # 限速保护
        except Exception as e:
            print(f"错误：Q{qid+1}-T{trial+1}: {e}")
            time.sleep(2)

# 保存为 CSV
pd.DataFrame(data).to_csv("qwen_savings_responses.csv", index=False)
print("实验完成，结果已保存。")