2  课程简介和资源

数据分析与经济决策 课程旨在通过数据分析方法,帮助学员在复杂的经济环境中做出更为科学的决策。课程内容涵盖数据获取、数据处理、数据分析与建模等多个方面,力求让学员掌握数据分析的全流程。

本课程的主要特色是,借助 AI 编写数据分析报告和代码,提升学员的工作效率和分析能力。对于每一个数据分析项目,我们会首先通过探索性数据分析,明确分析目标和问题,进而制定分析方案,以便将复杂的问题拆解成若干个小问题,每个小问题都可以用逻辑清晰的提示词加以描述。在此基础上,我们只需利用 AI 工具快速生成数据处理和分析的代码,最后生成可视化报告。

当然,上述过程并非一蹴而就,而是需要不断的迭代和优化。学员需要根据实际情况调整分析思路和方法,以便更好地应对复杂的经济问题。

因此,在学习过程中,不必过分纠结于某一个具体的实现细节,而是要关注整体的分析思路和框架。更为重要的是,要多花时间了解各类统计和计量方法的原理和适用场景,以便在设定分析方案时,能够综合运用多种方法展开分析,从不同角度解读数据。

2.1 课程内容

  • Part I:数据分析
    • 数据获取:API, 爬虫, 数据库
    • 数据结构:数据框、系列、矩阵、结构化v.s.非结构化
    • 数据清洗:合并、纵横变换、变量生成与转换
    • 数据清洗:缺失值、离群值、文字变量
    • 可视化:直方图、类别变量、散点图、三维图、动图
    • 复现报告:Markdown, Jupyter Notebook
  • Part II:建模
    • 统计基础和假设检验
    • 线性回归分析:OLS,虚拟变量,交乘项,高阶项
    • 面板数据模型:高维固定效应模型、DID
    • 再抽样方法:Bootstrap, Jackknife, Cross-validation, Monte Carlo Simulation
    • 因果推断:AB-test, 反事实架构, 逆概率加权, 匹配, Double Machine Learning
    • 机器学习:K 近邻, Lasso,随机森林,支持向量机, Logit

2.2 参考资料

2.2.1 Python 语言

  • Allen Downey, 2012. Think Python: How to Think Like a Computer Scientist. -PDF-
    • Python 入门,通俗易懂
  • Johansson, R., 2024, Numerical Python: Scientific Computing and Data Science Applications with Numpy, SciPy and Matplotlib. Apress Berkeley, CA. Link, PDF (需要用校园 ID 登录), github
    • Python 入门,绘图,科学计算,偏微分方程,统计和机器学习初步
    • CHAPTER 4 Plotting and Visualization, 介绍绘图的基本元素.

2.2.2 数据分析

  • Wes McKinney, 2022. Python for Data Analysis: Data Wrangling with pandas, NumPy, and Jupyter (3E). Online-Read, github, gitee-码云
    • 专注于数据处理,讲的比较细致
    • 作者是 pandas 的作者,书中介绍了 pandas 的使用方法
  • 🍎 PDSH   VanderPlas, 2023. Python Data Science Handbook, github, Online-Read, PDF-2E
    • 数据分析 + 可视化 + 机器学习
    • 提供了 Colab版本,可以无需安装 Python,直接在线运行
    • 本地已经下载:VanderPlas_2023_PDSH_Python_Data_Science_Handbook-2E.pdf

2.2.3 金融

  • Scheuch, C., Voigt, S., Weiss, P., & Frey, C. (2024). Tidy Finance with Python (1st ed.). Chapman and Hall/CRC, Online-Read, github

    • tidyfinance package
    • 股票回报, CAPM, 投资组合, Fama-French 因子模型等
    • 整体上比较简单,依赖于作者开发的 tidyfinance 扩展包。
  • Mastering Python for Finance – Second Edition, github

  • Hilpisch Y., Python for Finance. 2019. -PDF-, github

  • Machine Learning for Algorithmic Trading, 2nd edition. github, Website

2.2.4 因果推断和机器学习

  • Alves, Matheus Facure. 2022, Causal Inference for The Brave and True. Online Read, -github-
    • 基本上覆盖了目前文献中使用多的多数因果推断方法,包括 IV, DID, SDID, PSM, Matching, Panel, SCM, RDD
    • 提供了完整的 Python 代码,可以 Fork -github- 仓库,然后在本地运行 .ipynb 文档 (Jupyter Notebook)
    • 书中使用了 causalmldowhy 两个包,前者是作者开发的一个包,后者是微软开发的一个包
  • 🍎 ISLP   James, G., D. Witten, T. Hastie, R. Tibshirani. An introduction to statistical learning: with Applications in Python (ISLP)[M]. Springer, 2023, website, Resources, github, -PDF-
  • Tatsat, H., Puri, S., & Lookabaugh, B. (2020). Machine Learning and Data Science Blueprints for Finance. O’Reilly Media. -PDF-, github-2022, githu-new-2024
    • 分成监督学习和非监督学习两大部分,包含了常用的机器学习方法
    • 13 cases,涉及债券市场,股票市场分析等
    • 书里边的所有案例对应的 Python 代码可以不用本地安装,而在作者提供的 在线平台 上直接运行。
    • 用的 Jupyter Notebook

2.3 分析工具

  • 请预先安装 VScode 编辑器和 Anaconda 套装,并确保相关环境配置正确。详情参见 软件安装和环境配置
  • 我们会在 VScode 中使用 Jupyter Notebook (.ipynb 文档) 编写 Python 和 Stata 代码,并添加 Markdown 格式的解释文本。参见 Jupyter Notebook 的使用。若不熟悉 Markdown 语法,可以参考 Markdown 简介

2.4 数据

2.4.1 数据科学平台和搜索引擎

  • KDNuggets - datasets
    • 数据科学和机器学习领域的知名网站,提供了大量的资源和信息。
  • Kaggle Datasets
    • 全球知名的数据科学与机器学习社区,用户可以在平台上获取数据集、参与竞赛、分享与学习代码、交流讨论。
  • UCI Machine Learning Repository
    • 机器学习领域最经典的数据集仓库,涵盖分类、回归、聚类等多种任务,适合教学和算法测试。
  • Google Dataset Search
    • 谷歌推出的专用数据集搜索引擎,聚合全球各类开放数据集,支持多语言检索,便于快速定位所需数据。
  • AWS Public Datasets
    • 亚马逊云平台提供的开放数据集,涵盖气象、基因组、卫星影像等大规模数据,适合云端分析和机器学习。
  • Microsoft Azure Open Datasets
    • 微软云平台提供的开放数据集,聚焦天气、健康、金融等领域,便于在 Azure 上直接调用和分析。
  • Open Data Portal by European Union
    • 欧盟官方开放数据门户,收录成员国及欧盟机构的各类统计、经济、社会等数据,支持多语种访问。
  • World Bank Open Data
    • 世界银行开放数据平台,提供全球各国经济、社会、发展等宏观数据,适合国际比较和经济研究。
  • Data.gov
    • 美国政府开放数据平台,涵盖农业、气候、教育、能源等众多领域,数据权威且更新及时。
  • awesome-public-datasets
    • GitHub 开放数据集列表

2.4.2 学校图书馆

中大图书馆-统计类数据库

RESSET系列数据库

  • RESSET系列数据库 | RESSET企业大数据平台
    • 需要输入账号和密码
    • 1、中山大学校园网IP范围内,直接点击访问。
    • 2、官方网站访问: http://www.resset.cn,点击页面“快速登录”右边的“企业大数据平台”链接后输入对应的用户名及密码进行登录。用户名:sysu和密码:sysu1903。
    • 3、校外不限IP访问,通过CARSI平台访问登陆,访问地址:http://db.resset.com/,点击页面的:CARIS 平台登陆,选择学校,然后输入验证身份信息后登陆使用。

2.4.3 公开数据