14 数据分析案例:CAMAR 数据库合并
14.1 多个 zip 文件的合并
这个 Jupyter Notebook 文件演示了如何将多个 zip 文件中的 CSV 数据合并成一个大的数据集。我们将使用 Python 的 pandas
库来处理数据。在进行这个任务是,我刚接触 Python 一周,只了解一些基本概念,没有任何实操经验。如果不借助 AI,我甚至难以写出两行正确的代码。
不过,好在有 Copilot 的帮助,我只需要写清楚提示词,它基本上能够一次性帮我编写好代码。期间很少出现 bugs。当然,很多时候由于我对数据特征了解不够,往往无法准确表述我的需求,这时我会通过多次迭代来完善提示词,直到得到满意的结果。
需要注意的是,在这个过程中,我很少会动手修改 Copilot 生成的代码。我的主要精力集中在修改和优化提示词上,我会不断把更新后的提示词发给 Copilot,让它生成新的代码。运行后,如果不符合要求,或我有新的数据处理需求,我会再次调整提示词,直到得到满意的结果。
14.1.1 任务概况
原始数据文件是从 CSMAR 数据库下载的,包含多个 zip 文件:
我们需要将这些 zip 文件自动解压成 CSV 文件,并合并成一个大的数据集。