用 Python 高效清洗 JSON 数据与文件夹差值比对 | Orcatt Blog

博客归纳

🗒️用 Python 高效清洗 JSON 数据与文件夹差值比对

字数 1503阅读时长≈ 4 分钟

2024-12-31

type

status

date

slug

summary

tags

category

icon

password

URL

在数据处理中，面对复杂的 JSON 数据和文件夹结构，我们常常需要对数据进行清洗、文件夹重命名、数据提取与比对。这篇文章总结了一个实际场景的解决过程，涉及清洗数据、标准化文件夹名称，以及生成结构化的输出文件。

问题背景

JSON 数据清洗：

复杂的接口返回数据（6.json）需要清洗，提取关键信息，生成结构化的 2cleaned.json。

本地文件系统数据（通过遍历 6cleaned 文件夹生成的 6cleaned_output.json）需要用于比对与校验。

文件夹名称清理：

文件夹名称包含冗余编号（如 001-1找春天），需要去除编号，保留课程名称。

数据比对：

比较 6cleaned.json 和 6cleaned_output.json，生成以下结构化数据：

第一步：清洗 JSON 数据

清洗接口返回的复杂数据，提取课程名称和词语列表。

第二步：重命名文件夹名称

将 6cleaned 文件夹下的课程名称去除编号，确保文件夹名称规范化。

第三步：生成本地文件系统数据

通过遍历重命名后的文件夹结构，提取课程名称和文件列表，生成 2cleaned_output.json。

第四步：比对 JSON 数据

将 6cleaned.json 和 6cleaned_output.json 进行比对，生成分类化的结果数据。

总结

清洗 JSON 数据：

从复杂结构中提取关键字段，确保后续处理的基础数据标准化。

重命名文件夹名称：

去除冗余编号，使文件夹结构清晰且易于维护。

本地文件系统提取：

遍历文件夹生成准确的文件列表，与清洗后的数据进行对比。

数据比对：

分类处理数据差异，输出结构化结果，明确需要修改和新增的部分。

文档结构参考

使用 Unsplash API 和 Shortcut 为 iPhone 定时更换壁纸

一键生成项目目录树

一键生成项目目录树

作者:Orcatt
链接:https://orcatt.one/article/16de26e1-0cf3-80c2-8222-f8a52838a77f
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

目录

你好！我是

Orcatt

是一名

前端工程师.

在此，与你握手。

目录

最新发布

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

⁶

²

文章数:

47

建站天数:

712 天