Lazy loaded image
博客归纳
🗒️用 Python 高效清洗 JSON 数据与文件夹差值比对
字数 1503阅读时长 4 分钟
2024-12-31
2024-12-31
type
status
date
slug
summary
tags
category
icon
password
URL
在数据处理中,面对复杂的 JSON 数据和文件夹结构,我们常常需要对数据进行清洗、文件夹重命名、数据提取与比对。这篇文章总结了一个实际场景的解决过程,涉及清洗数据、标准化文件夹名称,以及生成结构化的输出文件。

问题背景

  1. JSON 数据清洗
      • 复杂的接口返回数据(6.json)需要清洗,提取关键信息,生成结构化的 2cleaned.json
      • 本地文件系统数据(通过遍历 6cleaned 文件夹生成的 6cleaned_output.json)需要用于比对与校验。
  1. 文件夹名称清理
      • 文件夹名称包含冗余编号(如 001-1找春天),需要去除编号,保留课程名称。
  1. 数据比对
      • 比较 6cleaned.json 和 6cleaned_output.json,生成以下结构化数据:

    第一步:清洗 JSON 数据

    清洗接口返回的复杂数据,提取课程名称和词语列表。

    第二步:重命名文件夹名称

    将 6cleaned 文件夹下的课程名称去除编号,确保文件夹名称规范化。

    第三步:生成本地文件系统数据

    通过遍历重命名后的文件夹结构,提取课程名称和文件列表,生成 2cleaned_output.json

    第四步:比对 JSON 数据

    将 6cleaned.json 和 6cleaned_output.json 进行比对,生成分类化的结果数据。

    总结

    1. 清洗 JSON 数据
        • 从复杂结构中提取关键字段,确保后续处理的基础数据标准化。
    1. 重命名文件夹名称
        • 去除冗余编号,使文件夹结构清晰且易于维护。
    1. 本地文件系统提取
        • 遍历文件夹生成准确的文件列表,与清洗后的数据进行对比。
    1. 数据比对
        • 分类处理数据差异,输出结构化结果,明确需要修改和新增的部分。
    1. 文档结构参考
    上一篇
    使用 Unsplash API 和 Shortcut 为 iPhone 定时更换壁纸
    下一篇
    一键生成项目目录树