type
status
date
slug
summary
tags
category
icon
password
URL
在数据处理中,面对复杂的 JSON 数据和文件夹结构,我们常常需要对数据进行清洗、文件夹重命名、数据提取与比对。这篇文章总结了一个实际场景的解决过程,涉及清洗数据、标准化文件夹名称,以及生成结构化的输出文件。
问题背景
- JSON 数据清洗:
- 复杂的接口返回数据(
6.json
)需要清洗,提取关键信息,生成结构化的2cleaned.json
。 - 本地文件系统数据(通过遍历
6cleaned
文件夹生成的6cleaned_output.json
)需要用于比对与校验。
- 文件夹名称清理:
- 文件夹名称包含冗余编号(如
001-1找春天
),需要去除编号,保留课程名称。
- 数据比对:
- 比较
6cleaned.json
和6cleaned_output.json
,生成以下结构化数据:
第一步:清洗 JSON 数据
清洗接口返回的复杂数据,提取课程名称和词语列表。
第二步:重命名文件夹名称
将
6cleaned
文件夹下的课程名称去除编号,确保文件夹名称规范化。第三步:生成本地文件系统数据
通过遍历重命名后的文件夹结构,提取课程名称和文件列表,生成
2cleaned_output.json
。第四步:比对 JSON 数据
将
6cleaned.json
和 6cleaned_output.json
进行比对,生成分类化的结果数据。总结
- 清洗 JSON 数据:
- 从复杂结构中提取关键字段,确保后续处理的基础数据标准化。
- 重命名文件夹名称:
- 去除冗余编号,使文件夹结构清晰且易于维护。
- 本地文件系统提取:
- 遍历文件夹生成准确的文件列表,与清洗后的数据进行对比。
- 数据比对:
- 分类处理数据差异,输出结构化结果,明确需要修改和新增的部分。
- 文档结构参考
- 作者:Orcatt
- 链接:https://orcatt.one/article/16de26e1-0cf3-80c2-8222-f8a52838a77f
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。