主要目标:使用 python 和 pandas,对excel中的空数据行进行填充,比如我需要1900行数据,而原数据不足1900行,那么将不足1900行的地方补全,空白位置全部填充为0,如果数据量超出1900行的,则将多余数据截断,其代码如下:
using System.Collections;
# 导入os和pandas库
import os
import pandas as pd
# 定义文件夹路径
folder_path = "C:/CCCC/path/(你自己的数据文件夹地址)"
# 获取文件夹内所有xlsx文件的名称
file_names = [f for f in os.listdir(folder_path) if f.endswith(".xlsx")]
# 遍历每个文件
for file_name in file_names:
# 读取文件内容为DataFrame对象
df = pd.read_excel(folder_path + file_name)
# 获取文件的行数和列数
rows, cols = df.shape
# 如果行数小于1900
if rows < 1900:
# 计算需要补齐的行数
diff = 1900 - rows
# 创建一个空的DataFrame对象,列数和原文件相同
new_df = pd.DataFrame(columns=df.columns)
# 用0填充不足1900行的空数据
new_df = new_df.reindex(range(diff), fill_value=0)
# 将新的DataFrame对象和原来的DataFrame对象合并
df = pd.concat([df, new_df], ignore_index=True)
# 如果行数大于1900
elif rows > 1900:
# 只取前1900行
df = df.iloc[:1900, :]
# 保存修改后的文件,文件名加上"_new"后缀
df.to_excel(folder_path + file_name[:-5] + "_new.xlsx", index=False)
print("新文件已保存到"+ str(folder_path) + str(file_name[:-5]) + "_new.xlsx")
print("已经对文件夹内所有xlsx文件进行处理")