目标
利用matplotlib(v3.2)
,在链家二手房平台爬取自己家乡或者北京的3~4个区域的二手房信息,处理后保存为data.csv,并探究不同的区二手房总价数据。
求解
爬取并处理数据
参见 https://boyinthesun.cn/post/python-scrapy2/
绘制图表
import pandas as pd
import matplotlib.pyplot as plt
# 为了显示中文,需要更换字体
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
# 如果你是macOS,请使用以下
# plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
path = ['data\\data_dongcheng.csv', 'data\\data_xicheng.csv', 'data\\data_haidian.csv', 'data\\data_chaoyang.csv']
data = []
for i in range(len(path)):
data.append(pd.read_csv(path[i], usecols=['总价'])['总价']) # 仅读取'总价'列,并存入列表
plt.title('北京东西海朝二手房总价分析', fontsize=20) # 标题,并设定字号大小
labels = ['东城', '西城', '海淀', '朝阳'] # 设置行标题
plt.boxplot(data, labels=labels)
plt.show()
plt.savefig('单价箱型图.png') # 保存图表