---某些高浓度的有害海藻对河流生态环境的强大破坏是一个严重问题,它们不仅仅破坏河流的生物,也破坏水质。能够检测并在早期对海藻的繁殖进行预测对提高河流质量是很有必要的。 针对这一问题的预测目标,在大约一年的时间里,在不同时间内收集了欧洲多条不同河流的水样。对于每个水样,测定了它们的不同化学性质以及7种有害藻类的存在频率,在水样的收集过程中,也记录了一些其他特征,如收集的季节、河流的大小和水流的速度。
---我们试图通过数据分析及可视化,了解藻类的频率和水样的某些化学性质以及其他性质(季节、河流类型等)是如何相关的,并对缺失值情况进行了相关预处理,以使得数据集更容易被处理。
①数据可视化和摘要
--数据摘要
对标称属性,给出每个可能取值的频数,
数值属性,给出最大、最小、均值、中位数、四分位数及缺失值的个数。
--数据的可视化
数值属性,给出最大、最小、均值、中位数、四分位数及缺失值的个数。
--数据的可视化
针对数值属性,
绘制直方图,如mxPH,用qq图检验其分布是否为正态分布。
绘制盒图,对离群值进行识别
对7种海藻,分别绘制其数量与标称变量,如size的条件盒图
绘制盒图,对离群值进行识别
对7种海藻,分别绘制其数量与标称变量,如size的条件盒图
②数据缺失的处理
分别使用下列四种策略对缺失值进行处理:
将缺失部分剔除
用最高频率值来填补缺失值
通过属性的相关关系来填补缺失值
通过数据对象之间的相似性来填补缺失值
处理后,可视化地对比新旧数据集。
用最高频率值来填补缺失值
通过属性的相关关系来填补缺失值
通过数据对象之间的相似性来填补缺失值
处理后,可视化地对比新旧数据集。
---内附分析报告、分析程序、预处理后的数据集和相关说明
——李艳东