《基于K-means的功率特性测试数据清洗方法.docx》由会员分享,可在线阅读,更多相关《基于K-means的功率特性测试数据清洗方法.docx(8页珍藏版)》请在第壹文秘上搜索。
1、【摘要】风电场技术后评估主要目的在于评估项目建成后是否达到设计发电能力,是否充分发挥了前评估所判定技术层的预期功效。目前,大多数业主单位开展的后评估工作主要服务于投资决策,尚未对风电场运行维护、升级改造、对比及对标分析等深入开展工作。由于缺乏统一的后评估标准,不同风机、风电场之间横向对比、对标等存在客观困难,对生产分析与性能评估带来诸多问题。同时,现场缺少计算相关生产指标的工具,如人为手动计算,工作量大,计算精度低。基于上述情况,用于风电场后评估指标的工具应用前景十分广阔,本方法针对后评估工具中功率曲线计算与评估中数据清洗方面进彳亍说明。一、研究意义风能作为一种清洁和可再生的能源。近年来,世界
2、各地安装的风力发电机越来越多。风电机组安装的数据采集与监视控制系统已经广泛的用于风力发电工况检测,其中包括风电曲线异常数据检测。风电功率曲线是在风电机组运行特性的评价过程中的一项重要指标,与风电机组的设计依据、性能评价指标、发电量考核指标、风电场的收益关系十分密切。风电机组良好的发电性能是保证风力发电企业生产运行管理和发展战略规划的决定因素。功率曲线作为描述风电机组运行性能的一个重要指标,但由于受到温度、气压和机组自身特性等因素的影响,不同风场、不同机组、不同时间所形成的功率曲线具有相当大的差异性。明确实际功率曲线与合同功率曲线之间的差异,对于技术后评估工作具有相当大的参考价值。本文介绍的基于
3、K-means的功率特性测试数据清洗方法是功率曲线模拟流程中数据预处理的一部分,对于提升功率曲线模拟的准确性具有一定意义。二、研究方法基于风电功率曲线的异常数据可以归纳为三种A、B、C三种类型。A类异常数据主要是通用数据异常问题,包括全空数据、部分缺失数据、重复数据、时间异常数据、时间重复数据等。B类异常数据主要是按需数据异常问题,包括时间间隔不达标数据、状态位异常数据、风速越界数据、限功率数据等。C类异常数据主要是离散数据异常问题,包括传感器故障数据、传感器噪声数据和一些不受控随机因素造成的异常数据等。针对不同类别的异常数据,使用不同的数据识别和清洗方法。基于K-means的数据清洗方法主要
4、针对C类异常数据。三、通用数据清洗通用数据清洗模块主要用于处理通用数据异常的问题。对于全空数据,主要存在于SCADA导出和合并过程中,对于全空数据的清洗有众多方法。其中无论是判断任一字段是否为空还是判断文档大小,均可以对全空数据进行数据清洗。对于部分缺失数据,主要存在于SCADA采集过程中出现某种导致的错误或是导出过程中存在某些异常造成的数据部分缺失,对于研究的字段进行针对性的非空检测是处理部分缺失数据的可靠方法。对于重复数据,主要存在于SCADA采集过程中出现某种导致的错误导致的重复或是导出过程中存在某些异常造成的数据重复,对于重复数据的识别主要基于特殊字段的重复检测,清洗手段需要根据所研究
5、的参变量选择完全清洗和部分清洗两种数据清洗的程度。对于时间异常数据,主要存在于SCADA时钟序列出错或者数据导出未知错误导致的时间序列紊乱和重复的问题,部分数据可能已被上述重复数据处理,更详细的处理方法是采用堆栈容器中转数据的方式检测时间序列问题。对于时间重复数据,主要是对时间序列进行重检测,时间一定程度上作为整个数据集的主键,具有唯一标识数据条的作用,应该着重保证时间维度的数据正确性,这里采用二次循环检测方式来完全保证。四、按需数据清洗按需数据清洗模块主要用于处理按需数据异常的问题。对于时间间隔不达标数据,主要是按照相关标准IEC61400-12-1-2005以及IEC61400-12-2-
6、2013中的要求,对时间间隔低于IOmin的数据进行清洗。在十分钟级数据整合和处理的过程过,很大可能会造成时间间隔的不符合使用者要求的情况出现,这里对不同时间戳格式的数据应采用不同的数据间隔格式来清洗数据。对于状态位异常数据,功率特性测试要求非正常位的数据需要剔除,这里对状态位异常数据条进行按需清洗。由于不用厂家不同风机型号的状态位标识各有不同,这里应结合实际情况按照需求对异常位数据进行清洗。对于风速异常数据,这里主要是针对越界、冰冻等数据进行清洗。越界数据的剔除方面,功率特性测试要求风速区间应在0-50ms的范围之内,实际数据中有少量数据对应的风速区间超过了这个范畴,应按照需求对越界风速数据
7、条进行清洗。冰冻数据的清洗主要基于风速标准差阈值的设定,若风速数据标准差过低且温度达到结冰条件,则应对冰冻数据进行清洗。对于功率异常数据,这里主要针对限功率数据进行清洗。功率特性测试要求对限电条件下的数据进行清洗,由于限功率涉及外部限功率和内部限功率,所使用的策略不同,实际应用过程中应当结合风电场运维手册和秒级数据进行清洗。五、离散数据清洗离散数据清洗模块主要用于处理离散数据异常的问题。图3:高散数据清洗模块离散数据的影响因素众多,很难从单一字段对数据进行清洗工作,离散数据的主要特点是围绕正常曲率随机分布,没有预测方法,连续性较差。这里使用无监督学习中的K-means聚类方法对离散数据进行清洗
8、。在功率特性测试的过程中,针对爬升阶段(风速在切入风速和额定风速之间)和满发阶段(风速在额定风速和切出风速之间)两个阶段分别构建模型。对于任一阶段,以给定的数据集作为数据输入,数目为M,定义构建一个具有k的簇的模型,根据经验和实际情况,通常我们选择k=4作为参数设置。对于每一个IOmin数据XI、X2、X3.Xm,首先选择初始化的k个类别中心alxa2.ak0对于每一个数据条,通过风速和功率的二维方式标记距离类别中心的aj最近的类别j0之后更新每个类别的中心点aj为隶属于该类别的所有数据条的均值。重复上述的操作直到满足最终的终止条件即迭代到达上限。而每一个中心点更新公式为nIabeli=arg
9、mmWa1.丹丹二薪号经过离散数据异常清洗模块,由传感器故障造成的错误数据可以得到有效的清洗,同时由于迭代次数和k簇数目可控,噪声数据的清洗程度则根据实际情况来界定。六、清洗结果经过三个模块的数据清洗之后,可以观察相关的数据清洗结果。图4为经过通用数据清洗之后的结果。图5为可需数据清洗的点分布。图6为离散数据清洗的点分布。P三(ms)PU三(ms)图5:可需数据清洗数据点集(Mx河S(Mxhke(MMs图6:离散数据清洗数据点集图二:通用数据清洗后数据点集!i三(ms)图7:数据清洗后数据点集通过图7和图4的对比可以,可以观察相关的数据清洗结果。可以看到通过三类数据清洗过程后,数据质量和可用性得到较好的提升,为功率特性测试提供了优质的数据输入。