随着互联网的飞速发展,呈爆炸式增长的数据使用户逐渐迷失在了信息的海洋之中,在进行数据分析时,海量的业务数据往往会带来一些问题:
准确性差:无效数据以及无需进行分析的数据混杂在其中,导致分析结果与实际偏差较大;
效率低:分析无用数据会带来时间浪费、降低分析效率;
成本高:大量数据往往需要投入巨大的人力和时间成本。
想要解决这些问题,其中一个很重要的方式就是「数据过滤」,数据过滤可以对数据进行指定条件的识别和筛选,从而提升数据质量,为后续的数据分析提供有效数据。
明白了数据过滤的重要性之后,那有什么可以高效进行数据过滤的方法吗?数据过滤主要分为行过滤和列过滤,今天就以Tempo 人工智能平台为例,来大家一起来看一下具体的操作。
行过滤
01、比较运算符
可通过数据过滤节点根据用户设置条件完成行数据的过滤和筛选。
02、逻辑运算符
►可通过过程查询分析器节点根据指定的条件从接入的数据表中提取数据,通过配置过滤条件,完成数据过滤操作;
►首先使用关系数据库输入节点和过程查询分析器节点构建流程;
►通过关系数据库输入节点上传全国销售订单数据集;
►通过过程查询分析器节点数据选择页签选择全国销售订单数据集选择所需要的数据;
►通过过程查询分析器节点数据过滤页签配置过滤条件以及且/或关系,比如要实现利润大于50的同时订单数量大于30的情况。流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何进行逻辑运算符过滤
03、通配符
刚才讲解的条件过滤都是对已知值进行的过滤,还有一种情况是我们要检索文本中包含某个词的所有数据,这里就需要使用通配符。通配符就是我们用来匹配值一部分的特殊字符。
►首先使用关系数据库输入节点和数据过滤节点构建流程;
►通过关系数据库输入节点上传全国销售订单数据集;
►通过数据过滤节点配置过滤条件对包含值进行识别,选择保留满足以下全部条件的数据,比如过滤出数据中顾客姓名包含张的数据;
►流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何进行通配符过滤
04、高级数据过滤
1)字段与字段
高级数据过滤可分为字段与字段、去重、单类别个数/占比、参数过滤以及扩展方式。
可通过数据过滤节点实现多个字段间进行查询过滤条件
►首先使用关系数据库输入节点和数据过滤节点构建流程;
►通过关系数据库输入节点上传全国销售订单数据集;
►通过数据过滤节点进行条件配置,完成字段与字段间过滤,比如过滤出利润大于运输成本的数据;
►流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何进行多个字段间的过滤
可通过数据去重节点实现支持用户根据指定的方式对数据集的重复行进行处理。支持两种去重方式:
►去掉所有列的完全重复数据;
►随机保留一行和去掉指定列的完全重复数据。
3)单类别个数/占比
可通过数据过滤节点实现用户对数据中的某个字段的取值个数或占比进行计算,并根据实际业务过滤掉所对应行。
4)参数过滤
参数过滤可通过过程查询分析器节点从接入的数据表中提取数据,根据配置参数,从数据表中进行数据过滤操作。
►首先使用关系数据库输入节点和过程查询分析器节点构建流程;
►点击设置,在流程参数配置页签根据所需筛选条件进行参数配置;
►通过关系数据库输入节点上传全国销售订单数据集;
►通过过程查询分析器节点数据选择页签选择全国销售订单数据集选择所需要的数据;
►通过过程查询分析器节点数据过滤页签配置过滤条件选择根据参数进行过滤;
►流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何进行参数过滤
5)扩展方式
我们还可通过SQL编辑节点、计算列、python编程节点等方式进行数据过滤操作。
平台中的计算列内置了多种函数及逻辑处理语句可帮助我们进行数据选择、汇总组、过滤原始数据、过滤汇总数据、数据排序操作。
►首先使用关系数据库输入节点和过程查询分析器节点构建流程;
►通过关系数据库输入节点上传全国销售订单数据集;
►点击计算列,输入列名及对应表达式进行操作。
Tempo人工智能平台,如何通过扩展方式进行过滤
列过滤
01、基于业务过滤
在实际应用中,根据业务情况我们可能还需要查询大于某个值或不等于某个值的条件,通过勾选满足条件的记录数的方式筛选数据,可通过数据过滤节点进行过滤操作。还可以 基于业务的列过滤需要根据业务情况,过滤掉与后续建模或分析无关的列。
02、基于模型过滤
使用统计方法识别数据特征,基于识别特征情况进行数据列过滤。比如说预测设备是否发生故障与维修人员的姓名无关,在建模初期就将维修人员字段过滤。
AI支持通过属性过滤节点读取描述数据特征、woe编码、变量选择和相关系数输出的模型,并通过不同的过滤条件添加字段,从而实现列过滤操作。
这里我们以描述数据特征模型进行说明。使用bankloan数据集进行描述数据,并将模型进行保存。
►首先使用样例数据节点和属性过滤节点构建流程;
►通过样例数据节点上传bankloan_Classification;
►双击属性过滤节点,选择基于模型选变量;
►选择模型并进行筛选配置,筛选出缺失值占比等于0的字段;
►流程执行成功后,在洞察查看运行结果。
Tempo人工智能平台,如何基于模型过滤
03、高级过滤
除了支持基于业务和基于模型的列过滤方法之外,我们还支持缺失值处理、自动数据处理、SQL编辑节点等其他方式进行数据列的过滤操作。
总结:
Tempo人工智能平台作为一款通用的、企业级、智能化的数据分析模型构建与数据应用场景设计工具,内置了丰富的数据处理节点,支持行、列和高级等近30余种数据预处理方法,让用户能够灵活地运用多种处理手段对数据进行过滤处理,为挖掘分析做好准备。