纠正异常的收入数据:通常区域、行业、职位、学历等条件相同的客户,其收入差距相对较小,因此可以按照客户提供的工作城市、行业分类、职位信息、公司性质等信息进行分群,并通过统计方法计算出相应的收入均值、中位数、标准差等,以此判断相同客户群体中收入数据明显超出统计范围的客户,视为错误数据。例如,XX城市、硕士学历、年龄40~50岁、高中校长,这一客户群体年收入均值为7.5万元,但其中一个客户的收入为80万元。显然,该数据属于异常数据,处理方法有两种:一种是用计算出来的收入均值对异常数据进行纠正,另一种则是根据常识和逻辑判断出该客户真实收入可能为8万元而错填为80万元,从而纠正为8万元。当数据量较大的情况下,第一种方法的效率相对较高。
补充缺失的收入数据:如上所述,一般认为影响客户收入水平的因素有地域、行业、公司性质、职位、学历等因素。因此,在客户没有填写其收入的情况下,可以利用影响客户收入的相关信息建立预测模型。由于收入数据为连续变量,因此首先需要将客户的收入进行合理分段,通过回归等方法建立模型,考察不同因素对于客户收入的影响程度,从而预测客户所属的收入段,以补充缺失的收入信息。
挑战 在收入数据的纠正和补充过程中,所面临的最大挑战就是准确度问题。为了提高准确度,需要对参与建模的变量、收入段的划分、所选的建模方法进行不断调试,直到达到预期的准确度方可应用。否则,不能轻易将精练后的收入数据放入实际的业务统计和分析中。
将公司名称、行业、收入三方面的信息合并,便可获得客户的社会阶层信息,如表5.10所示。
联络方式变量
在信用卡业务中,联络方式有很多种,包括直邮、电话、短信、电子邮件等,但是常常因为系统中所记录的客户联络方式存在一定的数据质量问题,而使得银行与客户的沟通产生障碍,降低运营效率。因此,有必要专门将这类变量单独提出来,通过数据工程对其进行整理和精练,提高可用性。这里主要以地址、电话数据为例,介绍其中存在的问题和解决方案。
·地址
问题 地址是银行进行账单邮寄和市场宣传等的重要途径,其可用程度是非常重要的。另外,从地址中也可以读取到客户所属行政区域,因此对于地址数据的精练以及信息提取,也是为未来分区域分析客户提供前提。由于地址信息是一种自由格式的多信息单元【关于各级地址信息单元的说明参见表5.11】变量,尽管国家邮政机构等机关对于地址填写形式有一定的标准和规范,但是客户在填写其相关地址信息时仍存在一定的随意性。因此,导致了很多地址数据质量问题的产生,如表5.12所示。
方法 地址数据为多元信息数据,对其进行标准化一般包含如下几个步骤:
建立一种能够对地址数据的标准化程度进行检验的方式或方法。
寻找能够对地址数据中的各信息单元进行字段拆分和字段分级的方法或工具。
建立一个包含目标地区所有地址信息【包含习惯地名称呼】以及各级地址信息之间辖属关系和组合方式的地址信息数据库。
依据地址数据的拆分和分级结果,将其与地址信息数据库进行匹配,根据数据库中的各级地址从属关系,确定、补充或纠正各级地址信息,将原始地址数据中的各信息单元用匹配到的标准信息替代,并进行重新组合。
对地址数据中的某些书写格式进行统一。例如,数据质量问题中所提到的门牌号、楼层、房间号等的书写格式。
目前,某些国家已经有了能够对地址进行自动拆分、匹配和标准化的软件。这些国家可以实现地址自动标准化的主要原因有两个:其一是他们对于地址的书写标准有非常详细和严格的规范与要求,例如美国邮政局关于邮政地址的规定,并且这些国家有非常详细、准确的地址信息数据库,例如美国人口普查局的TIGER数据库等。国外已有的这些地理标准化软件并不适合中国国情,主要原因是中国现有的地名、地址体系异常复杂,地名混杂、无序,缺乏规律性和统一的标准,特别是对于一些街道和大厦等详细地址的统计和记录不够全面、更新不够及时。
鉴于这种现状,对于地址进行全面标准化的实施难度非常大。考虑到目前我们所拥有的技术手段以及外部数据支持情况,在本项目中,仅对地址进行了区/县级【含】以上级别的地址数据的标准化,而对街道辖区【含】以下级别地址数据仅做了简单的格式处理。这样的处理方法对进行客户行政区域划分提供了很大帮助,但是对于判断相同地址客户的精度提高不大。关于前者的具体实施过程介绍如下:
建立各级行政区域的数据库,该数据库中主要包含省、市、区/县以及各级行政单位之间的对应关系。例如,地址中包含信息“广东”、“深圳”、“罗湖区”,则???以分别提取出客户相应的省、市、区信息为“广东省”、“深圳市”、“罗湖区”;再如,地址为“广东省深圳市福田区武汉大厦”,那么通过搜索可以确定为“广东省”,但是市级的地理信息将出现“深圳”和“武汉”两个市级行政单位,因此将需要借助省、市之间的地理和行政关系判断出客户所属地理单位为“广东省”、“深圳市”、“福田区”。
尽管可以通过各级行政地理单位之间的关系对绝大多数地址的行政区域进行判断和划分,但是仍然会有一些错误产生。例如,广东深圳珠海路,这种情况需要借助于客户所提供的邮政编码或电话区号,并依据官方提供的邮政编码或电话区号与地址信息的对应关系进行纠正。例如,该客户提供的邮政编码为518000,电话区号为0755,便可以确定该客户所属地理单位为“广东省”、“深圳市”、“福田区”、“珠海路”。否则,地址中又缺乏“省”、“市”等关键字的间隔,很有可能就会将客户判断为广东省珠海市。
在对省、市、区/县各级行政区作了标准的划分之后,对街道门牌号和房间号等信息字段进行格式的统一,主要的方法是建立半角、全角数字的对应,例如“12”与“12”;阿拉伯数字与中文数字的统一,例如“12”与“十二”;中文与字符的对应,例如“号”与“#”;各种习惯叫法的对应,例如“栋”与“座”,等等。通过建立这些对应关系,将相同意义、不同写法的地址信息进行统一,尽量提高相同地址客户直接的匹配程度。
挑战 前面已经提到过,国外一些成熟的地址标准化软件在中国内地不适用。其中,最主要的原因,也是地址标准化的最大挑战和困难就是,地址标准填写规范的制定和贯彻程度以及国内地址信息数据的建立和完善。这种挑战不光是信用卡客户地址数据精练所要面临的,也是国内各行各业中从事客户数据精练的工作人员都要面临的,解决途径只有通过政府机构的普查、一些专业数据精练公司或数据库公司来进行建立和完善。
·电话
客户电话包括家庭电话、公司电话以及手机号码等。这里以客户公司电话为例,介绍电话信息中经常出现的数据质量问题及相应的解决方案。
问题 无论固定电话还是手机号码,通常在一个国家内都有一定的编写规则。因此,对于电话号码的质量问题识别是比较容易的。公司电话号码常见的数据质量问题,如表5.13所示。
方法 针对上述数据的质量问题,对公司电话号码采取的处理方法为:按照分隔符把电话号码拆分为3个新的字段,即区号、总机号和分机号三部分;总机号8位号码保持位数不变,7位号码前面补零,即将7位、8位的电话号码均统一成8位,加入国家号字段,例如,中国内地为086;将填写为手机号码的记录进行号码移出;如果客户缺少手机号码,则用从公司字段中移出的信息进行补充;如果客户已经填写手机号码,则不进行补充,直接删除。根据公司电话的原始质量状况及修改后的可使用程度,对公司电话进行质量打分,以便指导业务和分析的提取和使用,参见表5.14。
由于电话号码标准化的处理流程比较通用,也比较容易实现自动化,因此这里同样以公司电话号码标准化为例,将具体处理流程介绍如下:
电话号码缺失的记录直接归入质量打分为7的类别。
把电话号码按默认的分隔符【空格< . + | & ! * ; ^ - / ,~ %】拆分为区号和总机号。
加入国家号,并全部设初始值为“086”。
电话中含默认分隔符以外的符号而导致没有正确拆分的,对区号变量和总机号变量分别进行拆分。
若区号、总机号或分机号中仍含有非数字字符,则认为此电话号码是错误的。错误的电话将不进行拆分,即国家号、区号、总机号、分机号均为空。
若区号中为连写电话【即区号与电话号码之间没有加分隔符】,则进行再次拆分。
若区号中为手机号,则区号和电话号码均设为空,归入质量打分为5的类别。
若区号变量中为无区号的电话号码,则将区号变量清空,将其中内容填写到总机栏中,质量打分为4。
单独处理港澳台地区的地区号。
对区号合法的8位号码,有分机号的归入质量打分为0的类别,无分机号的归入质量打分为1的类别;对区号合法的7位号码前面补“0”,有分机号的归入质量打分为2的类别,无分机号的归入质量打分为3的类别。
其余号码均视为错误号码,给予质量打分为6。
同样,家庭电话和手机号码也可以通过相应的精练过程和打分规则进行标准化。标准化的结果使得业务人员在使用电话号码时,可以根据质量打分情况判断那些电话是可用的,从而节省运营成本,提高工作效率。另外,标准化后的电话号码也方便银行通过自动外拨的方式与客户建立联系。最重要的是,标准化后的电话号码为后续进行客户关系分析提供了可靠的依据。
挑战 虽然电话号码具有一定的规范性,但是在客户填写和人工录入过程中仍然会存在一定的随意性和个人差异化【例如,区号和电话号码之间的分隔符,电话号码的组成部分等】,并且电话号码规则的统一性也仅存在于某一地区或某一国家之内,一旦出现其他地区或国家的客户,通用的规则和处理流程将会不适用。针对上述的两个难点和挑战,在前面的流程中已经介绍了相应的处理方法,希望能够为还没有进行电话号码标准化的企业和银行提供借鉴,减少障碍。
本章小结
数据精练过程将原始的数据转化为高质量的可直接应用的一级市场信息。通过将储存在不同业务系统中,服务于不同部门的原始数据汇聚在一起,从庞杂的原始数据中寻找出被掩盖和隐藏的与客户、商户以及银行自身相关的有价值的信息,以保障后续工作的准确性。