山东省滨州职业学院计算机信息科学系赵林明 山东省滨州市人民银行程宝安 随着信用卡业务的发展,银行积累了大量客户交易数 数据挖掘的过程是一个不断反馈的过程,可以粗略地 据,如何利用客户的特征数据和交易数据,获得客户的行为 分为:问题定义(Task Definition)、数据收集和预处理 模式,从而更好地为客户服务、提高效益,是信用卡管理中 (Data Preparation and Preprocessing)、数据挖掘算法 迫切需要解决的问题。数据仓库和数据挖掘技术在信用卡 执行,以及结果的解释和评估(Interpretation and 分析中的应用较好地解决了这个问题。 Evaluation)四个阶段。 数据挖掘技术的基础是人工智能,但它只是利用人工 一.数据仓库和数据挖掘技术 智能中一些已经成熟的算法和技术,如人工神经网络、遗传 数据仓库(DW,Data Warehouse)是一个面向主题 算法、决策树、邻近搜索算法、规则推理、模糊逻辑等。虽 的、集成的、相对稳定的、反映历史变化的数据集合,用于 然数据挖掘不一定非要建立在数据仓库上,但如果数据挖 支持管理决策。对此可以从两个层次进行理解,首先,数据 掘能与数据仓库协同工作,则能大大提高数据挖掘的工作 仓库用于支持决策,面向分析型数据处理,它不同于企业现 效率,能更好地满足决策的需要。因为数据仓库在纵向(历 有的操作型数据库;其次,数据仓库是对多个异构数据源的 史数据)和横向(企业范围内的数据)方面都为数据挖掘提 有效集成,集成后按照主题进行重组,并包含历史数据,而 供了更为广阔的活动空间,数据仓库完成了数据的收集、集 且存放在数据仓库中的数据一般不再修改。 成、存储、清洗等工作,数据挖掘面对的是经过初步加工的 数据挖掘(DM,Data Mining)是从大型数据库的数 数据,这使它能更专注于发现知识。 据中抽取出潜在的、有价值的知识、模型或规则的过程。数 数据仓库和数据挖掘之间有着内在的联系和互补性, 据挖掘的对象可为数据库,也可为文件系统,或其他任何组 数据挖掘技术要发挥潜力,就必须和数据仓库结合起来。 织在一起的数据集合。确切地说,数据挖掘是一种决策支持 Dw+DM的结构是决策支持的有效方案。此项技术在信用 过程,它主要基于人工智能、机器学习、统计学技术,高度 卡分析中的应用,为信用卡管理人员做出决策提供了科学 自动化地分析企业原有的数据,做出归纳性的推理,从中挖 依据。 掘出潜在模式,帮助决策者做出正确决策。 【l】国信用卡2006.o8 55 维普资讯 http://www.cqvip.com
i素 二 在信用卡分析中的应用 对于信用卡资信分析主题来说,将从前端得来的交易数据 1.信用卡数据仓库的体系结构 经过转换作为基础数据,按照时间进行综合,分别形成月数 信用卡数据仓库的体系结构如图1所示,由四部分组 据、季数据、年数据装入信用卡数据仓库。 成。 2.用判定树方法挖掘信用卡数据中的客户分类规则 信用卡数据仓库中的第一部分,是银行信用卡部门客 (1)判定树归纳算法 户的特征数据和交易数据(包括历史数据、业务数据和其他 输入:训练样本(Samples),由离散值属性表示;候 数据),是信用卡现有业务系统数据源,其数据特点是分散 选属性集合attribute ̄tist。 的和难以再次利用的。 输出:一棵判定树。’ 第二部分是中心数据仓库,由数据仓库和多维数据库 算法: 组成,源数据经过抽取、清洗和转换之后加载到信用卡数据 ①创建节点N; 仓库中;存储于多维数据库中的数据是经过再次加工的,为 ②如果Samples都在同一个类C,则进行③l 信用卡分析与决策提供了必要的分析基础。 ③返回N作为叶节点,以类C标记; 第三部分是应用服务层,以数据仓库为基础,以数据挖 ④如果attributAist为空,则进行⑤l 掘技术为核心,负责连接用户对数据仓库、多维数据库的查 ⑤返回N节点为叶节点,标记为Samples中最普通的 询访问。 类;//多数表决; 第四部分是信息展示层,负责为用户展示分析后的结 ⑥选择attribut—list中具有最高信息增益的属性 果,并可对展示的数据进行再次分析利用,形成分析报表。 test_attribut(选取采用计算属性优度法); 根据信用卡系统的特点、业务需求以及建立主题的基 ⑦标记节点N为test_attribut; 本原则,把信用卡资信分析作为主题建立信用卡数据仓库。 ⑧For each test—attribut中的已知值ai//划分 园 围 困数据源 多数据源集成 中心数据仓库 应用服务 信息展示 图1 信用卡数据仓库应用模型 56中田信用卡2006.o8 维普资讯 http://www.cqvip.com
≥麦 Samples; 定路径上的每个属性一值对形成规则前件(“ 部分)的 ⑨由节点N长出一个条件为test—attribut=ai的分枝; 一个合取项。叶结点包含类预测,形成规则后件(“then” ⑩设si是samples中test—attribut=ai的样本集合;// 部分)。由图2我们可以发现以下规则: 一个划分; ①if职业=公务员then类型=潜力客户 ⑩如果si为空,那么进行@; 正确度:100%,覆盖度:66.67% @加上一个树叶,标记为Samples中最普通的类; ②if职业=国企职员and年龄=26~35 then类型 {)Else加上一个由Generate_decision_tree返回的节点。 =盈利客户 (2)由信用卡数据构造判定树 正确度:100%,覆盖度:50% 从信用卡数据仓库中随机提取一部分数据,经过属性 ③if职业=国企职员and年龄=36~50 and职称= 删除、面向属性的归纳处理后形成24个训练数据,其数据 高级then类型=潜力客户 结构如表1。用判定树归纳算法进行数据挖掘构造出的判定 正确度:100%,覆盖度:22.22% 树如图2所示。 ④if职业=国企职员and年龄=36~50 and职称= (3)由判定树提取客户分类规则 中级then类型=盈利客户 我们可以提取判定树表示的知识,并以if—then的分类 正确度:80%,覆盖度:40% 规则表示。对从根到树叶的每条路径创建一个规则,沿着给 ⑤if职业=其他and住宅一租用then类型=亏损 客户 正确度:75%,覆盖度:100% ⑥if职业=其他and住宅=自置then类型=恶意 客户 正确度:100%,覆盖度:l00% 6个潜 我们用保留法对随机抽取的部分测试数据进行测试, 规则的正确度达85.7%。 本文利用数据仓库和数据挖掘技术对客户类别进行了 音 分析。数据挖掘技术还可以在信用卡的相关分析,比如客户 初始信用等级评定、客户当前信用等级评定、客户透支分 析、利润分析、消费行为分析、孤立点探测等方面有许多应 用。 2个潜力 4个盈利 1个潜力 图2判定树 表1 训练数据的数据结构 葺E历 篝 典型 蕊 j 。IR称 ≥ 月II队 遗支次数 透支佥颧r 螂 18~25 未婚 中专 亏损 租用 其他 员工 其他 300~1000 1~5 471 77 无 巾国信用卡2006,o8 57
因篇幅问题不能全部显示,请点此查看更多更全内容