摘要:随着信息化产业的迅猛发展,数据挖掘越来越广泛地深入到了各个行业领域,它涵盖了金融信息行业、电力行业、生产制造行业、互联网行业,公共服务行业等。随着经济全球化的发展,企业间的竞争逐渐呈现出白热化状态,因而谁具有分析数据资源的能力谁就有获得潜在价值的可能。一个企业往往拥有一个庞大的数据仓库,重要的是我们如何通过数据挖掘的方式来使企业获得差别优势,为管理及决策提供支持,赢得更高的利润。这个问题的解决依赖于两种技术:一是数据仓库技术,即把企业各个组织部门的数据进行分类整合,将业务数据转换成商业信息,形成可靠的数据管理环境;二是数据挖掘技术,即数据库知识发现,通过计算机实现从海量数据中挖掘出对企业有益的数据和资源。那么如何进行数据挖掘呢,这就用到了统计建模、回归分析、数据处理等方法,本文将结合企业的市场营销实例探讨数据挖掘的过程。
关键字:分类; 回归; 关联规则; 建模; 数据挖掘; 数据仓库
Abstract
With the rapid development of information industry, data mining is becoming more and more widely used in various industries, it covers the financial information industry, power industry, manufacturing industry, Internet industry, public service etc.. With the development of economic globalization, competition among enterprises gradually showing a white hot state, so who has the ability to analysis the data resources who have obtained the potential value of may. An enterprise often has a huge warehouse, important is how we use data mining methods to obtain the difference advantage, provide support for the management and decision-making, earn higher profits. To solve this problem depends on two kinds of Technology: one is the data warehouse technology, Department of organizations that enterprise data integration, business data into business information, form the data management environment and reliable; the two is the technology of data mining, knowledge discovery in database by computer, dig out the useful data and resources from the mass of data. So how to conduct data mining, which is used in the statistical modeling, regression analysis, data processing method, the process of combining the enterprise marketing examples of data mining.
Key Words:Classification; regression; association rules; modeling; data mining; data warehouse
一、数据挖掘与数据仓库的概念
数据挖掘就是从海量数据及文件中挖掘出潜在的、隐含的并对决策管理过程有益的关系、模式和趋势,并利用这些规律和关系建立用于支持决策管理过程的模型,提供预测性支持的方法、工具以及过程;通过模型的建立和数据间的关系来分析企业所面临的风险及可能获得的潜在利益,在营销过程中起到不可缺少的作用。
数据仓库的概念早在《建立数据仓库(Building the Date Warehouse)》一书中W.H.Inmon 博士就已经提出了,他指出数据仓库其实就是面向对象的、集成的、不可更改的、随着时间不断变化的数据集合,用于支持管理经营中的决策过程。
二、数据挖掘的现状及应用
现在大多数企业所面临的现状是“海量数据,信息缺乏”,因而数据挖掘就显得尤为重要了。目前企业实施的大多数数据库只能单一的实现数据的写入、读出、查询、修改等基本功能,却无法发觉在海量数据中的有用信息,例如对客户的数据进行分析,并根据分析结果对客户进行分类定位,挖掘出不同客户对于市场的需求差异,从而观察并预测出企业的未来发展趋势。
比如,英国的某电信行业要发布一些新的产品,直接推销的方式可能并不会引起很大的反响,但是如果通过调查问卷的方式收集客户资料,通过数据挖掘的方式整合出客户的需求,产生的回应率将提高90%;又比如汇丰银行对客户群进行细分,针对每项业务找出最具发展潜力的客户,使用数据挖掘技术将使营销费用减少30~40%;超市对消费群的分类,通过数据挖掘技术发现消费者的喜好及习惯,调整货架的摆放可以使产品在短期内获得更高的盈利。“啤酒与尿布”的故事相信大家都有所耳闻。在某超市,啤酒和尿布摆在同一个货架上,当大家都在奇怪为何两个毫不相干的产品会摆放在一起销售时,这两个产品的销售量竟然较以前大幅上升。其实这是美国沃尔玛连锁超市的一个真实的案例,沃尔玛对消费者的购买行为数据进行分析研究后发现,跟尿布一起购买最多的产品竟然是啤酒,这源于美国的一个社会行为。美国的夫人常会叮嘱丈夫在下班以后买些尿布回家,而丈夫们在购买尿布之后往往会选择买些自己喜欢的啤酒。沃尔玛利用数据挖掘的方式对大量的交易数据进行分析发现了这一潜在的商机并获得了巨大的利润。
数据挖掘技术的应用让企业的商务智能流程真正地形成了闭环。它能够帮助企业不断了解自身在发展运作中存在的各种问题,发现新的市场机会,并适当及时地调整企业战略计划,从而提高企业的经营状况和管理水平。
三、数据挖掘建模过程的基本任务及相关介绍
基本任务:数据处理、分类回归、聚类、关联规则、时序预测
3.1 分类与回归
分类顾名思义就是把数据根据不同的属性映射到不同的类,分类的过程就是构造分类函数的过程,先是模型的创建,然后是利用分类模型对测试的数据进行分组。例如在市场营销过程中,根据各种变量对目标市场进行市场细分,可根据最终用户、顾客规模、组合效用细分等。
回归是指用属性的历史数据来预测未来趋势。它可以分为线性回归和非线性回归,采用连续的预测值。企业可以通过线性函数及模型观察到未来可能存在的风险并及时调整管理策略和营销手段。
著名的算法有:FNN、RBF、ANFIS、WNN、SVM、CART
3.2聚类分析
聚类是指在未给定分类的情况下根据数据的相似度将数据进行归纳划分的方法。其划分的基本原则是保持最大群内相似度和最小群间相似度。
著名的算法有:分裂方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法
3.3关联规则
关联规则是指隐含在数据之间的关系,其一般形式是:若A发生,那么B有C%的可能性发生,C就成为关联规则的置信度。在利用关联规则在数据库的大量数据中发现相关联系时,通常采用的技术有:关联规则、序列模式分析等。
3.4时序预测
时序主要是指数据在时间维度上的相关性,根据时间的变化而呈现出规律性的发展变化。时序的变化受到多方因素的影响,其中包含季节性变动、周期性变动、不规则的变动等等。
3.5数据采集
在数据仓库中,数据采集需要解决的问题有确定要抽取的数据源以及数据加载的目标数据库,对数据进行不断的重构和重组,将代码翻译为完整的业务描述。如果只依靠SQL语句是很难实现数据采集工作的,必须使用专业的工具,这种工具应该具备完善的编程方法和复杂的数据采集规则。
四、数据挖掘建模的过程
首先应该定义挖掘的目标,找到目的数据源;然后对数据仓库中的庞大数据进行采集取样,方法包括随机取样、等距取样、分层取样等;再对数据进行深入的调查探索也就是数据探索;将得到的数据进行预处理,包括数据的成分目录分析、属性分类、数据筛选等;再考虑本次的建模属于上述基本分类中的哪一种,确定后再决定选择哪种算法进行数据挖掘的建模;最后就是模型的构建过程和之后的评价分析。
五、基于不同客户群的市场营销战略管理案例分析
5.1 提出数据挖掘的目标
随着竞争的加剧,很多企业想通过数据挖掘发现潜在价值从而减少营销成本,提高盈利,他们的主要目标是争取更多的客户、降低服务成本、增加产品销量、增加客户对某一产品的忠诚度从而使其成为长期客户、对未来趋势的预测等。
5.2分析过程
进行深入的市场细分,它包括地理细分、人口细分、心理细分、行为细分、组合效用细分等。我们可以通过聚类的方法根据客户的相似度对客户进行不同程度的划分,划分客户群是进行市场定位以及确定市场营销策略的前提。
5.2.1客户分群的商业理解
家具公司可以根据客户的年龄、收入和家庭人数等几个因素将整个家具市场进行细分,每个家庭都属于子市场中的一个。同样可以将客户群分为:老年人、工薪阶层的中年人、青年人,根据年龄的划分,企业可以制定更好的营销策略针对不同年龄的人群采用不同的销售理念。老年多会购买价格低廉且样式传统的实木家具;中年人则会选择耐用质量好且价格公道的家具;青年人比较偏向于款式新颖价格低廉的家具。
5.2.2客户分群的数据理解
确定数据挖掘需要的数据源,包括客户的基本信息,对数据进行深入的调查探索。
5.2.3客户分群的数据准备
数据准备的主要工作是将未经加工的原始数据整合成数据集。
5.2.4客户分群的模型建立
找到相关因素进行分析从而优化组合,基本原则是保持最大群内相似度和最小群间相似度。
总结
几年来随着新技术的发展,出现了数据库营销的概念。是指企业通过数据挖掘技术收集消费者的大量信息,经过分析整合后,有针对性地传播营销信息,以达到盈利的目的。数据挖掘技术已经越来越受到企业的重视,它在企业的市场营销过程中也越来越不可或缺。但是由于数据资源过于庞大,我们的软硬件还需要发展来支持数据挖掘技术,因此深入地研究数据挖掘算法继而实现更高效的计算是实现海量数据挖掘的关键所在,我们还有很长的道路要去探索与研究。
参考文献
[1].《数据挖掘实用案例分析》 张良均 陈俊德 刘名军 陈荣著 机械工业出版社2013年
[2].《市场营销学通论》 郭国庆著 中国人民大学出版社2013年
[3].《数据仓库项目管理实践》 于宗民 刘义宁 祁国辉著 人民邮电出版社2006年
[4].《数据仓库与数据挖掘》 缪开际著 北京大学出版社2008年
原创文章,作者:sowenn,如若转载,请注明出处:http://www.diyilunwen.com/lwfw/scyx/6207.html