BS结构的设计与实现

本课题的目的是运用数据挖掘技术探索针灸处方配伍规律的获取途径。数据挖掘技术能够获取针灸处方研究的挖掘模式,为针灸处方配伍规律研究提供有效、可行的数据分析途径。
并且在不同的疾病中,可得到相关疾病之间不同用穴的影响程度以及分析出该类疾病的用穴规律。
   用现代科学技术来分析针灸处方,揭示其内在的配伍和应用规律是当前针灸领域研究的热点问题。目前在针灸领域运用数据挖掘技术的应用较少,尚处于起步阶段,其前景广阔,同时充满挑战。因此在这一领域的研究中,我们既要看到已取得的成果,也要看到当前存在的问题和不足。例如,在数据的来源上,研究者多是从针灸处方教材中选取某证的配伍用穴进行挖掘分析,其样本量较小,研究的结果缺乏足够的说服力和可信性,所以准确、可靠的信息抽取工作十分必要,以建立相对完备的针灸处方数据仓库。此外存在的问题,即对于挖掘出的理论结果缺乏权威的中医理论和临床分析验证,也需要进一步的实验研究筛选。
   关联分析的优势在于,可以从大量、多维数据中分析存在于其中任何关联规则,关联规则的发现具有普遍性。
1.2 数据挖掘的发展历史及国内外研究现状
  数据挖掘技术的出现和应用,为针灸处方配伍规律的分析带来了新的研究方法和思路,无论是针灸处方数据的特点还是数据挖掘的方法、功能上讲,彼此是相契合的,运用数据挖掘去分析针灸处方数据是科学可行的。
   数据挖掘从1989年被提出来以后,便迅速成为研究热点,广泛用于商务管理、生产控制、市场分析、工程设计和金融风险预测、分子生物学、基因工程等领域。
1.3 数据挖掘技术在医学领域中的研究现状及意义
   随着数据挖掘技术的发展,被广泛应用在各个领域,在卫生系统,使用关联规则、聚类分析算法对患者的住院信息进行了分析,大大提升了医院的服务质量和管理水平。
数据分析技术是一种应用型的新技术,它的应用范围非常的广泛,而且取得了令人骄傲的研究成绩,目前已经应用到金融、卫生、运输、安全等行业领域。本文分析提出了将数据挖掘技术应用于针灸领域研究中的一种新思路,并提出了依照这一新思路的解决方案。
   本文通过对数据挖掘中各种算法的比较,选择了适合针灸处方分析模型的关联规则和聚类分析算法,利用数据挖掘中的挖掘工具WEKA实现了关联规则在针灸处方分析中的应用,并用聚类算法对结果进行进一步的分析。
   
    1.4 本文的研究内容及论文结构
第一章介绍了本文的研究目的、内容、方法、意义等内容。第二章介绍了数据挖掘与数据仓库的基本信息和它们之间的联系。第三章是针灸处方数据仓库的建立,通过对针灸处方数据仓库结构设计、模型设计以及数据的抽取、加载、转换来建立针灸处方数据仓库。第四章针灸处方数据挖掘,利用改进的关联规则和聚类分析对针灸处方数据仓库进行数据挖掘。第五章是本文的总结与展望。
数据仓库和数据挖掘技术
2.1 数据仓库
2.1.1 数据仓库概念
  运用传统的联机处理事物方法在决策分析方面已经远远不能满足用户的分析要求,而数据仓库(Dw,Datawarehouse)的出现正为解决此问题而产生的一种数据环境。
   数据仓库的概念没有明确的统一规范,Bill Inmon提出的概念被广泛接受,数据仓库即数据集合,主要应用在支持管理决策方面。数据仓库可以对数据库内的数据进行刷新、加载和决策分析是与传统数据库的本质区别。
   数据仓库不同于传统的操作型数据库,数据仓库的作用是进行决策支持与数据分析的。数据仓库不但信息量大,而且具有可靠的稳定性,数据信息一般是不进行变动的,它的来源有很多的数据结构构成,按照用户的需要进行决策分析。
   实现有效的决策支持是数据仓库的最终目标。使用数据挖掘软件系统对信息进行加载、组合,提取出有用的信息并构成新的数据库,根据用户的需要对新数据库的信息和针对性问题产生关联信息,从而达到决策支持的目的。
2.1.2 数据仓库的特点
   (1)主题与面向主题
   主题作为一个抽象的概念,运用数据仓库进行决策分析时要解决的关键内容,主题与数据量的多少、操作系统的来源有关。
   在数据项属性多的情况下,可采用化大为小的方法实现主题。
   (2)数据仓库数据的集成性
数据仓库数据的集成性即数据的整合性。将先有的数据通过整理、汇总后形成新的数据仓库,通过对数据预处理,将噪音数据剔除,完善数据库内的数据,实现数据库内信息的完整、准确性。
   (3)数据仓库数据的不可更新性
   查询是数据仓库的主要功能,为用户提供决策分析是数据仓库的主要目的,通常情况下是不需要进行修改操作只需提供查询功能。数据仓库内的数据来源的时间不一样,收集的次序也不同,把这些内容统计、重组在一起是一个非常大的工作量,而非联机处理的数据。与数据仓库管理系统相比,数据仓库要简单的多,只要提供相对较高的索引技术,能够满足数据的查询功能即可。
   (4)数据仓库数据的时态性
   时态性指的是记录的数据从发生到某一阶段时期内的信息内容,它与操作型数据库只存储历史数据有着本质的不同,所以通过这些信息,可对未来发展趋势和发展历程做出准确的分析和预测。
   数据仓库的数据的作用是为用户提供决策分析和进行查询的,一般情况不必进行修改和剔除,数据仓库的数据是长期保留的,只要定期进行刷新、导入即可。与时时需要发生变化的操作型数据库有着本质的不同。
2.2 数据挖掘
2.2.1 数据挖掘的概念
   数据挖掘在20世纪末正式形成,自90年代以来,在每次的人工智能学术会议上数据挖掘的研究都是热点问题。到目前为止数据挖掘还没有统一的规范的概念。
2.2.2 数据挖掘的过程
   数据挖掘的过程一般包括采集阶段、预处理阶段、挖掘阶段和评价阶段四个阶段组成[26-29],如下图:
  图2-1 数据挖掘过程
   (1)数据准备
   准备工作是数据挖掘的前期工作,选择数据并把数据集合再进行分析是数据准备的重要内容。为把数据规范化产生要对数据进行降噪处理,在数据挖掘系统中提取并组合成新的数据。为提高挖掘结果的质量,将数据进行缩减并进行处理,也就是指的选择数据和预分析数据。使用数据挖掘软件对数据进行细致、深入地观察和表述,数据准备阶段发挥着重大的作用。
   (2)挖掘
   对数据库中的数据进行分析需使用多种方法。明确挖掘任务、使用恰当的数据挖掘算法,是数据挖掘的关键步骤。算法的选择需要注意的因素有很多,主要介绍两个方面:第一,针对数据特点的不同,要选择与数据信息属性相关的算法进行挖掘;第二,根据用户需求和实际运行环境的需要,选择适合的算法。如有希望获取容易理解、可视化的知识;也有希望获取准确度较的预测型知识,这些都要选择合适的算法进行挖掘。
(3)表述
通过数据挖掘技术挖掘到的结果,一般是使用直观的可视化工具便于用户的理解和使用。至于挖掘到的不同结果,用户可以存储到新建数据库中,为日后的使用做好基础,方便用户使用和调取。
2.2.3 数据挖掘技术
   关联分析(Assoeiation)序列模式分析(Sequentialpattems)分类分析(elassifiers)聚类分析(elustering)是从功能上分的数据挖掘分析方法。
   (l)关联分析
   关联分析即对有联系的有用信息进行数据挖掘,那些信息之间是有联系又不易被发现的。
(2)序列模式分析
   序列模式分析也是挖掘数据间隐藏的、不易发现知识之间的相互关系,但其侧重点在于分析数据间的因果关系,如用户在选购某种商品之前最常购买的其它与之相关的商品是什么。
2.2.4 基于数据仓库的数据挖掘
基于数据仓库的数据挖掘首先要解决的就是挖掘对象的问题,能够为挖掘提供理想的挖掘平台的就是数据仓库。但数据挖掘只对数据仓库内的数据进行有用信息的发现与提取。
2.3 关联规则
2.3.1 关联规则概述
   基本概念:
   (1)项集:项的集合就是项集(Itemset)项集包含的每个项都是一个属性值,所以项是包含一组属性值的集合。例如,项集{A,B}是一个2-项集,A、B是其属性。数据集中,出现频率非常高的那些项集称为频繁项集[32]
   (2)支持度
   同时包含A和B占总事务数的比例称为项集,反应了二者关联的可行性,它是一个度量项集出现频率的概念。
   进行关联规则挖掘,会用到频集出现频率的阈值,即支持度的最小值,企业根据自己实际情况进行设定。
   (3)置信度(可信度)Confident,CON)
   即是“值得信赖性”也称概率,置信度(A=>B)的概率用项集{A,B}的支持度除以{A}的支持度,表示二者关联的可靠性[33]它的公式如下:
  (4)重要性
   又被称为增益或兴趣度,它的作用是度量项集和规则。重要性的公式:
2.3.2 关联规则挖掘的经典算法:Apriori算法
   经典Apriori算法有其优点,也有其局限性,它的优点在于稳定的计算性能、清晰的算法思路和实现简单等特点。
   作为最经典的算法,Apriori算法采用迭代方法逐层搜索找出数据库中的频繁项集,形成的规则如下[34]
   (1)设置最小支持度、最小置信度:S、C。
   (2)计算候选1-项集。
   (3)若候选1-项集与最小支持相匹配,则生成频繁1-项集。
   (4)利用频繁1-项集计算候选2-项集,从而得出频繁2-项集,并利用频繁2-项集产生候选3-项集。
   (5)重复上一步,产生后续频繁项集k-直到不再产生新的候选项集为止。
   从算法的执行过程可以看出Apriori 算法的局限性:
   (1)在每一次计算侯选项集时,所有元素都参与组合,耗用大量系统资源。
   (2)全记录数据库扫描比较。
  图2-2 Apriori运算说明
2.3.3 Apriori 算法的局限性分析
   (1)频繁扫描数据库,I/O 负载很大。Apriori 算法每次都要对数据库频繁扫描,耗能服务器大量系统资源。
   (2)有大量的侯选项集。产生的候选项集越多,就增加Apriori算法的复杂性,大量频繁项集的产生,使得硬件资源消耗巨大,增加数据挖掘空间,降低效率。
   (3)在实际的挖掘应用中,事务发生的频率不同,其重要性也不一样,不同的内容有不同的项来代表,所以在设定最小支持度时须与信息内容相结合,不可将最小支持度设置的太小。
   (4)算法未得到广泛应用。该算法设计初衷只针对单个维度(属性)的布尔型关联规则的挖掘,但现实生活中,可能出现不同维度、不同数据量、多个层次的关联规则。面对类似情况,就必须对该算法进行改进和优化,以使其重新适应新的应用。
2.4 聚类分析
2.4.1 聚类分析的定义
聚类即“物以类聚”,指的是将类似的事物的多个属性或个别事物的集合的分类过程。聚类分析的目的是将类似的数据进行分类。聚类的产生时间很早,被广泛应用于各个领域。聚类分析与分类分析是有着本质的区别的,后者指的是有监督的学习。
2.4.2 聚类分析的分类与常用算法
   在数据挖掘研究应用广泛的算法中,聚类分析提出了很多新的算法。
   (1)划分方法为提高划分质量,使用一种循环定位技术将对象进行转移来提高划分质量。典型的划分方法包括:
   k-means,k-medoids,CLARA(Clustering LARge Application)
   FCM

结论与展望
5.1 工作总结
数据分析技术是一种应用型的新技术,它的应用范围非常的广泛,而且取得了令人骄傲的研究成绩,目前已经应用到金融、卫生、运输、安全等行业领域。本文分析提出了将数据挖掘技术应用于针灸领域研究中的一种新思路,并提出了依照这一新思路的解决方案。
   本文通过对数据挖掘中各种算法的比较,选择了适合针灸处方分析模型的关联规则和聚类分析算法,利用数据挖掘中的挖掘工具WEKA实现了关联规则在针灸处方分析中的应用,并用聚类算法对结果进行进一步的分析。
   在最后的实现过程中,我们得到了很多有价值的结论,这对我们的针灸临床起到了一定的指导作用。
5.2 工作展望
   (2)在对关联规则挖掘结果的研究中,发现产生的规则还是有一定的误差,究其原因,我认为在数据集中的属性字段选择上,还有许多影响针灸处方的因素没有考虑到,针灸处方的信息内容还不够全面,所使用的数据集可能还不是最佳数据集,这一点有待将来进一步研究。
  (3)数据挖掘算法改进。本研究采用的数据挖掘算法为Apriori算法。Apriori算法是关联规则的经典算法,但是存在着可能产生大量候选集和需要重复扫描数据库的缺点,对算法进行优化和改进,以提高研究效率,是下一步需要重点研究的内容。

原创文章,作者:Editor,如若转载,请注明出处:https://www.diyilunwen.com/uncategorized/817.html

(0)
EditorEditor
上一篇 2014年10月11日
下一篇 2014年10月11日

相关推荐

  • 【管理信息系统论文】驾校管理系统

    【摘 要】本系统采用B/S架构进行开发,采用微软的集成开发工具Microsoft Visual Studio 2008进行开发,后台编程语言采用C#语言进行编程,后台数据库采用SQ…

    信息技术论文 2014年12月30日
  • 浅谈转化需助生的途径

    在一个班集体,需助生的人数一般不多,但影响大,消极作用强。如不及早教育,任其发展,不仅影响班集体的建设,而且他们也很容易走上歧路,成为“害群之马”。但如教育得法,则可能是“浪子回头…

    未分类 2014年10月12日
  • 【信息技术论文】如何在信息技术教学中培养学生的信息素养

    摘要:目前,信息技术教育在高中课程中已经提上了一个新的台阶,特别是随新一轮的课程改革的进行,给信息技术教师的教学、学生的学习都带来了巨大的变化。新课标也明确提出了要提升信息素养,培…

    信息技术论文 2014年11月28日
  • 浅析企业工商类管理人才的培养策略研究

    【摘要】在现今竞争激励的社会中,企业只有通过不断提高工商管理类人才的素质、专业技能知识、管理能力等才能提高企业的核心竞争力。本文通过对管理者应该具备哪些基本能力的研究之后,提出了如…

    未分类 2014年10月12日
  • 同样的抛弃,同样的反抗,不同的意义

    内容提要:古希腊悲剧家欧里庇得斯的著名悲剧人物美狄亚和中国武侠小说家金庸的《神雕侠侣》中李莫愁是中西文学中的两位复仇女性。虽然她们生活的社会背景、身世和经历各异,但是她们作为女性在…

    未分类 2014年10月15日
  • 新课改背景下对中学政治教师的专业发展

    一、教师专业化发展问题的提出   在我国,教师专业化发展一直以来都备受重视,是教育事业改革的排头兵。“胡锦涛总书记指出,推动我国教育事业发展,必须充分发挥广大教师的重要作用。我国教…

    未分类 2014年10月10日
  • 【信息技术论文】浅谈现代数据通信中的交换技术

    摘要:近年来,随着计算机技术的发展,产生了一种新的由通信交换技术与计算机技术相互融合的新型交换技术,进而实现了计算机之间以及计算机与终端之间的通信。数据通信是继电报、电话业务之后的…

    信息技术论文 2014年11月24日
  • 大班幼儿告状行为的表现及对策研究

    摘要本文采用观察法对福建师范大学实验幼儿园大班幼儿的告状行为进行了研究,以“白描”的方式记录幼儿告状行为的案例,并通过收集到的案例分析大班幼儿告状的类型及原因。按幼儿告状动机把幼儿…

    未分类 2014年10月11日
  • 浅谈水性油墨未来发展趋势

    摘要:今年来由于社会的不断进步,随着生活的水平逐渐提高,对事物的追求越来越注重环保化。但是印刷中的油性油墨是个高污染行业,很多指标都达不到环保要求。而水性油墨具有很好的环保性,逐渐…

    信息技术论文 2014年10月11日
  • 元代童蒙教育研究概况

    一、文章选题意义(一) 童蒙教育研究的重要性“童蒙”一词《辞源》里解释如下:“童蒙,幼稚识未开知的儿童”,童蒙教育即未成年儿童接受的基础教育。古礼“八岁入小学,十五岁入大学”成为先…

    未分类 2014年10月25日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注