浅谈对数学建模,数据挖掘,数据分析和数据模型的区别 - 知乎
一起聊有趣的数字~~
数字好玩mp.weixin.qq.com最近跟很多朋友在聊对专业术语和流行话题的认知。的确随着应用场景的变化很快,大数据处理环节的边界也在不断演变,不断在挑战认知的宽度。 本着不断学习,不断尝试的心态去探索新的好玩的方法,会其乐无穷~~
· 正 · 文 · 来 · 啦 ·
数学建模:是数学的一个分支,理论上是根据实际问题来建立数学模型,对数学模型来进行求解,然后根据结果去解决实际问题。用数学符号,数学式子,程序,图形等对实际课题本质属性的抽象而又简洁的刻画,它或能解释某些客观现象,或能预测未来的发展规律,或能为控制某一现象的发展提供某种意义下的最优策略或较好策略。数学模型一般并非现实问题的直接翻版,它的建立常常既需要人们对现实问题深入细微的观察和分析,又需要人们灵活巧妙地利用各种数学知识。这种应用知识从实际课题中抽象、提炼出数学模型的过程就称为数学建模。
如果想要用一句话总结说明,就是从具体事务中总结归纳相似相异性,抽象提炼出特征的过程。举个特别好理解的例子吧:比如在教小朋友们认识立体图形时:
1、只有球面的立体图形,只能滚动;称为--球体, 足球、篮球等;
2、有球面和一个平面的立体图形,可以滚动和移动;称为--椎体,三角锥,圣诞树等;
3、有球面和两个平面的立体图形,可以滚动、移动和堆放;称为--圆柱体,保温杯,泡沫滚轴等;
4、没有球面只有平面的立体图形,可以移动和堆放;称为--立方体,魔方、铅笔盒等;
小朋友在学习这些立体图形时,总结的特征:滚动、移动和堆放,具备什么条件,就会有什么特征,这样简单的归类统计,其实就是最简单的数学建模过程。这样的思维训练就是在训练逻辑思考力。
应用数学去解决各类实际问题时,建立数学模型是十分关键的一步,同时也是十分困难的一步。建立数学模型的过程,是把错综复杂的实际问题简化、抽象为合理的数学结构的过程。要通过调查、收集数据资料,观察和研究实际对象的固有特征和内在规律,抓住问题的主要矛盾,建立起反映实际问题的数量关系,然后利用数学的理论和方法去分析和解决问题。
现在越来越多的数学建模比赛走进校园,开设了各种形式的数学建模课程和讲座,为培养学生利用数学方法分析、解决实际问题的能力开辟了一条有效的途径。全国大学生数学建模竞赛由国家教育部高教司和中国工业与应用数学学会共同主办。竞赛评奖以假设的合理性、建模的创造性、结果的正确性和文字表述的清晰程度为主要标准。

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
在我看来,数据挖掘首先是提取有含义的数据,通过针对性的清洗,高质量剔除干扰数据,分析并发现高度相关的数据。这里有个最经典且流传已久的数据挖掘成功案例:"尿布与啤酒"的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
根据一般经验,很难想到尿布与啤酒的关联性会那么大,但是沉淀下来的历史销售数据通过挖掘提炼清洗过滤,尿布和啤酒的销售关联度就凸显出来了。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

当然想要在日常处理的场景中快速定位到可能存在关联度的范围,是需要很多算法和经验的。现在有两种说法,一种认为现在数据的集聚太快,人们的行为变化太快,经验已经过时了,跟不上现在的变化趋势,不能凭经验找目标数据去做关联证明;另一种认为,就是因为数据量太大,耗用大量人力物力和时间成本去处理海量数据,得到的结论往往因为质量过低的数据干扰,产生与实际情况差异较大的结论;其实这两种观点都有各自的立场,也都是存在的大数据运营问题。当然数据挖掘算法的使用要依据不同的场景进行选择,初期要减少弯路,经验的判断也是很重要的一种校验维度。
目前最常用,最流行的挖掘算法有聚类降维、最大邻近值、决策树、还有Google最经典的paperank算法(我的偶像充分利用Google算法的特点,成功让自己的推文在一个月内推送到了首页Top3的位置,改天给大家安利一下:大牛的脑洞就是与一般人不一样)
C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。
K-means算法:是一种聚类算法。
SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中
Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。
EM:最大期望值法。
Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。
KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。
Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)
Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。

数据分析,相对前两个概念来看,更偏重于对数据结果的透视,对技术上的处理和效果实现相对而言要求低一些。但是数据分析是对挖掘数据的价值提升,再举个特别简单的,就在身边的例子来说明:(如下是经过清洗,并剔除了干扰项的按照时间切分整理后的数据,不多,但可以发现很多分析角度,制定相应的营销策略)
某男士的一周消费记录:
月初 工作日:周一:20 30 1200 100 小计:1350
工作日:周二:22 33 50 18 小计:123
工作日:周三:20 33 200 500 小计:753
工作日:周四:2.8 30 0 60 小计:92.8
公共假期: 周五:2.8 60 150 699 小计:911.8
公共假期: 周六:50 66 500 350 小计:966
公共假期: 周日:0 0 200 450 小计:650
乍一看,从消费账单上清洗并提炼出如上数据,数据不多,很清晰,这时候周密的数据分析就可以再一次提升数据挖掘的价值。
- 初步一看,月初有固定大额支出,可能是房贷、房租或信用卡账单等,要剔除一次性因素后做分析;
- 扣除一次性大额支出1200元,一周总消费:3646.6;日均消费:521元;月均消费预测:15628元;加上固定支出,合计约为17000元。如果该名男士的月均收入20000元(税后),收支比85%。基本覆盖,但是积蓄不多,抗风险或购买大额消费品的空间就较小了。
- 看到自己这样的账单,会想到什么,该节约了吧!怎么节约呢?从那些地方入手呢?规律支出是否有压缩空间呢?
- 周一~~周三起晚了,打车上班要20元左右,周四一想到快放假了,起得早,做的公交上门只需要2.8元, 这中间是不是有很多可以通过早起自律压缩的支出空间;
- 每天早上的一杯咖啡,是固定支出,而且预测是星巴克之类的常客,每日消费一杯30元左右的咖啡也是不小的开支,但这是生活品质的需要,针对这个需求,打折券的营销肯定有市场,响应率会很高,考虑卡劵的推送营销策略可以覆盖特定区域或特定人群;
- 一看就是单位有午餐提供的,如果没有工作餐或团队聚餐,基本没什么午餐消费,适量且有控制地外出就餐也能控制成本;晚餐要视是否加班了,加班的日子,晚餐消费不高,偶尔请合作伙伴应酬吃个饭而已;
- 消费主体的主要消费来自假期和周末,要么是有女朋友的要出去约会吃饭浪,要么是已婚已育周末带一家出门上课吃饭已是习惯;要控制开支,增加结余,周末和假期的生活安排可以尝试做较大的调整;
由于篇幅的关系,不能写得太多,其实如果结合调整策略后的数据,还可以分析出更多有意思得场景预测,结合预测做一些策略,观察数据的变化,又能发现新的场景预测。当然如果分析目的不同,比如上面的例子,如果收支比只有30%,或者是老婆想观察老公是否有小三的消费倾向,那分析的角度又会完全不一样了。
是不是有种数据挖掘是技术活, 数据分析是艺术活的感觉~~

数据模型 是数据特征的抽象。数据是描述事物的符号记录,模型是现实世界的抽象。数据模型从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供了一个抽象的框架。
数据以什么样的关系形成彼此联系,并以什么样的结构进行存储,同时也要考虑用什么方式方便查询和调取,这些都与数据模型有关。
数据发展过程中产生过三种基本的数据模型,它们是层次模型、网状模型和关系模型。这三种模型是按其数据结构而命名的。层次模型的基本结构是树形结构;网状模型的基本结构是一个不加任何限制条件的无向图。关系模型为非格式化的结构,用单一的二维表的结构表示实体及实体之间的联系。其中应用最广泛的是关系模型。
层次模型和网状模型因为数据读取不够便利,修改、检索和定位都比较困难,对数据的体量也有一定程度的制约。现在被广泛运用更多的是关系型的数据结构。
关系型数据结构以记录组或数据表的形式组织数据,以便于利用各种地理实体与属性之间的关系进行存储和变换,不分层也无指针,是建立空间数据和属性数据之间关系的一种非常有效的数据组织方法。优点在于结构特别灵活,概念单一,满足所有布尔逻辑运算和数学运算规则形成的查询要求;能搜索、组合和比较不同类型的数据;增加和删除数据非常方便;具有较高的数据独立性、较好的安全保密性。缺点是数据库大时,查找满足特定关系的数据费时;对空间关系无法满足。
(1)关系的数据结构:关系模型采用二维表来表示。二维表由表框架和表的元组组成。表框架由多个命名的表属性组成。每个属性有一个取值范围称为值域。二维表中的每一行数据成称为元组。
(2)关系操纵:关系模型的数据操纵是建立在关系上的数据操纵,一般有数据查询(基本单位是元组分量)、数据删除(基本单位是元组)、数据插入(基本单位是元组)和数据修改(基本单位是元组分量)四种操作。
(3)关系中的数据约束:关系模型中提供实体完整性约束、参照完整性约束和用户完整性约束三种数据约束。

目前随着算法和计算机技术的不断提高,数据挖掘利用人工智能(AI)和统计分析的进步,将这两门学科都致力于模式发现和预测。
数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。
一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照自动就能完成许多有价值的功能。
数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。
由于本人的工作管理范围更多在挖掘和分析,特别是对分析方式,价值挖掘更多的涉猎。在谈到分析从哪下手时就会有点啰嗦~~
◆ ◆ ◆ ◆ ◆
希望简单罗列的对比,方便大家了解。相关专业术语解释和图片来自网络搜索。
分享值得期待
爱总结的逻辑Gomp.weixin.qq.com数字世界其乐无穷 总结分享学无止境
公众号:数字好玩