⑴ 【数据向】(三)数据建模、数据挖掘、数据分析异同
最近在看数据分析相关文章的时候,看到了很多相似的关键词,如数据建模、数据挖掘、数据分析等等。它们指的是什么,彼此之间又有怎样的关联或者区别呢。
在看数据建模相关概念时,有两种截然不同的说法,我尝试将它们总结如下:
- 在大数据领域,指的是将业务抽象为数据表以及表与表之间关系的过程;
- 在数据分析领域,更多的含义指的是“ 数学建模 ”,即找到输入和输出之间的规律的过程;
数据分析其实是更大的概念,但是如果单拎出来和数据挖掘进行对比时,他们的区别应该是:
- 数据分析侧重依靠人的智慧对数据进行观察,从而分析和推测
- 数据挖掘侧重依靠机器从训练集中发现规律
- 数据分析的常用方法为对比分析、分组分析、回归分析(找A和B的规律);
- 一般流程为先明确目标(ctr不高如何提升),然后对原因做假设,并且通过现实数据对假设进行验证,从而得到结论;
- 数据挖掘的常用方法为专家系统、统计、机器学习(分类算法、回归算法)等
- 一般流程为先明确目标,然后收集和清洗数据,对数据进行建模,最后输出模型或者规则;
这里参考的是: https://blog.csdn.net/achuo/article/details/51160456
这位大佬将流程分为了两张图来解释,我这里为了方便看,把两张图合二为一,同样也根据不同的步骤分层打上了不同的颜色。
同时在相关步骤的右上角也有对应的编号,关于对应编号的详细阐述可以在图的下方找到:
1、数据清洗:洗掉数据中的无效或干扰信息
2、数据整理:将原始数据整合成可以分析的样子
- 数据聚合:将多张表的数据聚合,比如用户购买流水、出售流水等,聚合为以用户为度的统计:购买次数,出售次数等;
- 数据打标:比如我们的源数据很散,假设是一张帖子,那么我们只需要提取其中部分信息,然后将这个帖子打上标记,比如求购贴/出售贴,涉及机型:任天堂/PS4/XBOX等
3、选择变量:从业务逻辑和数据逻辑两方面来考虑,业务逻辑重要程度更高
- 业务逻辑:哪些变量是可能影响结果的
- 数据逻辑:考虑变量的集中度(如果99%都是同一值,则不适合)、完整性(是否大部分数据都有该变量)
4、重构变量:调整变量或者将变量进行一定程度的转换,如聚合(活跃天数聚合为高中低活)、组合(A+B或者A*B等)
5、选择算法:要根据具体业务场景选择合适的模型(对应机器学习模型分类可以参考 【数据向】(一)人工智能与机器学习、深度学习的关系 中),比如:
- 购物习惯分析:相关、聚类
- 购物金额预测:回归
- 满意度调查:聚类、分类、回归
6、调整参数:给出一些必要的参数,比如K-means算法中的聚类数量K和迭代次数上限等参数,并且根据训练集的测试结果进行不断调整;
7、迭代优化:当调参解决不了问题时,考虑更换算法,比如K-means不好就试试系统聚类;回归模型不好就改成时间序列;
8、描述分析和洞察结论:通过观察事实数据,进行分组、对比等,得出一些结论,如某某地区玩家更多,某某游戏机更流行等;
⑵ 数学建模中有什么好的数据处理方法,尤其是量大的数据
你是要做统计吗?对大量数据的处理统计,spss是个很强大的统计软件,只要你将excel中的数据导入spss,然后选择你要处理的方式,软件自动帮你解决。至于lingo,是做优化的好帮手,而MATLAB虽然也具有统计处理数据的功能,但是没有spss强大,不过用来解微分方程是很合适的。
另外,如果你不会用spss,觉得学起来麻烦,那就用excel吧,其实excel的功能也是很强大的,处理数据很方便。我一般是先用excel对数据做一些初级的处理,比如排序啊,求和统计,平均数之类的,如果要做回归分析或者聚类分析等等,我就会用spss来做,这个用起来很方便。
⑶ 在做数学建模题时,都有那些方法可以处理大量数据
结合数模培训和参赛的经验,可采用数据挖掘中的多元回归分析,主成分分析、人工神经网络等方法在建模中的一些成功应用。以全国大学生数学建模竞赛题为例,数据处理软件Excel、Spss、Matlab在数学建模中的应用及其重要性。
当需要从定量的角度分析和研究一个实际问题时,人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用数学的符号和语言作表述来建立数学模型。
数学建模一般应用于高新技术领域和工程领域,对于寻常生活来说,并无很大的应用。而学生参与数学建模的学习和竞赛主要是培养学生的数学思维、创新思维、逻辑思维、团队协作能力和论文写作技巧等。此外,若能在数学建模中获奖,有利于本科、研究生等的学校申请。
数学建模的一般过程:模型准备、模型假设、模型建立、模型求解、模型分析、模型检验。
数学建模是一种数学的思考方法,是运用数学的语言和方法,把错综复杂的实际问题简化、抽象为合理的数学结构,建立起反映实际问题的数量关系,然后利用数学的理论和方法去分析和解决问题。数学建模是数学来源于生活而有应用与生活的桥梁和纽带。
⑷ 数学建模方法和步骤
数学建模的主要步骤:
第一、 模型准备
首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征。
第二、 模型假设
根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建
模至关重要的一步。如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以
高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应
尽量使问题线性化、均匀化。
第三、 模型构成
根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间
的等式关系或其它数学结构。这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老
人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱
大国,别有洞天。不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工
具愈简单愈有价值。
第四、模型求解
可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,
特别是计算机技术。一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计
算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重。
第五、模型分析
对模型解答进行数学上的分析。"横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作
出细致精当的分析,决定了你的模型能否达到更高的档次。还要记住,不论那种情况都需进行误差
分析,数据稳定性分析。
数学建模采用的主要方法有:
(一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模
型。
1、比例分析法:建立变量之间函数关系的最基本最常用的方法。
2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法。
3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策
等学科中得到广泛应用。
4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式。
5、偏微分方程:解决因变量与两个以上自变量之间的变化规律。
(二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型
1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由
于处理的是静态的独立数据,故称为数理统计方法。
2、时序分析法:处理的是动态的相关数据,又称为过程统计方法。
3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由
于处理的是静态的独立数据,故称为数理统计方法。
4、时序分析法:处理的是动态的相关数据,又称为过程统计方法。
(三)、仿真和其他方法
1、计算机仿真(模拟):实质上是统计估计方法,等效于抽样试验。①离散系统仿真,有一组状
态变量。②连续系统仿真,有解析表达式或系统结构图。
2、因子试验法:在系统上作局部试验,再根据试验结果进行不断分析修改,求得所需的模型结构
。
3、人工现实法:基于对系统过去行为的了解和对未来希望达到的目标,并考虑到系统有关因素的
可能变化,人为地组成一个系统。
⑸ 关于数学建模数据分析的方法
建议使用层次分析法,就是将指标通过专家打分,分别赋权重,然后构造一个指标函数,在通过Spss或其他统计软件,进行求解。
模型的建立:目标函数的建立,以第一个,即经济效益为例,你可以查阅经济书本,找到这些指标同经济效益的关系,来建立函数,一般是线性模型;
模型的求解:
你先用Spss,进行这5个指标的因子分析,得到贡献率高的因子,并得到它的权重系数,这就是你指标函数的权重值,这样你的指标函数就求出来了;
接着你可以用其他软件(一般我用matlab),将具体历年的数据代入指标函数,得到理念的经济效益值,最后做一个历年效益数据分析。
理论就是这样,实际就要自己操作了。