数据科学是在英文世界中诞生的,我们一般所说的数据挖掘和数据分析实际上就是英文的data mining和data analysis,所以要辨认两个词的区别,不妨看它们在英文中的语义。
「Data mining is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. It is an interdisciplinary subfield of computer science. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating. Data mining is the analysis step of the "knowledge discovery in databases" process, or KDD.
数据挖掘(Data mining)是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“数据库知识发现”(KDD)的分析步骤。
Analysis of data is a process of inspecting, cleansing, transforming, and modeling data with the goal of discovering useful information, suggesting conclusions, and supporting decision-making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.
数据分析( Data Analysis)是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息,得出结论和推动决策制定。数据分析具有多个方面和多种方法,包括各种名称下的多种技术,不同的商业,科学和社会科学领域。」
这是维基百科中对数据挖掘和数据分析的定义。可以看到提及数据挖掘时,一般指的都是用人工智能、机器学习、统计学和数据库的方法应用于较大型数据集,是"knowledge discovery in databases"的一个步骤,本质是一种计算过程,目的是发现知识规则(discovering patterns)。提及数据分析时,一般包含检查、清理、转换和建模的过程,本质是人的智能活动的结果,目的是发现有用信息、建设性结论以及辅助决策