数据挖掘:大数据分析方法

2020年12月28日17:14:27 发表评论 43 次浏览

本文概述

数据挖掘:大数据分析方法

数据在电子商务领域起着至关重要的作用。为了优化销售流程, 许多在线商店都在努力收集数据。借助分析工具, 他们可以编辑有关客户行为, 产品和购物车信息的数字和值。但是, 仅凭大量数据并不能为在线业务带来任何附加价值。那些期待优化销售方法并且增加利润需要能够以方便的方式评估信息。这是一种分析方法, 称为数据挖掘发挥作用。

什么是数据挖掘?

为了达到数据挖掘的定义, 分解术语所描述的表示形式和方法很有帮助。如果有人将在线访客跟踪工具的输出视为看似无用的数据, 则数据挖掘提供了一种解决方案。这涉及使用必要的工具来挖掘收集到的数据, 并提取相关信息。但是, 与实际的采矿操作不同, 使用了统计方法趋势和其他关系被识别。

数据挖掘被认为是数据库中的知识发现流程(KDD), 由以下流程组成:

  • 选择数据库
  • 以数据清理为目标的预处理
  • 将数据转换为所选分析方法所需的形式
  • 通过数学过程进行分析过程
  • 分析结果的解释

最终, 通过KDD发现的发现可以整合到在线商店的战略重点和营销决策中。此外, 可以应用这些见解的应用领域也非常多样化。

什么是数据挖掘?

数据挖掘的应用

数据挖掘提供了在科学基础上优化电子商务的可能性。在此, 应累积的大量数据为解释和预测提供了基础。这些方法经过统计准备和整洁的可视化效果, 使在线商店的运营商能够确定成功在线业务所需的重要因素。为此, 数据挖掘用于:

  • 将市场划分为细分市场
  • 分析购物车数据
  • 创建消费者资料
  • 设定合同期限的预测
  • 分析需求
  • 识别购买过程中的错误

数据挖掘方法

为了能够从大型数据集中提取相关的业务信息, 已经建立了许多基于识别重要关系, 模式和趋势的方法。这些方法也可以用于统计过程。

  • 离群值检测:与其他数据区分开来的极值称为离群值。在数据挖掘中, 使用异常值检测来识别非典型数据集。实际上, 这些数据挖掘方法可以例如通过公开可疑交易来揭示信用卡欺诈。
  • 聚类分析:聚类是指一组对象, 它们以一种或另一种方式彼此相似。该分析的目的是对非结构化数据进行细分。为此, 使用算法在大型数据集的结构中搜索相似性, 以识别新的聚类。与分类过程相反(请参阅下文), 聚类分析旨在发现创建组的新可能性。如果无法将数据集分配给任何群集, 则可以将其解释为异常值。集群分析的经典应用程序涉及识别用户组。
  • 分类:聚类分析主要旨在识别新的组, 而分类则涉及使用预定义的类。通过匹配数据集中的特征来分配这些数据。决策树提出了一种自动分类数据的通用方法。对于每个节点, 将调用对象的属性。此属性的存在决定了后续节点的选择。出于与电子商务相关的目的, 可以使用此过程以将客户划分为不同的细分市场。
  • 关联分析:关联分析的目的是识别数据集中的关系, 这些关系可以表述为推理规则。在电子商务方面, 可以使用这些数据挖掘方法来识别购物车中各个产品的相关性, 例如"如果购买了产品A, 那么产品B也将被购买"。
  • 回归分析:回归分析有助于创建通过各种自变量解释因变量的模型。实际上, 这意味着可以通过在回归模型中关联产品价格和平均客户收入水平来创建产品销售业绩的预测。

数据挖掘的局限性

在数据挖掘中, 采用统计程序使对可用数据集进行从根本上客观的分析成为可能。但是, 出于追求特定目标的目的而选择分析方法(以及各种算法和参数)的相当主观的性质可能导致伪造的结果。这种影响可以通过外包外部服务提供商的数据挖掘过程。

关于通过数据挖掘获得的数据质量的最重要因素之一是数据基础的质量。代表性结果通常只能从代表性数据中获得。因此, 数据挖掘通常需要对数据集进行高级处理。这样可以消除缺失的值和偏见。

最后, 需要注意的是, 数据挖掘仅以模式和交叉连接的形式提供结果。仅当针对先前的问题和目标解释分析结果时, 才能首先获得答案。

一盏木

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: