麦肯锡认为,大数据包括一系列数据集,这些数据集在获取、存储、管理和分析方面表现出的特征远远超出了传统数据库报告工具的能力。这些数据集具有数量庞大、数据流迅速、数据类型多样和价值密度低等特点,是生成综合数据分析报告的关键因素。
根据对这一定义的理解,可以将大数据分析概括为获取数据、打破孤岛、整合信息、识别模式并迅速为决策提供可行见解的过程。然后通过数据分析报告来传达这些见解,例如详细的数据分析报告和交互式数据分析仪表盘。
1.数据获取数据源分为三类:
第一方数据: 用户事实数据,如在某一机构购买的金融产品、购买时间、发行网点、姓名、电话号码,或运营数据,如用户在金融应用程序上的行为数据。
第二方数据: 通常指广告投放数据,包括广告印象、页面点击和广告来源等指标。一些公司将其与受众数据整合后视为第三方数据,从而创建了自己的 DMP。这些公司一般被称为第三方实体。
第三方数据: 行业数据,也称为公共数据,如关联数据或互联网行为数据。例如,某互联网公司提供的网站用户行为数据,以及离线数据。
2.整合整合包括利用关键点收集和整合第一、第二和第三方数据。
3.模式重构其目标是进行数据清理,将非结构化数据转化为结构化数据,以便进行统计、数据探索、模式识别以及为数据分析报告拟定观点。