CDA LEVEL Ⅲ 考试大纲
CDA LEVEL Ⅲ 考试大纲 一、总体目标CDA(Certified Data Analyst),即“CDA 数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证,旨在提升全球用户数字技能,助力企业数字化转型,推动行业数字化发展。「CDA 人才考核标准」是面向全行业数据相关岗位的一套科学化、专业化、国际化的人才技能准则,CDA 考试大纲规定并明确了数据分析师认证考试的具体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人才。
二、考试形式与试卷结构考试方式:一年四届 (3、6、9、12月的最后一个周六),线下统考,上机答题。
考试题型:客观选择题(单选60题+多选30题+内容相关10题)
案例实操题(1题)
考试时间:90分钟(客观选择题),120分钟(案例实操题),共210分钟
考试成绩:分为A、B、C、D四个层次,A、B、C为通过考试,D为不通过
考试要求:客观选择题为闭卷上机答题,请勿携带与考试无关的用品。
案例实操题考生须自行携带电脑操作(安装好带有数据挖掘功能的软件如:PYTHON、SQL、SPSSMODELER、R、SAS、WEKA等,进行案例操作分析。案例数据将统一提供CSV文件)。
三、知识要求针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。
1.领会:考生能够了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点之间的区别与联系,并能做出正确的阐述、解释和说明。
2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。
3.应用:考生须学会将知识点落地实践,并能够使用数据挖掘工具(如Python等)进行实操。能够根据具体要求,给出问题的具体实施流程和策略。
四、考试科目 PART 1 数据挖掘概论(占比 10%)a.数据挖掘概要(2%)
b.数据挖掘方法论(2%)
c.基础数据挖掘技术(3%)
d.进阶数据挖掘技术(3%)
PART 2 高级数据处理与特征工程(占比 15%)a.高级数据处理(3%)
b.特征工程概要(1%)
c.特征建构(2%)
d.特征选择(3%)
e.特征转换(3%)
f.特征学习(3%)
PART 3 自然语言处理与文本分析(占比10%)a.自然语言处理概要(占比1%)
b.分词与词性标注(占比2%)
c.文本挖掘概要(占比1%)
d.关键词提取(占比2%)
e.文本非结构数据转结构(占比4%)
PART 4 机器学习算法(占比30%)a.正则化的回归模型(2%)
b.决策树(分类树及回归树)(5%)
c.支持向量机(1%)
d.集成方法(9%)
e.聚类分析(4%)
f.关联规则(3%)
g.序列模式(1%)
h.模型评估(5%)
PART 5 数据挖掘实战(占比 10%)a.Pipeline(2%)
b.类别不平衡问题(4%)
c.模型优化与调参(4%)
PART 6 深度学习算法(占比 13%)a.感知机(1%)
b.BP 神经网络(3%)
c.卷积神经网络(Convolutional Neural Networks, CNN)(2%)
d.循环神经网络(Recurrent Neural Networks, RNN)(2%)
e.优化算法(2%)
f.深度学习中的正则化(2%)
g.自编码器与表示学习(1%)
PART 7 大语言模型与人工智能(NLP)(占比 12%)a.注意力机制与Transformer(3%)
b.大语言模型及其应用(5%)
c.微调与知识学习(3%)
d.Agent(1%)
五、科目内容 PART 1 数据挖掘概论 1、数据挖掘概要 【领会】 数据挖掘在政府部门及互联网、金融、零售、医药等行业的应用 【熟知】 数据挖掘的起源、定义及目标 数据挖掘的发展历程 【应用】 根据给定的数据建立一个数据挖掘的项目 2、数据挖掘方法论 【熟知】 数据挖掘步骤(字段选择、数据清洗、字段扩充、数据编码、数据挖掘、结果呈现) 数据挖掘技术的产业标准(CRISP-DM及SEMMA) 【应用】 运用数据挖掘进行不同文件格式的数据导入,并进行初步的数据探索,探索的内容包含数值型字段的描述性统计分析、直方图(需与目标字段做连接)、缺失值分析及类别型字段的描述性统计分析、条形图(需与目标字段做连接、缺失值分析。数据探索的结果可进行初步的字段筛选。 3、基础数据挖掘技术 【领会】 可视化技术(能使用相关工具根据业务问题做出可视化数据报告) 【熟知】 案例为本的学习(Case-based Learning):KNN(K-Nearest Neighbor)原理 数据的准备 样本点间距离的计算(Manhattan Distance、City-Block Distance、Euclidean Distance) 【应用】 运用数据挖掘中的KNN算法进行分类预测、数字预测及内容推荐。建模的过程需考虑将数据进行适当的转换以获得更优的分析结果。 4、进阶数据挖掘技术 【熟知】 数据挖掘技术的功能分类 描述型数据挖掘/无监督数据挖掘(关联规则、序列模式、聚类分析) 预测型数据挖掘/有监督数据挖掘(分类、预测) PART 2 高级数据处理与特征工程 1、高级数据预处理 【领会】 数据过滤(理解如何通过数据过滤的方式,建立区隔化模型,以提升模型的预测效果) 内/外部数据的扩充方法 【熟知】 缺失值的高级填补技术,包括KNN填补、XGBoosting填补 高级数据转换技术,包括数据泛化(Generalization)、数据趋势离散化(Trend Discretization) 【应用】 运用高级数据预处理技术进行数据过滤,以建立区隔化模型 运用高级数据预处理技术进行缺失值的侦测及填补 运用高级数据预处理技术进行数据泛化的处理 运用高级数据预处理技术进行数据趋势离散化的处理 评估上述不同的数据处理方法对模型效能的影响 2、特征工程概要 【领会】 特征工程的重要性 特征改进(数据清洗对特征的影响) 【熟知】 特征工程的涵盖范围 特征选择的目的 特征建构的方法 特征转换的方式 特征的自动学习 以AI促进AI 3、特征建构 【领会】 特征建构前的准备 特征的空值处理 特征的标准化 【熟知】 类别型特征的编码 顺序型特征的编码 数值型特征的分箱 建构多项式特征 建构交互特征 特征的归一化 【应用】 运用数据挖掘对特征进行适当的建构,以作为下阶段特征选择的输入 4、特征选择 【熟知】 无效变量(不相关变量、多余变量) 统计为基础的特征选择(卡方检验、ANOVA检验及T检验) 模型为基础的变量选择(决策树、逻辑回归、随机森林) 高度相关特征的选择 递归式的特征选择 【应用】 运用数据挖掘进行关键特征的选择。同时,评估不同的关键特征选择方法对模型效能的影响。 5、特征转换 【领会】 类间可分性最大化的特征转换-线性判别分析(LDA)矩阵分解法的特征转换-非负矩阵分解法(NMF)对稀疏矩阵进行特征转换-截断奇异值分解法(TSVD) 【熟知】 线性特征转换-主成分分析(PCA) 非线性的特征转换-核主成分分析(Kernel PCA) 【应用】 运用数据挖掘进行特征的转换。同时,评估不同的特征转换方法对模型效能的影响。 6、特征学习 【熟知】 关联规则为基础的特征学习 神经网络为基础的特征学习 深度学习为基础的特征学习 词嵌入为基础的文本特征学习 【应用】 运用数据挖掘进行自动的特征学习。同时,评估不同的特征学习方法对模型效能的影响。 PART 3 自然语言处理与文本分析 1、自然语言处理概要 【领会】 中文语意平台自然语言处理的研究范畴分词词根还原词性标注同义词标订概念标订角色标订 2、分词与词性标注 【领会】 词性的种类及意义 【熟知】 N-Gram及词 分词及词性标注的难点 法则式分词法 统计式分词法 词性标注 【运用】 运用中文分词及词性标注技术对多篇文章进行分词及词性标注 3、文本挖掘概要 【领会】 信息检索技术之全文扫描 信息检索技术之签名文件 信息检索技术之逐项反转 控制字汇 关键词索引文本可视化文本挖掘的应用 【熟知】 信息检索技术之向量空间模型 文本挖掘的处理流程 【应用】 将多篇文件及查询转为向量格式,并计算查询与文件间的相似度。 4、关键词提取 【熟知】 TF、DF及IDF 词性 关键词的提取方法 【应用】 对多篇文件及查询中的词,计算TF、DF、IDF及词性并提取重要的关键词。 5、文本非结构数据转结构 【熟知】 词袋模型 PCA 矩阵分解 词嵌入模型Glove 词嵌入模型Word2Vec(Skip-Gram & CBOW) 【应用】 对多篇文件进行词嵌入模型的训练及使用。 将结构化后的文件进行文本分类、情绪分析、文本聚类及文本摘要的应用。 PART 4 机器学习算法 1、正则化的回归模型 【熟知】 回归模型(线性回归、逻辑回归、模型假设)正则化的回归模型 【应用】 运用数据挖掘软件建立回归模型,解读模型结果,并评估模型效能。 2、决策树(分类树及回归树) 【领会】 PRISM决策规则算法 CHAID决策树算法(CHAID的字段选择方式) 【熟知】 ID3决策树算法(ID3的字段选择方式、如何使用决策树来进行分类预测、决策树与决策规则间的关系、ID3算法的弊端) C4.5决策树算法,包括C4.5的字段选择方式、C4.5的数值型字段处理方式、C4.5的空值处理方式、C4.5的剪枝方法(预剪枝法、悲观剪枝法) CART分类树算法(分类树与回归树、CART分类树的字段选择方式、CART分类树的剪枝方法) CART回归树算法(CART回归树的字段选择方式、如何利用模型树来提升CART回归树的效能) 【应用】 运用数据挖掘软件建立分类树模型,解读模型结果,并评估模型效能。 运用数据挖掘软件建立回归树模型,解读模型结果,并评估模型效能。 3、支持向量机 【领会】 支持向量机概述线性可分最佳的线性分割超平面决策边界与支持向量线性支持向量机非线性转换核函数(Polynomial Kernel、Gaussian Radial Basis Function、Sigmoid Kernel)非线性支持向量机支持向量机与神经网络间的关系 4、集成方法 【领会】 集成方法概述 【熟知】 抽样技术 训练数据上的抽样方法 输入变量上的抽样方法 袋装法(随机森林) 提升法(Adaboost、GBDT、xgboost、LightGBM) 【应用】 运用数据挖掘软件建立组合方法模型,解读模型结果,并评估模型效能。 5、聚类分析 【领会】 聚类的概念 【熟知】 相似性的衡量(二元变量的相似性衡量、混合类别型变量与数值型变量的相似性衡量) 样本点间距离的计算(Manhattan Distance、City-Block Distance、Euclidean Distance) 聚类算法(Exclusive vs. Non-Exclusive (Overlapping)的聚类算法、分层聚类法、划分聚类法) 分层聚类算法(单一链结法、完全链结法、平均链结法、中心法、Ward’s 法) 划分聚类算法(K-Means法、EM法、K-Medoids法、神经网络SOM法、两步法) 密度聚类算法(DBSCAN) 群数的判断(R-Squared (R2)、Semi-PARTial R-Squared、Root-Mean-Square Standard Deviation (RMSSTD)、轮廓系数(Silhouette Coefficient) ) 【应用】 运用数据挖掘软件建立聚类模型,解读模型结果,并提供营销建议。 6、关联规则 【领会】 关联规则的概念 【熟知】 关联规则的评估指标(支持度、置信度、提升度) Apriori算法(暴力法的弊端、Apriori算法的理论基础、候选项目组合的产生、候选项目组合的删除) 支持度与置信度的问题(提升度指标) 关联规则的生成 关联规则的延伸(虚拟商品的加入、负向关联规则、相依性网络) 【应用】 运用数据挖掘软件建立关联规则模型,解读模型结果,并提供营销建议。 7、序列模式 【领会】 序列模式的概念序列模式的评估指标(支持度、置信度)AprioriAll算法(暴力法的问题、AprioriAll算法的理论基础、候选项目组合的产生、候选项目组合的删除) 序列模式的延伸(状态移转网络) 【应用】 运用数据挖掘软件建立序列模式模型,解读模型结果,并提供营销建议。 8、模型评估 【熟知】 混淆矩阵(正确率(Accuracy)、查准率(Precision)、查全率(Recall)、F-指标(F-Measure)) KS图(KS Chart) ROC图(ROC Chart) GINI图(GINI Chart) 回应图(Response Chart) 增益图(Gain Chart) 提升图(Lift Chart) 收益图(Profit Chart) 平均平方误差(Average Squared Error) 【应用】 运用数据挖掘软件比较不同模型间的优劣 PART 5 数据挖掘实战 1、Pipeline 【领会】 Pipeline的基本概念 支持Pipeline的常见库 【熟知】 Pipeline自动数据预处理的方法Pipeline自动机器学习的模型建置方法Pipeline的调参方法 【应用】 运用Pipeline技术,快速应用模型。 2、类别不平衡问题 【领会】 不平衡数据定义 不平衡数据场景 传统学习方法在不平衡数据中的局限性 类别不平衡所造成的问题 【熟知】 类别不平衡问题的检测方法 过采样技术(Over-sampling) 欠采样技术(Under-sampling) 模型惩罚技术 【应用】 能运用类别不平衡的处理技术,提升模型的效能 3、模型优化与调参 【领会】 模型参数优化的目的与方法建模门槛值优化的目的与方法 【熟知】 网格搜索 随机参数搜索 贝叶斯搜索 【应用】 运用模型参数优化建立更精准的数据挖掘模型PART 6 深度学习算法 1、感知机【领会】 感知机(Perceptron)的由来感知机(Perceptron)及感知机的极限多层感知机(Multi-Layer Perceptron) 2、BP神经网络【领会】 BP 神经网络概述(理解神经网络的由来及发展历程)【熟知】 BP 神经网络的架构方式神经元的组成:组合函数(Combination Function)与激活函数(Activation Function)BP 神经网络如何传递信息修正权重值及常数项训练模型前的数据准备(分类模型的数据准备、预测模型的数据准备)BP 神经网络与逻辑回归、线性回归及非线性回归间的关系【应用】 运用数据挖掘软件建立 BP 神经网络模型,解读模型结果,并评估模型效能。 3、卷积神经网络【领会】 卷积神经网络 CNN 的由来及发展历程【熟知】 卷积的重要思想(稀疏交互,参数共享,等变表示)卷积运算池化(不变性) 【应用】 运用数据挖掘软件建立卷积神经网络模型,并评估模型效能。4、循环神经网络【领会】 循环神经网络 RNN 的由来及发展历程长短期记忆网络【熟知】 循环神经网络的架构方式双向循环神经网络 【应用】 运用数据挖掘软件建立循环神经网络模型,并评估模型效能。5、优化算法【领会】 神经网络优化中的挑战(局部问题,梯度消失和爆炸,长期依赖)基于梯度的优化方法(梯度下降)随机梯度下降二阶近似方法(牛顿法等)自适应学习率算法(Adam等)6、深度学习中的正则化【领会】 参数范数惩罚(L1, L2 正则)【熟知】 提前终止(early stop)Dropout7、自编码器与表示学习【领会】欠完备与正则自编码器表示能力、层的大小和深度表示学习的基本概念无监督预训练迁移学习和领域自适应PART 7 大语言模型与人工智能(NLP) 1、注意力机制与Transformer【领会】 注意力机制的由来残差连接 【熟知】注意力与多头注意力自注意力和位置编码Transformer架构 2、大语言模型及其应用【领会】 大语言模型的发展历程与未来展望常用大语言模型的架构Base Model 与 Pretraining【熟知】 TokenizationPrompt技术多模态【应用】 运用 AI 工具辅助进行数据挖掘。3、微调与知识学习【领会】Supervised Fine-tuningReinforcement Learning【熟知】大语言模型的知识学习Fine-tuningPrompt tuning【应用】根据业务需求,使用相关框架微调大语言模型4、Agent【领会】向量数据库大语言模型的外挂知识库上下文记忆代理与链 六、推荐学习书目说明:推荐学习书目中,部分书籍结合软件,考试中客观选择题部分不考查软件操作使用,案例实操部分需要考生运用相关软件进行建模分析,考生可根据自身需求选择性学习。参考书目不需全部学完,根据考纲知识点进行针对性学习即可。
[1] Jiawei Han, Micheline Kamber, Jian Pei.数据挖掘:概念与技术(原书第3版)[M].范明,孟小峰 译,机械工业出版社,2012.(必读) [2] 周志华.机器学习[M].清华大学出版社,2016.(必读) [3] Chris Albon. Python机器学习手册:从数据预处理到深度学习.电子工业出版社,2023.(必读) [4] 李博.机器学习实践应用.人民邮电出版社,2017.(必读) [5] 爱丽丝·郑,阿曼达·卡萨丽.精通特征工程.人民邮电出版社,2023.(必读) [6] 迪潘扬·萨卡尔(Dipanjan Sarkar).Python文本分析[M].机械工业出版社,2018.(必读) [7] 经管之家.SPSS Modeler+Weka数据挖掘从入门到实战,电子工业出版社,2023.(选读) [8] Pang-Ning Tan, Michael Steinbach, Vipin Kumar.数据挖掘导论(原书第2版)[M].段磊,张天庆 译,机械工业出版社,2023.(选读) [9] 赵卫东,董亮. Python机器学习实战案例. 清华大学出版社,2023.(选读) [10] 约阿夫·戈尔德贝格.基于深度学习的自然语言处理[M].机械工业出版社,2018.(选读) [11] 鲁伟.深度学习笔记.北京大学出版社,2023.(选读) [12] 数据挖掘网站:KDnuggets (https://www.kdnuggets.com/)(拓展学习) [13] 数据挖掘网站:Kaggle (https://www.kaggle.com/)(拓展学习) 登录后下载大纲PDF CDA 考试委员会