1、【单选】什么是KDD?
A.数据挖掘与知识发现 B.领域知识发现
C.文档知识发现 D.动态知识发现
2、【单选】 “8000”和“10000”表示:
A.数据 B.信息
C.知识 D.智慧
3、【单选】人从出生到长大的过程中,是如何认识事物的?
A.聚类过程 B.分类过程
C.先分类,后聚类 D.先聚类,后分类
4、【单选】“8000米是飞机飞行最大高度”与“10000米的高山”表示
A.数据 B.信息
C.知识 D.智慧
5、【单选】飞机无法飞过高山”表示
A.数据 B.信息
C.知识 D.智慧
6、【单选】下面哪个不属于数据的属性类型
A.标称 B.序数
C.区间 D.相异
7、【单选】只有非零值才重要的二元属性被称作
A.计数属性 B.离散属性
C.非对称的二元属性 D.对称属性
8、【单选】一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:
A.一年级
B.二年级
C.三年级
D.四年级
9、杰卡德系数用来度量非对称的二进制属性的相似性判断
A.√ B.X
10、欧式距离用来度量连续数值属性数据的相似性
A√ B.X
11、【单选】所谓高维数据,指的是
A.数据对象很多 B.数据属性很多
C.以上都正确 D.以上都错误
12、【单选】假设属性incomme的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:
A.0.821 B. 1.224
C.1.458 D.0.716
13、【单选】假设12个销售价格记录组已经排序如下: 5.10,11,1315355055,7292.204,215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?
A.第一个 B.第二个
C.第三个 D.第四个
14、卡方测试用来度量离散标称属性数据的相关性
A.√ B.X
15、相关系数用来度量标称属性数据的相关性
A√ B.X
16、【单选】考虑两队之间的足球比赛: 队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为
A.0.75 B.0.35
C.0.4678 D.0.5738
17、【单选】朴素贝叶斯分类器的朴素之处在于:
A.只能处理低维属性
B.只能处理离散型属性
C.分类效果一般
D.属性之间的条件独立性假设
18、Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
A√ B.X
19、可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类
A√ B.X
20、贝叶斯分类器对离群点敏感
A√ B.X
21、【单选】决策树中不包含一下哪种结点
A.根结点(root node)
B.内部结点(internalnode)
C.外部结点 (extermalnode)
D.叶结点(leafnode)
22、【单选】以下哪些算法是分类算法
A.DBSCAN B.ID3
C.K-Means D.EM
23、【单选】决策树的父节点和子节点的熵的大小关系是什么单选
A.决策树的父节点更大
B.子节点的熵更大
C.两者相等
D.根据具体情况而定
24、【多选】一个决策树包括如下哪些要素
A.测试节点
B.分支
C.叶子
D.以上均错误
25、【多选】采用决策树分类算法,连续数据如何处理?
A.连续数据离散化
B.选择最佳划分点分裂
C.连续数据每2个值之间形成分裂
D.以上均错误
26、【单选】当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
A.分类 B.聚类
C.关联分析 D.隐马尔可夫链
27、【单选】简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作
单选
A.层次聚类 B.划分聚类
C.非互斥聚类 D.模糊聚类
28、【单选】关于k-means算法,正确的描述是
A.能找到任意形状的聚类
B.初始值不同,最终结果可能不同
C每次选代的时间复杂度是O(n^2),其中n是样本数量
D不能使用核函数
29、【单选】K-Means算法中的初始中心点:
A.可随意设置
B.必须在每个族的真实中心点的附近
C.必须足够分散
D.直接影响算法的收敛结果
30、【多选】下列说法正确的是
A.K-mmeans算法能够解决有离群点的聚类问题
BK-mmodes能够解决离散数据的聚类问题
C.K-mmeans++能够解决初始点影响聚类效果的问题
D.K中心点能够解决有离群点的聚类问题
31、【单选】某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
A.关联规则发现 B.聚类
C.分类 D.自然语言处理
32、数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务
A√ B.X
33、具有较高的支持度的项集具有较高的置信度。
A√ B.X
34、先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。
A√ B.X
35、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数
A√ B.X
36、【单选】以下哪项关于决策树的说法是错误的
A几余属性不会对决策树的准确率造成不利的影响
B子树可能在决策树中重复多次
C决策树算法对于噪声的于扰非常敏感
D.寻找最佳决策树是NP完全问题
37、【单选】以下哪些分类方法可以较好地避免样本的不平衡问题
A KNN
BSVM
C.Bayes
D.神经网络
38、【单选】通过聚集多个分类器的预测来提高分类准确率的技术称为
A 组合(ensemble)
B聚集(aggregate)
C.合并(combination)
D.投票(voting)
39、【单选】建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
A根据内容检索
B.建模描述
C.预测建模
D.寻找模式和规则
40、将原始数据进行集成。变换、维度规约、数值规约是在以下哪个步囊的任务?
A营模式挖掘
B.分类和预测
C.数据预处理
D.数据流挖据
41、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
A根据内容检索
B.建模描述
C.预测建模
D.寻找模式和规则