我们公司的统计与数据挖掘考试,考试时间是 1 个小时,满分 100 分

本贴最后更新于 2750 天前,其中的信息可能已经事过境迁

姓名: 分数:
一、选择题(48 分)
1、以下两种描述分别对应哪两种对分类算法的评价标准? ( )
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC
2.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链
3.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?( )
A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则
4.下面哪种不属于数据预处理的方法? ( )
A 变量代换 B 离散化 C 聚集 D 估计遗漏值
5.假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215,将它们划分成四个箱,等频(等深)划分时,15 在第几个箱子内? ( )
A 第一个 B 第二个 C 第三个 D 第四个
6.以下哪种方法不属于特征选择的标准方法: ( )
A 嵌入 B 过滤 C 包装 D 抽样
7.下面不属于创建新属性的相关方法的是: ( )
A 特征提取 B 特征修改 C 映射数据到新的空间 D 特征构造
8.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 ( )
A 2 B 3 C 3.5 D 5
9.假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为:( )
A 0.821 B 1.224 C 1.458 D 0.716
10.以下哪些算法是基于规则的分类器 ( )
A. C4.5 B. KNN C. Naive Bayes D. ANN
11.决策树中不包含以下哪种结点? ( )
A,根结点(root node) B,内部结点(internal node) C,外部结点(external node) D,叶结点(leaf node)
12.以下哪项关于决策树的说法是错误的 ( )
A.冗余属性不会对决策树的准确率造成不利的影响 B.子树可能在决策树中重复多次
C.决策树算法对于噪声的干扰非常敏感 D.寻找最佳决策树是 NP 完全问题
13.因子分析的主要作用:( )
A、对变量进行降维 B、对变量进行判别 C、对变量进行聚类 D、以上都不对
14.关于 K-means 聚类过程正确的是:( )
A、使用的是迭代的方法 B、均适用于对变量和个案的聚类 C、对变量进行聚类 D、以上都不对
15.东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别跑!"以上对话体现了数据分析方法中的( )
A. 关联 B. 聚类 C. 分类 D. 自然语言处理
16.已知甲班学生“统计学”的平均成绩为 86 分,标准差是 12.8 分,乙班学生“统计学”的平均成绩是 90 分,标准差是 10.3 分,下列表述正确的是( )
A. 乙班平均成绩的代表性高于甲班 B. 甲班平均成绩的代表性高于乙班
C. 甲、乙两班平均成绩的代表性相同 D. 甲、乙两班平均成绩的代表性无法比较
17.当你用跑步时间(RunTime)、年龄(Age)、跑步时脉搏(Run_Pulse)以及最高脉搏(Maximum_Pulse)作为预测变量来对耗氧量(Oxygen_Consumption )进行回归时,年龄(Age)的参数估计是-2.78. 这意味着什么?( )
A、年龄每增加一岁,耗氧量就增大 2.78 . B、年龄每增加一岁,耗氧量就降低 2.78.
C、年龄每增加 2.78 岁,耗氧量就翻倍。 D、年龄每减少 2.78 岁,耗氧量就翻倍。
18.下面那一项可用于比较身高和体重的变异度( )
A.方差 B.标准差 C.变异系数 D.全距
19.正态曲线下,横轴上从均数到 +∞ 的面积为( )
A.97.5% B.95% C.50% D.5%
20.统计图中的散点图主要用来( )。
A.观察变量之间的相关关系 B.主要用来表示总体各部分所占的比例
C.主要用来表示次数分布 D.主要用来反映分类数据的频数分布
21、客户画像可以使用哪种分析方法?( )
A.聚类 B.因子分析 C.两者都可以 D.两者都不可以
22、个体之间的相似性主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
23 变量之间的相关性主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
24 客户之间的联系主要用哪种数据挖掘方法?( )
A.聚类 B.因子分析 C.关联规则 D.社交网络分析
二、填空题(22 分)
1、数据预处理包括_______________、和数据离散化。
2、列举出处理空缺值的三种方法
___、
3、四种计量尺度分别是定类、______________、
4. 标号 12345 的 5 个球,一次取两个,和为 3 或者 6 的概率是_____________。
三、简答题 (30 分)
1、某银行信用卡模型建设过程中,申请评分卡模型训练过程出现过拟合现象,请阐述什么是过拟合现象?如何解决过拟合现象?如果一个模型在训练过程出现欠拟合现象,那原因又是如何?如何避免?(6 分)

2、什么是聚类分析? 请详细描述 k-means 算法的计算原理、步骤以及优缺点。(8 分)

3、已知每 10 万人中有 1 人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有 1% 的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率??(4 分)

4、何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。(6 分)

5、何谓聚类?它与分类有什么异同?(6 分)

打赏区有答案

打赏 10 积分后可见
10 积分 • 3 打赏
  • 统计
    8 引用 • 55 回帖
  • 数据挖掘
    17 引用 • 32 回帖 • 2 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • zonghua

    期末考试题哈哈哈

  • liweiwei

    还不如直接考高等数学呢。

relyn
永远相信美好的事情即将发生 泉州

推荐标签 标签

  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    491 引用 • 1383 回帖 • 370 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    35 引用 • 35 回帖
  • abitmean

    有点意思就行了

    14 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    169 引用 • 799 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 34 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 286 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    57 引用 • 22 回帖
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 591 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    160 引用 • 470 回帖
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 249 关注
  • 反馈

    Communication channel for makers and users.

    123 引用 • 906 回帖 • 177 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 254 关注
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    710 引用 • 1173 回帖 • 192 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖 • 7 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 8 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 590 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 581 关注
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    198 引用 • 120 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    6357 引用 • 28565 回帖 • 265 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖 • 1 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 594 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 430 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖