单选题
1.下面关于数据的说法,错误的是:D
A.目前阶段,数据的产生不以人的意志为转移
B.数据的价值会因为不断重组而产生更大的价值
C.数据的根本价值在于可以为人们找出答案
D.数据的价值会因为不断使用而削减
2.第3次信息化浪潮的标志是:C
A.人工智能的普及
B.个人计算机的普及
C.云计算、大数据和物联网技术的普及
D.互联网的普及
3.物联网的发展最终导致了人类社会数据量的第三次跃升,使得数据产生方式进入了A
A.感知式系统阶段
B.用户原创内容阶段
C.运营式系统阶段
D.手工创建阶段
4.英国的大数据发展战略是:A
A.紧抓大数据产业机遇,应对脱欧后的经济挑战
B.稳步实施“三步走”战略,打造面向未来的大数据创新生态
C.通过发展创新性解决方案并应用于实践来促进大数据发展
D.以大数据等技术为核心应对第四次工业革命
5.以下哪个不是大数据的“4V”特性:B
A.处理速度快
B.价值密度高
C.数据类型繁多
D.数据量大
6.早期的云计算产品AWS是由哪家企业提出的:C
A.微软B.IBMC.亚马逊D.谷歌
7.云计算包括3种类型。面向所有用户提供服务,只要是注册付费的用户都可以使用,这种云计算属于:C
A.独立云B.私有云C.公有云D.混合云
8.云计算包括3种类型。只为特定用户提供服务,比如大型企业出于安全考虑自建的云环境,只为企业内部提供服务,这种云计算属于:C
A.混合云B.公有云C.私有云D.独立云
9.以下关于大数据、云计算和物联网的区别,描述错误的是:C
A.云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户
B.大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活
C.云计算旨在从海量数据中发现价值,服务于生产和生活
D.物联网的发展目标是实现物物相连,应用创新是物联网发展的核心
10.以下关于机器学习,描述错误的是:A
A.机器学习强调三个关键词:算法、模型、训练
B.研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能
C.基于数据的机器学习是现代智能技术中的重要方法之一
D.是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科
11.以下关于知识图谱,描述错误的是:C
A.又称为科学知识图谱
B.在图书情报界称为知识域可视化或知识领域映射地图
C.知识图谱属于密码学研究范畴
D.知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域
12.以下关于人机交互,描述错误的是:A
A.人机交互界面通常是指用户不可见的部分
B.人机交互是一门研究系统与用户之间的交互关系的学科
C.用户通过人机交互界面与系统交流,并进行操作
D.系统可以是各种各样的机器,也可以是计算机化的系统和软件
13.以下关于计算机视觉,描述错误的是:B
A.是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的机器视觉
B.语音识别属于计算机视觉的典型应用
C.计算机视觉是一门综合性的学科
D.计算机视觉是一门研究如何使机器“看”的科学
14.以下哪个步骤不属于数据的采集与预处理:D
A.利用网页爬虫程序到互联网网站中爬取数据
B.利用ETL工具将分布的、异构数据源中的数据,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中
C.利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析
D.对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
15.以下哪项不属于数据清洗的内容:D
A.成对删除
B.一致性检查
C.无效值和缺失值的处理
D.精确度校验
16.以下哪项不属于传统的数据存储和管理技术:D
A.数据仓库
B.关系数据库
C.文件系统
D.NoSQL数据库
17. 数据清洗的方法不包括( D )。
(A)缺失值处理 (B)噪声数据清除 © 一致性检查 (D)重复数据记录处理
18.以下关于分布式文件系统,描述错误的是:B
A.谷歌开发了分布式文件系统GFS
B.所有的分布式文件系统的设计都是采用“客户机/服务器”(Client/Server)模式
C.Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是针对GFS的开源实现
D.是一种通过网络实现文件在多台主机上进行分布式存储的文件系统
19.以下描述错误的是:D
A.Web 2.0的迅猛发展以及大数据时代的到来,使关系数据库的发展越来越力不从心
B.传统的关系数据库由于数据模型不灵活、水平扩展能力较差等局限性,已经无法满足各种类型的非结构化数据的大规模存储需求
C.传统的关系数据库可以较好地支持结构化数据存储和管理
D.传统关系数据库引以为豪的一些关键特性,如事务机制和支持复杂查询,在Web 2.0时代成为不可或缺的核心特性
20.以下关于NoSQL数据库描述错误的是:A
A.NoSQL数据库有固定的表结构,通常存在较多连接操作
B.NoSQL所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型
C.与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储
D.NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称
21.下面属于批处理技术的是:D
A.GraphX B.Spark Streaming C.Storm D.MapReduce
22.下面属于流计算技术的是:A
A.S4 B.GraphX C.Spark MLLib D.Hive
23.下面属于图计算技术的是:B
A.Dremel B.Pregel C.DStream D.Impala
24.下面属于查询分析计算技术的是:C
A.Pregel B.Storm C.Hive D.Spark Streaming
25.下面关于推荐系统的描述错误的是:B
A.和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算
B.推荐系统是一种只能通过专家进行人工推荐的系统
C.推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求
D.推荐系统是自动联系用户和物品的一种工具
26.以下推荐方法中,哪一个是基于内容的推荐:B
A.由资深的专业人士来进行物品的筛选和推荐
B.通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容
C.对多种推荐算法进行有机组合,然后给出推荐结果
D.基于统计信息进行推荐
27.以下哪项不属于大数据在城市管理中的应用:D
A.环保监测B.智能交通C.城市规划D.比赛预测
28.以下哪项不属于大数据在零售领域的应用:C
A.供应链管理B.客户群体划分C.大数据征信D.发现关联购物行为
29.下面关于大数据安全问题,描述错误的是:B
A.大数据的价值并不单纯地来源于它的用途,而更多地源自其二次利用
B.大数据对于国家安全没有产生影响
C.大数据成为国家之间博弈的新战场
D.对大数据的收集、处理、保存不当,会加剧数据信息泄露的风险
30.下面关于手机软件采集个人信息的描述错误的是:A
A.在微信朋友圈广泛传播的各种测试小程序是安全的,不会窃取用户个人信息
B.有的APP在提供服务时,采取特殊方式来获得用户授权,这本质上仍属“未经同意”
C.在我们的日常生活中,部分手机APP往往会“私自窃密”
D.手机APP过度采集个人信息呈现普遍趋势,最突出的是在非必要的情况下获取位置信息和访问联系*限
31.下面描述错误的是:D
A.在免费上网的背后,其实也存在着不小的信息安全风险,或许一不小心,就落入了电脑黑客们设计的WiFi陷阱之中
B.“探针盒子”就是一款自动收集用户隐私的产品
C.许多顾客在使用WiFi之后会收到大量的广告信息,甚至自己的手机号码也会被当做信息进行多次买卖
D.免费WIFI都是安全的,可以放心使用
32.下面关于机械思维的核心思想,描述错误的是:(B)
A.这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践
B.世界变化的规律是无法确定的
C.世界变化的规律是确定的
D.规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚
33.我们在使用智能手机进行导航来避开城市拥堵路段时,体现了哪种大数据思维方式:(A)
A.我为人人,人人为我B.全样而非抽样
C.相关而非因果D.效率而非精确
34.谷歌采用搜索引擎大数据进行流感趋势预测,体现了哪种大数据思维方式:(A)
A.全样而非抽样B.效率而非精确
C.相关而非因果D.我为人人,人人为我
35.“啤酒与尿布”的故事,体现了哪种大数据思维方式:(A)
A.相关而非因果B.我为人人,人人为我
C.全样而非抽样D.效率而非精确
36.大数据的简单算法比小数据的复杂算法更有效,体现了哪种大数据思维方式:(C)
A.全样而非抽样B.效率而非精确
C.以数据为中心D.相关而非因果
37.迪士尼MagicBand手环,体现了哪种大数据思维方式:(B)
A.相关而非因果B.我为人人,人人为我
C.效率而非精确D.全样而非抽样
38.下面关于大数据伦理的描述,错误的是:D
A.作为一种新的技术,大数据技术像其他所有技术一样,其本身是无所谓好坏的,而它的“善”与“恶”全然在于对大数据技术的使用者
B.大数据伦理问题是指由于大数据技术的产生和使用而引发的社会问题
C.大数据伦理属于科技伦理的范畴
D.大数据技术本身就存在“善”和“恶”的区分
39.现在的互联网,基于大数据和人工智能的推荐应用越来越多,越来越深入,我们一直被“喂食着”经过智能化筛选推荐的信息,久而久之,会导致什么问题:A
A.信息茧房问题B.隐形偏差问题C.大数据杀熟问题D.隐私泄露问题
40.下面哪一个不属于大数据伦理问题:B
A.隐私泄露问题B.数据冗余问题C.数据安全问题D.数字鸿沟问题
多选
1.数据的类型主要包括:ABCD
A.音频 B.文本 C.图片 D.视频
2.计算机系统中的数据组织形式主要有两种,分别是:AC
A.文件 B.音频 C.数据库 D.视频
3.为了让数据变得可用,需要对数据进行三个步骤的处理,分别是:ACD
A.数据分析 B.数据抽样C.数据管理D.数据清洗
4.信息科技为大数据时代提供技术支撑,主要体现在哪三个方面:ABD
A存储设备容量不断增加
B.网络带宽不断增加
C.量子计算机全面普及
D.CPU处理能力大幅提升
5.人类社会的数据产生方式大致经历了哪三个阶段:ACD
A.感知式系统阶段
B.手工生产阶段
C.运营式系统阶段
D.用户原创内容阶段
6.关于“大数据摩尔定律”,以下说法正确的是:ABC
A.人类社会产生的数据一直都在以每年50%的速度增长
B.人类社会的数据量大约每两年就增加一倍
C.人类在最近两年产生的数据量相当于之前产生的全部数据量之和
D.人类社会的数据量以每年10%的速度增长
7.人类自古以来在科学研究上先后历经了哪几种范式:ABCD
A.实验科学B.计算科学C.理论科学D.数据密集型科学
8.大数据将会对社会发展产生深远的影响,具体表现在以下哪几个方面:ABCD
A.大数据应用促进信息技术与各行业的深度融合
B.大数据成为提升国家治理能力的新途径
C.大数据决策成为一种新的决策方式
D.大数据开发推动新技术和新应用的不断涌现
9.大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。以下哪些属于大数据产业的某个环节: ABCD
A.IT基础设施层B.数据源层C.数据管理层D.数据分析层
10.传统的IT资源获取方式的主要缺点是:ACD
A.后期需要自己维护,使用成本高
B.IT资源供应量无限
C.初期成本高,建设周期长
D.IT资源供应量有限
11.云计算的主要优点是:ABC
A.初期零成本,瞬时可获得B.后期免维护,使用成本低
C.在供应IT资源量方面“予取予求”D.初期投入大,需要用户自己维护
12.云计算包括哪3种典型的服务模式:ACD
A.IaaS(基础设施即服务)B.MaaS(机器即服务)
C.PaaS(平台即服务)D.SaaS(软件即服务)
13.云计算包括哪3种类型:ABC
A.私有云B.公有云C.混合云D.独立云
14.从技术架构上看,物联网主要包括哪几层:ABCD
A.处理层B.应用层C.网络层D.感知层
15.以下关于大数据、云计算和物联网的联系,描述正确的是:ABCD
A.大数据为云计算提供了“用武之地”
B.从整体上看,大数据、云计算和物联网这三者是相辅相成的
C.大数据根植于云计算,大数据分析的很多技术都来自于云计算
D.物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理
16.以下关于大数据与人工智能的联系,描述正确的是:ABCD
A.大数据为人工智能提供了海量的数据,使得人工智能技术有了长足的发展
B.大数据技术为人工智能提供了强大的存储能力和计算能力
C.人工智能应用的数据越多,其获得的结果就越准确
D.人工智能需要数据来建立其智能,特别是机器学习
17.数据采集的三大要点是:ABD
A.高效性 B.全面性 C.精确性 D.多维性
18.数据采集的主要数据源包括:ABCD
A.日志文件B.传感器数据
C.企业业务系统数据D.互联网数据
19.需要清洗的数据的主要类型包括:ABC
A.残缺数据 B.错误数据 C.重复数据 D.干净数据
20.数据仓库的特性包括:ABCD
A.反映历史变化的 B.面向主题的 C.相对稳定的 D.集成的
21.NoSQL数据库具有以下几个特点:ABD
A.灵活的可扩展性B.与云计算紧密融合
C.数据模型比较死板D.灵活的数据模型
22.典型的机器学习和数据挖掘算法包括:BCD
A.正交 B.回归分析 C.分类 D.聚类
23.大数据处理分析技术类型主要包括:ABCD
A.图计算 B.查询分析计算 C.流计算 D.批处理计算
24.在大数据时代,可视化技术可以支持实现多种不同的目标,主要包括:ABCD
A.观测、跟踪数据B.分析数据C.辅助理解数据D.增强数据吸引力
25.数据安全技术种类繁多,主要包括:ACD
A.身份认证技术B.可视化技术C.访问控制技术D.防火墙技术
26.一个完整的推荐系统通常包括哪3个组成模块:ABC
A.推荐对象建模模块B.用户建模模块C.推荐算法模块D.可视化模块
27.智慧医疗具有哪些优点:ABC
A.促进优质医疗资源的共享
B.促进医疗智能化
C.避免患者重复检查
D.有助于实现全民免费医疗
28.下面关于智能物流的描述,正确的是:ABCD
A.可以帮助实现物流资源优化调度和有效配置,并且提升物流系统效率
B.又称智慧物流,是利用智能化技术,使物流系统能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力
C.智能物流概念源自2010年IBM发布的研究报告《智慧的未来供应链》
D.智能物流概念经历了自动化、信息化、网络化3个发展阶段
29.智能物流具有哪几个方面的重要作用:ABD
A.提高物流活动的一体化B.降低物流成本和提高物流效率
C.提高了物流的复杂性D.提高物流的信息化和智能化水平
30.大数据在金融领域的应用主要包括:ABCD
A.高频交易B.市场情绪分析C.大数据征信D.信贷风险分析
31.大数据在餐饮行业的应用主要包括:ABCD
A.利用大数据调整线下门店布局B.大数据驱动的团购模式
C.利用大数据控制店内人流量D.利用大数据为用户推荐消费内容
32.传统的数据安全的威胁主要包括:ABD
A.数据信息存储介质的损坏B.黑客攻击C.数据复制D.计算机病毒
33.大数据安全表现出与传统数据安全不同的特征,具体来说包括哪几个方面:(ABCD)
A.大数据加大隐私泄露风险
B.大数据成为网络攻击的显著目标
C.大数据技术被应用到攻击手段中
D.大数据成为高级可持续攻击(APT)的载体
34.大数据保护的基本原则包括:(ABCD)
A.数据主权原则B.数据保护原则C.数据安全原则D.数据*流通原则
35.大数据时代,可以从哪几个方面加强数据安全与隐私保护:(BCD)
A.数据安全与隐私保护工作,与个人无关,全部需要依赖国家层面进行管控
B.从企业端源头进行遏制
C.提高个人意识,应用安全技术
D.从国家法制层面进行管控
36.关于世界各国保护数据安全的实践,以下描述正确的是:(ABCD)
A.英国在《开放数据白皮书》中专门针对个人隐私保护进行规范
B.新加坡于2012年公布《个人数据保护法》,旨在防范对国内数据以及源于*的个人资料的滥用行为
C.美国是世界上最早提出隐私权并予以法律保护的国家
D.欧盟推出了GDPR,目的在于遏制个人信息被滥用,保护个人隐私
37.我国应对大数据安全的主要举措包括:(BCD)
A.构筑信息屏障,禁止跨部门数据流通
B.加强顶层设计,引领大数据安全发展
C.构建标准体系,引领大数据规范发展
D.健全政策法规,防范大数据安全风险
38.舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的3种转变,具体包括:(BCD)
A.务实而非务虚B.相关而非因果
C.全样而非抽样D.效率而非精确
39.下面关于搜索引擎“点击模型”的描述正确的是:(ABCD)
A.一个搜索引擎使用的时间越长,数据的积累就越充分,对于长尾搜索就做得越准确
B.点击模型的准确性取决于数据量的大小
C.当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争
D.随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大
40.下面关于隐私泄露问题的描述,正确的是:ABCD
A.大数据时代下的隐私与传统隐私的最大区别在于隐私的数据化,即隐私主要以“个人数据”的形式出现
B.通过数据预测,可以预测个体“未来的隐私”
C.“数据痕迹”往往永远无法彻底消除,会被永久保留记录
D.用户在使用搜索引擎时,搜索引擎可以精确地刻画出该用户的“数字肖像”
41.下面关于数字鸿沟问题的描述,正确的是:ACD
A.数字鸿沟是一个涉及公平公正的问题
B.数字鸿沟因为大数据技术的诞生而趋向弥合
C.数字鸿沟被认为是信息时代的“马太效应”,即先进技术的成果不能为人公正分享,于是造成“富者越富、穷者越穷”的情况
D.在我国,东中西部地区、城乡之间等都可以明显感受到数字鸿沟的存在
42.下面关于数据*的描述,正确的是:ABCD
A.从某个角度来讲,数据*就是让数据统治人类,使人类彻底走向唯数据主义
B.所谓的“数据*”是指在大数据时代,由于数据量的爆炸式增长,导致做出判断和选择的难度徒增,迫使人们必须完全依赖数据的预测和结论才能做出最终的决策
C.数据*最终将导致人类思维被“空心化”,进而是创新意识的丧失
D.数据*还可能使人们丧失了人的自主意识、反思和批判的能力,最终沦为数据的奴隶
43.因数据而产生的垄断问题,主要包括哪几种类型:ABCD
A.拥有大数据形成市场支配地位并滥用
B.涉及数据方面的垄断协议
C.数据可能造成进入壁垒或扩张壁垒
D.因数据产品而形成市场支配地位并滥用
44.大数据伦理问题产生的原因主要包括:ABCD
A.人类社会价值观的转变B.数据伦理责任主体不明确
C.相关主体的利益牵涉D.道德规范的缺失
简答
1、什么是数据可视化?数据可视化的七个数据类型是什么?
答:数据可视化要根据数据的特性,如时间信息和空间信息等,找到合适的可视化方式,例如图表、图和地图等,将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息。
数据可视化的七个数据类型是1D线性数据、2D地图数据、3D世界数据、多维数据、时态数据、树数据、网络数据。
2、简述数据科学需要具备的技能和素质。
答:数据科学需要具备的技能:
(1)计算机科学
一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。
(2)数学、统计、数据挖掘等
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境R最近备受瞩目。
(3)数据可视化
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
数据科学家所需要具备的素质有以下这些:
(l)沟通能力:即便从大数据中得到了有用的信息,但如果无法将其在业务上实现的话,其价值就会大打折扣。为此,面对缺乏数据分析知识的业务部门员工以及经营管理层,将数据分析的结果有效传达给他们的能力是非常重要的。
(2)创业精神:以世界上尚不存在的数据为中心创造新型服务的创业精神,也是数据科学家所必需的一个重要素质。谷歌、亚马逊、Facebook等通过数据催生出新型服务的企业,都是通过对庞大的数据到底能创造出怎样的服务进行艰苦的探索才获得成功的。
(3)好奇心:庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇心。
3、平台即服务是云计算中最为重要的一个类型,请简述平台即服务的三个主要特点。
答:软件即服务 (SaaS,Software as a Service) 使用户可以通过 Internet 访问软件应用程序。用户不必购买并在自己的计算机或设备上安装、更新和管理这些资源,而可以通过Web 浏览器访问并使用它们。SaaS 提供商在云中为用户管理软件、处理能力和存储。大多数 SaaS 解决方案在公共云中运行,并以订阅或免费服务的形式提供。
平台即服务 (PaaS,Platform as a Service) 提供在集成式云环境中开发、测试、运行和管理 SaaS 应用程序所需的基础架构和计算资源。拥有 Internet 连接的任何人都可以参与并开发基于云的解决方案,而不必寻找、购买和管理硬件、操作系统、数据库、中间件以及其他软件。大多数PaaS 供应商都可以提供比传统编程工具更易于使用的JavaScript、Adobe Flex 和 Flash 等工具。用户不必拥有或控制开发环境,但却能真正地控制他们在其中开发和部署的应用程序。
基础架构即服务 (IaaS,Infrastructure as a Service) 提供托管的 IT 基础架构,供用户调配处理能力、存储、网络和其他基础计算资源。IaaS 提供商运行并管理此基础架构,用户可以在此基础架构上运行选择的操作系统和应用程序软件。
4、在大数据时代,为什么要“分析与某事物相关的所有数据,而不是依靠分析少量的数据样本”?
答:过去由于数据采集、数据存储和处理能力的限制,在科学分析中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全局数据的总体特征。对样本的分析结果被应用到全集数据以后,误差会被放大,这就意味着抽样分析的微小误差被放到全集数据以后,可能会变成一个很大的误差。
现在已经迎来大数据时代,大数据技术的核心就是海量数据的实时采集、存储和处理。感应器、手机导航、网站点击和微博等能够收集大量数据,分布式文件系统和分布式数据库技术提供了理论上近乎无限的数据存储能力,分布式并行编程框架MapReduce提供了强大的海量数据并行处理能力,因此,有了大数据技术的支持,科学分析完全可以直接针对全局数据而不是抽样数据,并且可以在短时时间内迅速得到分析结果。