云,数据和分析趋势

  公司可以访问比以往任何时候更多的数据,但都在努力获得其全部收益。 工具不足和开发策略不完善使他们无法获得所需的改变游戏规则的结果。

  为了帮助组织充分利用最新创新技术和最有影响力的数据见解,本文确定了2022年的前8大数据,分析和云趋势。

  在数据仓库和分析领域,这是令人振奋的时刻。 越来越多的提供商在云中提供了每个级别的数据堆栈。 借助云分析,您的公司可以以可承受且可扩展的方式使用数据与大型企业竞争。

  阅读本文可深入了解未来十年的最大趋势,以及可付诸实践的技巧,以使您的公司始终处于最前沿。

  涵盖的趋势包括:

  · JSON和半结构化数据成为主流

  · ELT超越了ETL

  · 电子表格是排名第一的数据探索UI

  · 还有很多

  内容摘要

  数据法规席卷全国CDW和SQL战胜了ELT> ETLJSON和半结构化数据现在已成为主流增强分析法有望实现要释放数据的力量吗? 让人们参与其中自助服务不再是"令人愉快的"。 必不可少的是电子表格的重新出现未来将建立在数据洞察力之上

  在本世纪的第二个十年即将结束之际,很自然地想知道未来会有什么发展。 在过去的十年中,数据世界呈指数增长。 仅在2022年,我们就看到数据和分析在公司内部的作用继续在各个部门之间扩展。 现在,越来越多的团队正在寻找数据来帮助推动成功的决策制定并协助关键的工作职能。

  新一代数据先锋

  虽然我们希望看到金融机构,电子商务网站和电信公司使用分析来控制其战略和运营,但是图书馆,邮轮公司,视频游戏工作室,消防员甚至网球运动员都开始利用数据的力量 计划美好的未来。

  Forrester报告称,数据驱动型公司平均每年增长30%以上。 领先的公司正在利用数据和分析来扩大它们与竞争对手之间的差距。

  注意数据技能差距

  但是,尽管人们普遍认为数据可以改善组织各个部门的决策能力,但许多公司仍在努力获取其收益。 根据NewVantage Partners的研究,只有31%的高管认为他们已经能够建立"数据驱动的文化"。 根据Gartner的调查,有87%的公司具有较低的BI和分析成熟度。

  既然好处如此明显,为什么公司要花这么大的时间来实现数据驱动的未来的希望? 有几个因素在起作用,但是最常见的原因是技能差距的扩大。 组织中很少有人拥有直接访问,分析数据并从中获取见解所需的技术专长。

  取而代之的是,在各个部门中具有领域专业知识的人员必须依靠有限的数据工程师,科学家和分析师来争夺时间和资源。 这是一个效率低下的系统,只会随着数据量和范围的不断增加而变得越来越复杂。

  数据的未来触手可及

  但是有希望。 新一代工具和技术即将出现。 它们具有改变公司从其数据中提取价值并形成有影响力的见解的速度和便利性的潜力,所有这些都可以保持不断发展的安全性和合规性标准。

  我们发现了八种数据趋势,这些趋势将影响2022年及以后企业使用数据的方式:

  数据法规席卷全国

  一波数据隐私立法席卷全国,如果公司要保持合规性并避免法律漏洞,就需要密切关注。

  过去十年间,丑闻,安全漏洞和举报揭露的完美风暴将数据安全性和隐私性吸引到了人们的视线中。 从爱德华·斯诺登(Edward Snowden)到Cambridge Analytica博览会,数据隐私问题已成为公众意识的一部分。 人们第一次意识到收集了多少个人数据以及如何使用这些数据。 科技公司进行自我监管的时代迅速结束。

  然后发生了一系列非常引人注目的违规事件,影响了数亿人。 仅在2022年,就有超过10亿人的数据受到安全漏洞的攻击。 Facebook,T-Mobile,Quora,Google,Orbitz和其他数十家公司的敏感客户数据均遭到破坏。

  但是决定性的时刻是2022年5月颁布的GDPR(通用数据保护条例)。这套欧洲法规产生了深远的影响,远远超出了非洲大陆。 尽管法律旨在保护欧盟居民的信息,但它们不仅影响欧洲公司,而且还会影响处理这些欧盟居民数据的任何组织。 任何与欧洲公民有业务往来的公司都必须遵守GDPR规定,否则将面临巨额罚款和罚款。

  包括中国和印度在内的多个国家都在制定类似GDPR的法律。 不断增长的国际立法网络使收集各种级别数据的公司开展业务变得异常困难。 作为回应,许多行业领导者呼吁制定全球数据隐私法规,以简化业务。 微软首席执行官萨蒂亚·纳德拉(Satya Nadella)等人甚至主张将数据隐私视为*。

  在美国,没有单一的联邦数据隐私法或*数据保护机构强制执行合规性。 数据隐私法在州一级生效,从而形成了重叠的,有时不兼容的法律法规。

  引领潮流的是加利福尼亚州的《 CCPA加利福尼亚消费者隐私法案》,该法案将于2022年1月1日生效。尽管该法案要到2022年7月1日才会实施,但它将适用于颁布12个月后收集的所有数据 ,这是企业现在需要解决的问题。 制定类似法律的州数量将在2022年激增。

  如何为这种趋势做准备:

  · 审核您的流程:检查每个数据收集点,以确保其符合数据隐私法规。 考虑考虑对您的员工进行数据安全最佳实践和程序方面的培训。 分析数据的存储和保护方式,以及升级/更新任何不符合代码要求的系统。

  · 评估合作伙伴:由于客户数据经常在合作伙伴和供应商之间共享,因此组织必须确保其数据合作伙伴遵守数据隐私法。 您的公司可能完全合规,但如果第三方供应商不遵守,它仍可能面临法律责任。

  · 考虑更新您的工具和服务:您的工具和服务提供商应减轻合规负担,而不是增加负担。 云数据仓库(CDW)可以帮助您的组织保持合规性并通过数据安全认证获得最新信息。 例如,Snowflake提供了广泛的函授功能,使您更容易遵守数据主体权利和管理数据安全性。

  CDW和SQL取得了胜利

  经过几十年的快速创新,尖端的云数据仓库和健壮的,具有四十年历史的SQL数据库语言已成为现代数据堆栈的动态二重奏。

  云数据仓库(CDW)正在迅速取代本地和混合数据仓库解决方案,这并不难理解。 快速可扩展性,更高的灵活性,更低的成本和更高的连接性只是公司将数据移至云的几个原因。 Snowflake通过将存储与计算脱钩而改变了游戏规则,其他CDW已开始模仿这一举动。

  即使涉及安全性问题,区域内本地解决方案在历史上也具有出色的云功能,这使当今的现代CDW占了上风。 当今的CDW提供商必须满足最高的安全标准和认证,包括SOC2,ISO27001,HIPAA,PCI等。 他们的产品完全建立在数据安全性和加密的基础上,并且在这些技术上投入了大量资金。

  他们还雇用了一支由安全和技术专家组成的队伍,负责维护和改进标准以及对即将到来的威胁做出响应。 许多专家认为公共云比大多数本地数据中心更安全。

  如前所述,CDW减轻了合规负担。 通过将所有公司数据存储在一个地方,组织不必处理搜索各种离散数据存储来查找单个记录的复杂性。 这使得遵守GDPR数据主体权利要求的更新,更改或删除变得更容易管理。

  然后,可以节省大量成本。 据亚马逊称,在自己身上运行一个数据仓库的成本在1.9万美元之间-每年每TB 2.5万美元。 平均而言,公司发现使用现代CDW可以节省96%的费用。

  最后,CDW使组织能够比以往更快地从其数据中获取价值。 数据过期,无关紧要或以惊人的速度被替换。 据估计,有60%的公司数据失去了部分甚至全部业务,法律或法规价值。

  现代CDW允许将原始数据直接加载到系统中并在数据仓库中直接转换(此过程称为ELT或Extract,Load,Transform),而无需先转换成暂存数据库然后再加载到数据中 仓库(称为ETL或提取,转换,加载的过程)。 这大大减少了数据传输的时间,并加快了可访问和分析数据的时间。

  但是随着数据量和速度呈指数增长,这些非SQL数据库的问题开始显现出来。 为了解决这些问题,一些数据库供应商添加了专有的"类似于SQL"的查询语言。 但是SQL有了重大的回报,而且它比以往任何时候都更加重要。

  它仍然是在数据库上进行交互和执行的最佳语言。 由于庞大的社区已经花费了数十年的时间专注于SQL系统的安全性和效率,因此它具有出色的结构和兼容性,并且比其他同类产品更强大。 根据Stack Overflow的说法,SQL是第三大最受欢迎的编码技术。 从我们的角度来看,CDW取得了胜利,SQL的重要性和受欢迎程度仅在增长。

  如何为这种趋势做准备:

  · 考虑迁移到现代CDW:如果尚未迁移,请考虑迁移到基于云的数据基础架构。 您可以在我们的免费电子书"构建云分析堆栈"中了解有关构建云原生数据基础架构的更多信息,并在本文中获得有关选择正确的CDW的一些技巧。

  · 释放SQL对整个组织的力量:尽管投资一支由SQL向导组成的数据专家团队无疑是一种可行的策略,但只要能力和访问能力有限,您的古玩交易组织从数据洞察中受益的能力就将受到限制。 留在这些精选的人手中。 解决方案? 部署将电子表格的易用性和灵活性与SQL功能相结合的工具。 Sigma的使用类似于电子表格的体验,即大多数企业用户所熟悉和喜爱的界面,来探索数据。 所有复杂的SQL都是自动编写的。

  ELT> ETL

  ELT使数据能够按需进行转换-限制了数据传输的时间,并提高了分析和操作的速度。

  数据集成的传统方法称为提取-转换-加载(ETL),自1970年代以来一直很流行。

  ETL工作流程执行以下步骤:

  · 使用连接器提取数据。

  · 通过一系列转换,数据将根据分析师和最终用户的需要重新排列为模型。

  · 数据被加载到数据仓库中。

  · 数据通过商业智能工具进行汇总和可视化。

  总体而言,传统的ETL流程具有三个严重且相关的缺点:

  · 这很复杂,因为数据管道在由特定转换的特定需求指示的自定义代码上运行。 这意味着数据工程团队将开发高度专业的,有时是不可转让的技能来管理其代码库。

  · 它很脆弱。 由于前面提到的原因,脆性和复杂性的结合使快速调整变得昂贵或不可能。 代码库的某些部分可能会在很少发出警告的情况下无法正常工作,并且新的业务需求和用例需要对代码进行大量修订。

  · 更重要的是,没有专门的数据工程师,较小的组织几乎无法访问ETL。 本地ETL甚至会增加基础架构成本。 较小的组织可能*采样数据或进行手动的临时报告。

  这些缺点是其源于稀缺且昂贵的计算,存储和带宽资源时的直接结果。 通过限制要处理和存储的数据量,ETL保留了计算,存储和带宽,而却以劳动为代价。

  近年来,计算,存储和带宽的成本急剧下降,各种规模或方式的组织都可以从根本*问它。 这意味着可以颠倒转换和加载的顺序。 延迟分析工作流程的建模和转换步骤可以使团队节省工程师的工作量,并直接向分析师提供组织所有数据的全面副本,以供他们自行决定是否要建模。

  如何为这种趋势做准备:

  · 比较ETL和ELT解决方案:选择一家供应商来管理多个数据源,包括对结构化和非结构化数据的支持-即使您今天不需要这种支持。 这可能会逐渐发挥作用,如果是这样,您将无需更改提供商。 确保供应商与您选择的数据仓库配合良好。

  JSON和半结构化数据现已成为主流

  从应用程序,网站,移动设备等中大量涌入的半结构化数据,再加上在CDW中搜索,管理和分析此数据的功能,带来了数据突破。

  JSON(JavaScript对象表示法)是Douglas Crockford在1996年发现的一种方法。从那时起,它已成为在网络上传输数据的事实上的格式。 JSON轻巧,人机可读,可在每种编程语言中解析,因此它的受欢迎程度急剧上升。 根据Stack Overflow的说法,关于JSON的问题要多于其他任何数据交换格式。

  具有业务价值的数据不再局限于结构化数据。 现在,非结构化和半结构化数据占企业数据的80%以上,并且以每年55%和65%的速度增长。 这些数据以电子邮件,文档,文本消息,聊天,视频,照片,mp3(以及更多)的形式通过应用程序,网站,移动设备,IoT设备和传感器涌入。 它是由人和机器以不断增加的量生成的。

  半结构化数据过去更加难以搜索,管理和分析。 住房它需要多个本地存储系统,这增加了显着的复杂性和费用。 但是现在,可以在同一系统中管理结构化和半结构化数据。 诸如Snowflake的变体数据类型之类的创新技术可以将半结构化数据加载到表的列中,然后通过一些次要的SQL扩展以本机访问。

  这消除了将数据解析和ETL到传统表和列中的需要-更不用说使所有云都可访问了。 结果使JSON和其他半结构化数据更易于存储,分析,使用甚至创建分析,因此组织可以充分利用其价值。

  如何为这种趋势做准备:

  增强分析有望实现

  使用人工智能和机器学习来增强数据分析潜力可能会改变共享,生成和处理分析数据的方式。

  增强分析技术在Gartner今年的数据和分析趋势列表中名列前茅,并且业内许多人对这种可能性感到兴奋。 Gartner通过以下方式定义增强分析:

  "增强分析是使用诸如机器学习和AI之类的支持技术来协助数据准备,见解生成和见解说明,以增强人们如何在分析和BI平台中探索和分析数据。 通过自动化数据科学,机器学习以及AI模型开发,管理和部署的许多方面,它还增强了专家和公民数据科学家的能力。"

  简而言之,这是一个使用AI和ML协议来改变分析数据的共享,生成和处理方式的过程,它具有改变整个行业的潜力。

  目标是浮出关键的见解,从而节省时间,减少技能并减少偏见。 正如我们引言中介绍的那样,数据科学家花费了80%以上的时间来做简单的机械事情,例如标记和清理数据。 增强分析将使用AI来完成大部分繁重的工作,甚至将来可能会导致完全自主的业务分析系统。

  请注意:与大多数技术一样,有一种驱使人们尽可能多地从决策中移出或至少将其抽象化的动力。 但是AI并非永远不会完美。 人为主导的决策中固有的许多问题都有可能被AI指数放大,包括偏见。

  企业数据的不断增长的复杂性,数量和速度已经使增强分析成为可能,尤其吸引了行业内的许多人,这使其成为未来几年值得关注的主要趋势。

  如何为这种趋势做准备:

  · 建立数据驱动的文化:随着数据继续成为跨部门战略决策的基础,对于在所有团队中建立数据素养至关重要。 增强分析功能可以揭示有价值的见解,但需要具备数据知识的人员在对这些见解采取行动之前对其进行验证和评估。 现在,提高数据素养将使您的组织做好充分利用扩展分析和其他新技术的准备。

  是否想释放数据的力量? 让人类处于循环中

  尽管人工智能和机器学习取得了飞速发展,但是人类拥有无法复制的独特的隐性知识。

  在机器学习领域,有一个简单的概念叫做"人在循环"。 在培训AI时,公司不可避免地会遇到无法解决的极端情况或情况。 在这些时刻,他们引入"人在循环中"做出最终判断,这有助于AI系统提高其决策能力。

  AI系统自动显示洞察力的想法似乎很有吸引力。 但是,将人排除在决策过程之外,最多会导致错过机会,而最坏会带来灾难。

  人类很聪明。 作为一个物种,我们可以感知到不容易测量或量化的事物。 我们可以在不明显的事件之间建立联系。 我们有默契的知识。 而且我们不应该低估人类的经验或人类的大脑。

  Techbrium公司首席执行官兼控制论AI无人驾驶汽车研究所执行董事Lance Eliot博士强调了维京天空游轮事故的例子,这是人为管理对自动化系统的重要作用的例子。 汹涌的大海使油位传感器检测到油量非常危险,几乎不存在。 如果没有机油,最好的办法就是关闭引擎,这正是自动化系统所做的。

  但是那里有石油,大海非常动荡。 通过过早地切割引擎,船变成了软木塞。 在此事发生之前,没有任何人被警告过,因此没有干预。 在一次非常危险的行动中,数百名乘客和机组人员必须空运。

  人们可能会认为汹涌的海面是造成机油读数低的原因,或者是在切割发动机之前将船转向安全的地方。 的确,有时人类也会犯错误,但是人类最终会为决策过程机器添加独特的品质和考虑因素,而这根本无法做到:

  · 情报

  · 伦理

  · 情感与同情心

  · 快速识别动作过程的能力不正确

  · 减轻错误决策影响的能力

  未来最好的决策系统将是人与智能技术之间的紧密合作关系。 人工智能系统将能够接管数据探索的手动和繁琐的部分,并使人们更接近其中最相关的部分。 未来最好的AI数据和分析工具并不能从方程中消除它们,反而会放大人的力量并使他们专注于最有影响力的工作。

  如何为这种趋势做准备:

  · 促进人类的自然好奇心:鼓励团队中的每个人(包括非编码人员)超越显而易见的事物,并赋予他们发现数据波动,尖峰和下降的根本原因。 连接数据源并加入数据集,以帮助领域专家更轻松地确定共性和趋势。 提倡分歧的思想并鼓励所有人问"为什么?"

  · 限制人为破坏系统:全自动系统最适合机械或低冲击任务。 让人员参与其中,以获得高影响力或战略决策。 根据《经济学人》的一项研究:"尽管技术上的局限不断被克服,但对问责制的需求不断增加,尤其是在金融危机之后,这意味着重要的商业决策最终必须取决于人,而不是机器。"

  自助服务不再是"好去处"。 必不可少的

  为了使组织从数据中获得最大价值,他们需要使领域专家能够超越简单的仪表板,直接访问其数据仓库。

  Gartner将自助分析定义为"一种商业智能形式,通过这种形式,可以鼓励业务线专业人员并在名义上的IT支持下自行执行查询并生成报告。"

  自助服务是分析的圣杯。 许多BI提供程序甚至声称已经实现了它。 但是BI的采用率仅徘徊在30%左右,远未使所有员工都能用数据回答有意义的问题。 即使使用BI工具,领域专家也经常需要IT团队的广泛帮助。

  对于大多数企业用户而言,"自助服务分析"是一个有限的仪表板,它围绕一组指标或过期数据电子表格构建。 直到现在,完全自助服务分析的前景仍然遥不可及。

  诸如Fivetran之类的管道工具,诸如Snowflake之类的云数据仓库以及诸如Sigma之类的直观的云原生分析工具,使整个组织的业务用户无需IT的帮助或无需了解SQL即可浏览数据。 这些功能比以往任何时候都更加重要,因为快速采取行动并从数据中获取见解的能力已成为一项关键的竞争优势。

  此外,这些现代工具使IT人员可以建立可靠的数据治理,将报告的蔓延降至最低,并限制对敏感信息的访问。 在Sigma等工具中,管理员可以按团队和名称空间设置权限,甚至可以直接从数据库限制数据访问。

  在麻省理工学院斯隆(MIT Sloan)最近的一份研究报告中,有52%的人说他们无法访问完成工作所需的数据,而63%的人无法在规定的时间内访问数据。 现代化的云数据分析堆栈使业务用户和数据团队能够一起工作,以快速从数据中获取价值并将其用作战略决策的基础。

  undefined

  为什么数据管道自助服务必不可少? 需要最少配置和设置的自动化自助服务解决方案可以从根本上减少数据项目的工程工作量,并利用对许多极端情况进行压力测试的专家的专业知识。 随着公司采用越来越多的云应用程序,数据管道将变得越来越庞大和复杂,并且内部解决方案对于绝大多数公司而言将变得站不住脚。

  如何为这种趋势做准备:

  · 超越简单的仪表板:流行应用程序中打包的内置仪表板仅提供一小部分数据,并且使用户无法提出新问题并超出一些基本分析范围。 BI仪表板提供了更多的灵活性,但并不能使人们提出更深层次的问题。 它们通常是由数据团队而非域专家创建的。 为了真正从数据中获取价值,您需要为团队中的每个人提供探索数据的能力。

  · 提升数据素养:教育和更大程度地访问数据是可以缩小业务专家与数据团队之间鸿沟的神奇组合。 加上对通用工具集的访问权限,您将使组织中的每个人都在同一页面上,并获得数据洞察力的全部价值。

  电子表格的重新出现

  尽管已努力杀死它或将其替换为替代品,但电子表格仍然是人们分析和探索大量数据的最简单,最易用的方法。

  纸制电子表格已经存在数百年,甚至数千年了。 以数字形式,它们在1970年代随Visicalc首次向公众介绍。 从那时起,已经进行了各种各样的尝试来替换它们。 已经开发了数百个接口,每个接口都有其特质,优点和缺点,以可读的方式显示大量数据。 但是,尽管有所有这些替代方法,电子表格仍然可以使用。

  最近,随着AirTable,Smartsheets和Spreadsheet等应用的出现,电子表格重新出现,界面也达到了新的高度。 有这种重新流行的原因。

  筒仓中存在许多组织中的数据:只有少数人知道如何访问和操纵的围墙花园。 但是,世界上有很多聪明的人不在IT团队中工作。 对于他们来说,电子表格是访问,*和力量。 高达85%的人在工作中使用电子表格,而令人惊讶的76%的人将自己的技能水平评为"好"或"优秀"。

  即使是那些知道如何编写SQL的人,也会看到电子表格的价值。 88%的编写SQL的人在浏览数据时仍使用Excel。 电子表格的功能和熟悉度无与伦比,仍然是询问问题,迭代和与他人协作处理数据的最佳界面。 提供直观的电子表格界面可使大多数人拥有最大的权力和最大的*度。 这是数据发现和探索之路的开端。 我们预计2022年及以后的BI业务中,电子表格界面将有所增加。

  如何为这种趋势做准备:

  · 掌握电子表格的技能:电子表格的公式和技术易于学习和实践。 用Testing Times的首席执行官Anne-Marie Charrett的话来说,"电子表格的妙处在于:每个人都知道EXCEL并将其安装在个人计算机上。 每个人都可以使用,不需要培训,维护或配置。 人们了解并熟悉电子表格。"

  · 利用最新一代的电子表格工具:考虑切换到最新的基于电子表格的工具,以使您的团队获得先机并帮助提高采用率。 电子表格为用户提供了一个熟悉而强大的工具,以探索现有BI解决方案无法匹配的数据。

  未来将建立在数据洞察力之上

  在接下来的十年中,数据将继续以指数级的速度生成。 而且它在战略决策中的作用也会随之增强。 Gartner副总裁兼杰出分析师Donald Feinberg解释说:"任何业务的持续生存都将取决于敏捷的,以数据为中心的体系结构,该体系结构对不断变化的变化做出响应。"

  最有效利用数据的组织将获得优势,并扩大自身与竞争对手之间的差距。 公司必须认识到这些不断增长的趋势,并使其处于最有利的位置,才能在新的十年中保持与时俱进。

  在业务分析方面着眼于未来,使您的团队能够从数据中获取全部价值。

上一篇:你不了解的Linux二进制分析


下一篇:ML之回归预测:利用两种机器学习算法(LiR,XGBoost(调优+重要性可视化+特征选择模型))对无人驾驶汽车系统参数(2017年的data,18+2)进行回归预测值VS真实值