受到推崇的, 2024

编辑的选择

公民数据科学家的兴起

林杯.吳承.火山唱æŒç‰‡æ®µII

林杯.吳承.火山唱æŒç‰‡æ®µII
Anonim

当马克皮克特是海军陆战队队长时,他知道他不可能在那里为他的士兵做出每一个决定。“

你无法排练每一个场景,而且有时候你可以没有沟通,“他解释说。 “你希望培养你的海军陆战队员能够依靠自己和他们的部队。”

在这个大数据时代,商业世界并没有那么不同。

现在在线分析和商业智能高级总监在Sears,Pickett一直是所谓公民数据科学家运动的早期支持者,通过该运动,企业多个部门的员工都可以使用分析工具和技能从数据中获取所需的答案。“

企业对我们的业务了解甚深,“他说。 “我们正在试图指导这些人,并为他们提供制作自己的报告所需的数据并进行自己的分析。”在西尔斯的案例中,动机尤其强大。虽然零售业务总体而言,但该公司在很多方面都是众多垂直业务的集聚体,每个业务都专注于不同的产品类型。

“我们拥有多种类别的业务,从草坪和花园到家电,服装和珠宝到床垫,“皮克特说。 “我们的团队致力于支持他们所有人,但我们绝不会以他们的方式理解他们的业务。”通过策划正确的工具 - 在Sears的案例中,Platfora的Hadoop大数据分析平台 - Pickett的小组旨在让商人自己回答80%的数据问题。该公司现有超过300名训练有素的公民数据科学家现在正在使用这些工具每周生成数千份数据分析报告,而不需要任何帮助。“我们接触一个的唯一原因是如果有人有问题或需要数据“Pickett说,”新一代工具

Sears可能因其业务的多样性而具有特别迫切的需求,但各种类型的公司现在都认为受过训练的数据科学家严重短缺。即使对于那些有能力阻止这样一位专业人士的幸运者来说,诸如数据准备等“管理式”任务仍然占据了这些工作人员时间的过多比例。

赋予商人以大部分分析工作自己可以释放训练有素的数据科学家专注于那些需要他们专业知识的事物 - 或者这样的想法。

现在市场上不断增加的一系列强大的自助服务工具,使人工智能等功能可以达到几乎任何人

“公司拥有越来越多的数据,”以数据为中心的众包网站CrowdFlower的首席执行官兼创始人Lukas Biewald说道,“您不会只有一个部门创建电子表格,任何人都无法修改, “Biewald补充道。 “现代企业需要像对待Excel一样思考这些数据工具。”Gartner预测,到2019年,自助式数据准备工具市场将达到10亿美元。“

大企业是迁移到数据湖,所有的数据都集中在一个地方,“Platfora总裁兼首席执行官Jason Zintak说,”接下来,企业需要帮助他们的员工充分利用它。 Platfora为Hadoop专注的平台计费是一种让公司内部任何人都能够对整个组织数据进行分析的方式,包括交易,客户互动和机器数据。

'他们可以构建自己的报告'

在很多方面,公民数据科学家代表了传统商业分析师角色的演变

“当我考虑传统的业务分析师时,他们对业务有很好的了解,但并不一定熟悉数据,”西尔斯的皮克特说,

换句话说,这些专业人员经常专注于收集来自Excel或其他报告工具的见解,换句话说,在数据丰富的时代,关于以数据为中心的问题,识字能力更强Pickett补充说,这反映出从关系数据库和电子表格转向数据湖泊和更复杂的分析工具。

“我所观察到的是,对业务有深入了解的人现在在数据方面有一定的能力,”他解释说。 “他们可以建立自己的报告,他们知道什么样的特质融合在一起,不仅从商业角度而且从数据角度,他们知道要问什么问题。”然而,并非每个人都以公民数据科学家的概念出售。

'灾难处方'

“我不喜欢”公民数据科学家“这个术语,”分析和数据科学咨询公司KDnuggets的总裁Gregory Piatetsky-Shapiro说。事物“,这个术语意味着没有太多培训的人可以从事数据科学家的工作,”Piatetsky-Shapiro说。“

这很容易忽略教育的重要性,换句话说,即使大数据在许多方式使它比以前更重要。以统计为核心,数据科学通常依赖于对各种统计技术背后的假设的理解,例如 - 对于那些没有正式了解这些统计技术的人来说,这些因素并不总是显而易见的。“

”你会相信吗?你的牙齿变成'公民牙医'还是乘坐'公民飞行员'驾驶的飞机?“ Piatetsky-Shapiro问

。 “

未经训练的公民数据科学家对数据进行分析可能很容易,但如果他们在没有对数据分析进行适当培训的情况下做出决策,并且没有对业务的了解,那么这是一场灾难。”

Platfora的Zintak例如,内置的公司治理结构可以通过控制安全和访问级别来解决这个问题。在西尔斯,为该公司的300多名公民数据科学家进行的为期两周的培训也得到了帮助。

'数据是病毒式的 - 每个人都希望它'

专注于处理团队中许多报告需求的300多人,西尔斯自己的内部专家进行了培训,以使这些用户加快速度。例如,涵盖的主题包括术语和数据集操作。

今天,这些员工要求数据而不是报告,他说:“那是当我们知道这件事已经开始成型时。”

现在从Pickett的团队可以专注于更高级别的任务,如数据管理,模型构建和治理。

'从小处着手,做到这一点'

总体而言,Pickett宣称分散决策作为公民数据科学家模型的主要优点之一

“这不仅仅是减少对我们的依赖,”他说。 “它使人们能够用自己的数据变得更有能力,这使他们能够以新的方式思考自己的业务。”如果皮克特必须重新做一遍,他会转换到公民数据“他说,”没有简单的方法可以做出这种范式转变,所以不要试图规划一切,从小处着手,只是做它,“他建议道。 “一旦人们了解他们可以获得什么,采用就会变成病毒式的,他们会有很多问题,这真是太棒了。”

Top