Apache Kafka如何为大数据增加轮子

2024

分析通常被描述为与大数据相关的最大挑战之一，但即使在这一步骤发生之前，数据也必须被摄入并提供给企业用户。这就是Apache Kafka进来的地方。

Kafka最初是在LinkedIn开发的，它是一个开源系统，用于管理来自网站，应用程序和传感器的实时数据流。

从本质上讲，它可以作为一种企业“例如收集有关用户活动，日志，应用指标，股票代码和设备仪器等大量数据的“中枢神经系统”，并将其作为实时流供企业用户使用

[进一步阅读：最好的白色LED智能灯泡

Kafka经常与ActiveMQ或RabbitMQ等技术用于本地实施，或者与亚马逊网络服务公司的Kinesis for云客户进行比较，他说联合创始人Stephen O'Grady并且是RedMonk的首席分析师

“它变得越来越明显，因为它是一个高质量的开源项目，同时也是因为它处理高速信息流的能力越来越需要用于服务工作负载，如物联网， “O'Grady补充道，

自从在LinkedIn开始构思以来，Kafka得到了Netflix，Uber，思科和高盛等公司的高度支持。上周五，IBM得到了新的推动，IBM通过其Bluemix平台推出了两款基于Kafka的服务。

IBM新推出的Streaming Analytics服务旨在每秒钟分析数百万次事件，达到亚毫秒响应时间，即时决策。 IBM Message Hub现在处于测试阶段，可为云应用程序提供可扩展的分布式高吞吐量异步消息传递，并可选择使用REST或Apache Kafka API（应用程序编程接口）与其他应用程序进行通信。

Kafka was was去年，Kafka的三位创造者推出了Confluent，一家致力于帮助企业在规模生产中使用它的公司。

“在LinkedIn的爆发性增长阶段，我们无法跟上不断增长的用户基础和可用于帮助我们改善用户体验的数据“，Kafka的创建者之一和Confluent的联合创始人之一Neha Narkhede说道。”Kafka允许您将数据传输到整个公司，并使其成为可能Narkhede解释说，在几秒钟内就可以作为一个持续自由流动的数据流提供给需要使用它的人们。 “它的规模确实如此。”

她对LinkedIn的影响是“变革性的”，她说。今天，LinkedIn仍然是卡夫卡生产中最大的部署;它每天超过1.1万亿条消息。

与此同时，Confluent通过订阅提供高级管理软件，以帮助大型公司在生产系统上运行Kafka。 Narkhede说，其客户中有一家是大型零售商，也是“美国最大的信用卡发行商之一”。

后者正在使用该技术进行实时欺诈保护，她表示。 451 Research分析师Jason Stamper表示，Kafka是一款“令人难以置信的快速消息总线”，它很好地帮助快速整合大量不同类型的数据。 “这就是为什么它正成为最受欢迎的选择之一。”

除了ActiveMQ和RabbitMQ，另一款提供类似功能的产品是Apache Flume，他指出：在商业领域，Confluent的竞争对手包括IBM InfoSphere Streams，Informatica的Ultra Messaging Streaming Edition和SAS的事件流处理引擎（ESP），以及Software AG的Apama，Tibco的StreamBase和SAP的Aleri，Stamper补充道。较小的竞争对手包括DataTorrent，Splunk，Loggly，Logentries，X15软件，Sumo Logic和Glassbeam。

在云端，AWS的Kinesis流处理服务“与其Redshift数据仓库和S3存储平台等整合的额外好处”，他说。“Teradata新发布的Listener是另一个竞争者，它是基于Kafka的“Forrester Research的副总裁兼首席分析师布莱恩霍普金斯指出，”一般来说，实时数据有一个明显的趋势，霍普金斯说。“直到2013年左右，”大数据全是关于大量的数据填入Hadoop，“他说。 “现在，如果你不这样做，你已经落后于功率曲线。”

今天，来自智能手机和其他资源的数据为企业提供了实时与消费者互动的机会，并提供了背景体验，他说过。这反过来又取决于更快理解数据的能力。“

物联网就像是第二波移动通信，”霍普金斯解释说。 “每个供应商都在为数据雪崩而定位。”

因此，技术正在相应地适应。“到2014年，所有关于Hadoop的都是关于Hadoop的，然后是Spark。”他说。 “现在，它是Hadoop，Spark和Kafka。这些现代分析架构的数据吞入管道中有三个同等对等点。”