日志收集之kafka篇

日志收集

    日志收集包括服务器日志收集和埋码日志收集两种。

    服务器日志主要是nginx、tomcat等产生的访问和业务日志。

    埋码收集主要是某些服务器无法收集,需要在前端进行收集的数据。

收集流程

    日志处理是指将消息队列用在日志处理中,比如Kafka的应用,解决大量日志传输的问题。

日志收集之kafka篇

  • 日志采集客户端,负责日志数据采集,定时写受写入Kafka队列;
  • Kafka消息队列,负责日志数据的接收,存储和转发;
  • 日志处理应用:订阅并消费kafka队列中的日志数据;

      下面是一个应用的实例图

日志收集之kafka篇

      存储可以是Elasticsearch,对数据进行实时分析。

为什么kafka

    Kafka 是分布式发布-订阅消息系统。它最初由 LinkedIn 公司开发,使用 Scala语言编写,之后成为 Apache 项目的一部分。Kafka 是一个分布式的可划分的多订阅者,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。如果对时时性要求较高的话,可以使用这种方案。

    它具备以下特点:

  • 同时为发布和订阅提供高吞吐量。据了解,Kafka 每秒可以生产约 25 万消息(50 MB),每秒处理 55 万消息(110 MB)。

  • 可进行持久化操作。将消息持久化到磁盘,因此可用于批量消费,例如 ETL,以及实时应用程序。通过将数据持久化到硬盘以及 replication 防止数据丢失。

  • 分布式系统,易于向外扩展。所有的 producerbroker consumer 都会有多个,均为分布式的。无需停机即可扩展机器。

  • 消息被处理的状态是在 consumer 端维护,而不是由 server 端维护。当失败时能自动平衡。

  • 支持 online offline 的场景。

kafka的测试效果

    下面是单机情况下的测试效果:

日志收集之kafka篇

kafka的核心概念

    kafka中的核心概念如下:

  • Producer 特指消息的生产者
  • Consumer 特指消息的消费者
  • Consumer Group 消费者组,可以并行消费Topicpartition的消息
  • Broker:缓存代理,Kafa 集群中的一台或多台服务器统称为 broker
  • Topic:特指 Kafka 处理的消息源(feeds of messages)的不同分类。
  • PartitionTopic 物理上的分组,一个 topic 可以分为多个 partition,每个 partition 是一个有序的队列。partition 中的每条消息都会被分配一个有序的 idoffset)。
  • Message:消息,是通信的基本单位,每个 producer 可以向一个 topic(主题)发布一些消息。
  • Producers:消息和数据生产者,向 Kafka 的一个 topic 发布消息的过程叫做 producers 
  • Consumers:消息和数据消费者,订阅 topics 并处理其发布的消息的过程叫做 consumers

kafka的整体流程

    kafka的整体流程:

日志收集之kafka篇

          数据通过flume在客户端进行代理,收集各种日志信息,整体模式使用生产者,消费者的模型。

          producer可以根据配置设置发送的时间段。

          broker中分为不同的topic,topic中又可以分为不同的partition,这个有点儿类似于数据库中的分区表,对于数据量大的情况下非常适合。

          customer负责消费消息日志,如果需要时时消费,则可以使用storm或者spark streaming,如果离线消费,可以使用mapreduce。


kafka总结

    kafka可以完全应用到不同的业务场景中,配合zookeeper,保证系统的高可用性。



作者:skyme

联系方式:

邮箱【cloudskyme@163.com】

QQ【270800073】

本文版权归作者和云栖社区共同所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。



上一篇:创建SinaSAE云账号创建和发布基于SVN代码管理的PHP空工程


下一篇:scala实现单例模式