附录E 安装Kafka

E.1   安装Kafka

E.1.1    下载Kafka

Kafka是由LinkedIn设计的一个高吞吐量、分布式、基于发布订阅模式的消息系统,使用Scala编写,它以可水平扩展、可靠性、异步通信和高吞吐率等特性而被广泛使用。目前越来越多的开源分布式处理系统都支持与Kafka集成,其中Spark Streaming作为后端流引擎配合Kafka作为前端消息系统正成为当前流处理系统的主流架构之一。

Kafka安装包可以在其官网下载页面下载,下载地址如下,为加快下载速度可以选择中国境内的镜像,选择稳定版本kafka_2.11-0.9.0.1.tgz安装包。

http://kafka.apache.org/downloads.html

E.1.2    解压并配置环境变量

下载后把安装包方放在目录/home/spark/work目录下,用下面命令解压缩Kafka安装包,并把解压后的目录移动到/app/soft目录下:

$cd /home/spark/work/

$tar -zxf kafka_2.11-0.9.0.1.tgz

$mv kafka-0.9.0.1 /app/soft

$ll /app/soft

为了方便运行Kafka相关脚本,将Kafka的bin路径加入到/etc/profile中,设置如下内容(分发到各节点后,在各节点上做同样设置):

export KAFKA_HOME=/app/soft/kafka-0.9.0.1

export PATH=$PATH:$KAFKA_HOME/bin

设置完毕后使用如下命令使配置生效:

$source /etc/profile

E.1.3    修改Kafka的配置文件

在Kafka的根目录下建立log目录用于存放日志文件:

$mkdir /app/soft/kafka-0.9.0.1/logs/

修改$KAFKA_HOME/config/server.properties配置文件内容(仅列出重要配置):

################ Server Basics ################

,slave1节点设置为1,slave2节点设置为2

broker.id=1

################ Socket Server Settings ################

#broker用于接收producer消息的端口

port=9092

#broker的hostname

host.name=master

#配置PRODUCER/CONSUMER连上来的时候使用的地址

advertised.host.name=master

################ Log Basics ################

#kafka存放消息文件的路径

log.dirs=/app/soft/kafka-0.9.0.1/logs/

#topic的默认分区数

num.partitions=2

################ ZooKeeper ################

#ZooKeeper集群连接地址信息

zookeeper.connect=master:2181,slave1:2181,slave2:2181

#连接ZooKeeper超时时间,单位为毫秒

zookeeper.connection.timeout.ms=6000

E.1.4    分发Kafka到各节点

使用scp命令到Kafka分发到slave1和slave2节点上:

$cd /app/soft/kafka-0.9.0.1

$scp -r kafka-0.9.0.1 spark@slave1:/app/soft

$scp -r kafka-0.9.0.1 spark@slave2:/app/soft

分发完毕后,修改server.properties配置文件中broker.id、host.name、advertised.host. name和zookeeper.connect等配置项。

E.2   启动并验证

1.  启动ZooKeeper

分别在master、slave1和slave2节点上启动ZooKeeper服务:

$zkServer.sh start

2.  启动Kafka

分别在master、slave1和slave2节点上启动Kafka服务:

$kafka-server-start.sh $KAFKA_HOME/config/server.properties

附录E 安装Kafka

图 附录E‑1 启动Kafka

3.  在master节点上新建主题Topic

$kafka-topics.sh --create --topic kafkaTopic --replication-factor 3 --partitions 2 --zookeeper master:2181

附录E 安装Kafka

图 附录E‑2 在Kafka中创建主题

4.  在slave1模拟消息生产者,发送消息至Kafka

$kafka-console-producer.sh --broker-list master:9092 --sync --topic kafkaTopic

当消费者连接后,在发送消息的终端输入:hello kafka/who are you?

附录E 安装Kafka

图 附录E‑3 slave1模拟消息生产者发送消息

5.  在slave2模拟消息消费者,显示消息的消费

$kafka-console-consumer.sh --zookeeper master:2181 --topic kafkaTopic --from-beginning

由于设置接收从开始到现在的消息,以前发送的消息也显示在slave2终端上。

附录E 安装Kafka

图 附录E‑4 slave2模拟消息消费者收到消息

上一篇:Python爬取跑男的评论,看看大家都在看谁吧


下一篇:json处理复杂对象jsonConfig