ebtables hook

1 概述

netfliter框架不仅仅在ipv4中有应用,bridge,ipv4,ipv6,decnet 这四种协议中都有应用,其中ipv4中又分开了arp和ip的两种

其实netfliter是个大的框架,在ipv4中对应的应用层工具是iptables,在bridge中对应的应用层工具是ebtables,在arp中对应的应用层工具是arptables

iptables 中有raw,filter,nat,mangle,security,5个table,

ebtables 中有broute,filter,nat,3个table,

arptables 中有filter,1个table

具体的可以查看源码目录linux/net/目录下的ipv4,ipv6,decnet,bridge目录下的netfilter

2 一些概念

2.1 三层hook函数的优先级

enum nf_ip_hook_priorities {

NF_IP_PRI_FIRST = INT_MIN,

NF_IP_PRI_CONNTRACK_DEFRAG = -400,

NF_IP_PRI_RAW = -300,

NF_IP_PRI_SELINUX_FIRST = -225,

NF_IP_PRI_CONNTRACK = -200,

NF_IP_PRI_MANGLE = -150,

NF_IP_PRI_NAT_DST = -100,

NF_IP_PRI_FILTER = 0,

NF_IP_PRI_SECURITY = 50,

NF_IP_PRI_NAT_SRC = 100,

NF_IP_PRI_SELINUX_LAST = 225,

NF_IP_PRI_CONNTRACK_HELPER = 300,

NF_IP_PRI_CONNTRACK_CONFIRM = INT_MAX,

NF_IP_PRI_LAST = INT_MAX,

};

2.2 二层hook 函数的优先级

enum nf_br_hook_priorities {

NF_BR_PRI_FIRST = INT_MIN,

NF_BR_PRI_NAT_DST_BRIDGED = -300,

NF_BR_PRI_FILTER_BRIDGED = -200,

NF_BR_PRI_BRNF = 0,

NF_BR_PRI_NAT_DST_OTHER = 100,

NF_BR_PRI_FILTER_OTHER = 200,

NF_BR_PRI_NAT_SRC = 300,

NF_BR_PRI_LAST = INT_MAX,

}

2.3 hook点,hooknum,hook函数

三层(ip)有5个hooknum,分别是pre_routing,local_in,forward,local_out,post_routing

二层(bridge)有6个hooknum,分别是

pre_routing,local_in,forward,local_out,post_routing,brouting,

在头文件./uapi/linux/netfilter_bridge.h ./uapi/linux/netfilter_ipv4.h 可看到

linux/net/netfilter 是整个netfilter框架的代码,不同的协议下面的netfilter是调用的代码

hook函数,就是我们自定义的那些函数,函数优先级,数值越大的,优先级越小

一个hook点是由协议和hooknum两者决定的,nf_hooks[pf][hooknum],因此,协议不一样,hooknum一样也是不一样的hook点的,ipv4的协议是NFPROTO_INET,bridge的协议是NFPROTO_BRIDGE,而只有同一个hook点的函数才会有优先级的问题。因此,在正常情况下,同一个数据包在某一层中只会遍历某一种协议的hook点,是一个水平分层的问题,虽然都注册在netfilter框架下,可是协议决定了这是一个水平的流程。当数据包上到另外一层那就是另外一层的水平。

但是有一些地方在三层的改变会影响二层的结构的,比如像ip-DNAT的,改变了三层的daddr,那么对应的二层的dmac地址也是会跟着改变的,那么这个应该在routing之前还是应该在brigding之前做呢?按道理虽然改的是三层的内容,但是这个应该在brigding之前做的,这样在二层选择出口的时候,才不会错。所以其实二层中有些地方是有穿插三层的hook点的调用的,所以整个结构看起来才会不那么清晰(后面的函数分析会证实这个想法)

hooknum 和pf 决定了hook点,hook点上面有hook函数,根据优先级来进行hook函数的调用。

NF_HOOK 这个宏就是遍历给定的hook点(nf_hooks[pf][hooknum])上面的所有hook函数

在整个网络协议栈(包括二层的)上面的不同位置的NF_HOOK的作用就是遍历不同的hook点上hook函数,这就是netfilter做的事情

3 数据包在网桥的流转

3.1 接收入口函数

netif_rx

netif_receive_skb(skb)-->netif_receive_skb_internal()->__netif_receive_skb()-> __netif_receive_skb_core()

netif_rx 是上层处理函数中最接近驱动层的函数,往queue里面放skb

netif_receive_skb 是最接近上层处理函数的入口函数,在软中断中执行,在queue中取完skb后的处理函数

netif_rx 和netif_receive_skb的关系还没有搞的很明白,两者没有明显的调用关系,在驱动中两者都有调用,

__netif_receive_skb_core 是真正处理skb的函数,到底接着数据包是怎么走的,在这里判断的

对于网桥的数据包,就是rx_handler = br_handle_frame,在调用这个函数之前已经调用了skb_vlan_untag把二层头包含vlan信息的部分去掉,

并且把vlan信息记录在skb->vlan_proto(协议),和skb->vlan_tci(优先级和id)

即bridge的入口函数是br_handle_frame,在br_input.c

br_handle_frame 主要有两个分支有NF_HOOK的调用的,如下:

|---link-local----      NF_HOOK(NFPROTO_BRIDGE,NF_BR_LOCAL_IN,..,br_handle_local_finish) 
|---forward--          NF_HOOK(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING, ...,br_handle_frame_finish)

link-local :dmac是本地链路地址。至于什么是本地链路地址,可以google,只知道在ipv6中(fe80)用得比较多,其他没什么了解

br_handle_frame_finish 这个函数对数据包的dmac进行判断,然后走不同的处理函数.

dmac 的不同的,处理方式不同:

A.bridge it,如果dmac是在网桥的别的端口,复制一份帧到dmac所在的端口                    ---->br_forward

B.flood it over all the forwarding bridge ports,如果dmac地址是网桥不知道的,就泛洪     ---->br_flood_forward

C.pass it to the higher protocol code,如果dmac是网桥的,或者网桥其中一个端口的        ---->br_pass_frame_up

D.ignore it,dmac在进来的端口的这一边的,即dmac能在进来端口的mac地址表中找到             ---->br_forward

3.2 转发

br_forward,通过should_deliver()来进行判断,是否真的需要__br_forward 还是 ignore it,

__br_forward->NF_HOOK(NFPROTO_BRIDGE, NF_BR_FORWARD, ... skb->dev,br_forward_finish) ,

__br_forward 函数改变了skb->dev

br_forward_finish->NF_HOOK(NFPROTO_BRIDGE,NF_BR_POST_ROUTING,skb,NULL,skb->dev,br_dev_queue_push_xmit);

br_dev_queue_push_xmit->dev_queue_xmit

br_flood_forward->br_flood(br, skb, skb2, __br_forward, unicast)->__br_forward

same as __br_forward

3.3 local_in

br_pass_frame_up->NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_IN, skb, indev,NULL,netif_receive_skb)

3.4 发送入口函数

对于二层以上的层,只有网桥这个接口,没有其绑定的ethx了(通过路由表可知),网桥的发送函数是br_dev_xmit

在br_dev_xmit 也会根据dmac判断是进行br_multicast_deliver,br_deliver,

还是br_flood_delver,但是最后调用都是__br_deliver

__br_deliver-> NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_OUT, skb, NULL,skb->dev,br_forward_finish)

br_forward_finish->NF_HOOK(NFPROTO_BRIDGE,NF_BR_POST_ROUTING,skb,NULL,skb->dev,br_dev_queue_push_xmit);

br_dev_queue_push_xmit->dev_queue_xmit

3.5 结论

根据上面的分析,通过网桥进来的数据包会经过的hook点跟在三层的是一样的

本地的会经过pre_routing 和local_in, 转发的会经过pre_routing,forward,post_routing ,
而本地出去的会经过local_out,post_routing

4 二层调用三层的hook函数的实现

4.1 NF_HOOK 和NF_HOOK_THRESH的区别

NF_HOOK 封装了NF_HOOK_THRESH ,是特殊的NF_HOOK_THRESH, 是从优先级最高的hook函数开始的

NF_HOOK_THRESH,

static inline int NF_HOOK{

return NF_HOOK_THRESH(pf, hook, skb, in, out, okfn, INT_MIN)

4.2 br_netfilter.c分析

二层hook点中调用三层的hook的实现主要在linux/net/bridge/br_netfilter.c ,这个函数注册了7个hook函数,其中5个是NFPROTO_BRIDGE协议的,2个分别是NFPROTO_IPV4,NFPROTO_IPV6的

NFPROTO_BRIDGE的5个函数分别是br_nf_pre_routing,br_nf_local_in,br_nf_forward_ip,

br_nf_forward_arp,br_nf_post_routing的,br_nf_forward_ip 优先级是 -1,其他优先级都是0,

NFPROTO_IPV4/6 的两个都是在pre_routing hook点,优先级是first,hook函数都是ip_sabotage_in,这个函数的作用就是防止多次调用三层pre_routing hook点的hook函数

因此目前看到的在NFPROTO_BRIDGE协议下系统注册了的钩子函数的顺序如下:

pre_routing  ebt_nat_in(dnat)->br_nf_pre_routing

local_in     ebt_in_hook(filter)->br_nf_local_in

forward      ebt_in_hook(filter)->br_nf_forward_ip->br_nf_forward_arp

local_out     ebt_nat_out(dnat_other)->ebt_out_hook(filter_other)

post_routing  ebt_nat_out(snat)->br_nf_post_routing(last)

(1). br_nf_pre_routing->NF_HOOK(NFPROTO_IPV4, NF_INET_PRE_ROUTING, skb, skb->dev,NULL,br_nf_pre_routing_finish)

br_nf_pre_routing_finish->NF_HOOK_THRESH(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING, skb,skb->dev, NULL,br_handle_frame_finish, 1);

到br_handle_frame_finish 就走完了pre_routing的钩子了,其实NF_HOOK_THRESH 就是为了走完pre_routing 优先级大于1的钩子函数

正常的数据包走br_hadnle_frame 进来调用了一次NF_HOOK ,执行NFPROTO_BRIDGE的pre_routing的hook点中的hook函数,当执行到      br_nf_pre_routing这个钩子函数的时候,会先去调用一次三层的pre_routing的所有hook函数,然后再回到br_nf_pre_routing_finish

因为在br_nf_pre_routing 中返回值是NF_STOLEN,所以在br_handle_frame调用的

NF_HOOK(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING, ...,br_handle_frame_finish),

到br_nf_pre_routing 就结束了,所以会有在br_nf_pre_routing_finish->NF_HOOK_THRESH()的过程,是为了重新接上pre_routing 后面的hook函数

有了这个函数br_nf_pre_routing,就可以对只经过二层的数据包做三层的dnat,

(2).br_nf_local_in->nothing ,

(3).br_nf_forward_ip->NF_HOOK(pf, NF_INET_FORWARD, skb, brnf_get_logical_dev(skb, in),parent,br_nf_forward_finish),pf=INET/INET6

bf_nf_forward_finish->NF_HOOK_THRESH(NFPROTO_BRIDGE,NF_BR_FORWARD,skb, in,skb->dev, br_forward_finish, 1);

这里主要是经过了3层的forward hook点,就是经过二层走的数据包可以在三层的forward链做过滤,主要是结合physdev模块做indev和outdev的过滤。继续NF_HOOK_THRESH的时候,会走到优先级是1的hook函数那里,跳过了br_nf_forward_arp,因为一个skb->protocol,只能是一种,不可能既是ip,也是arp,既然在br_nf_forward_ip中能走到br_nf_forward_finish就证明这是个ip包了,如果不是ip包,在一开始就会返回NF_ACCEPT,让其继续走原来的遍历顺序

br_nf_forward_arp->NF_HOOK(NFPROTO_ARP,NF_ARP_FORWARD,skb, (struct net_device*)in,(struct net_device *)out,br_nf_forward_finish);

这个就在ARP的forward链上做过滤

注意两个NF_HOOK中传进去的indev和outdev 的区别,不一样的

(4).br_nf_post_routing->NF_HOOK(pf, NF_INET_POST_ROUTING, skb, NULL,realoutdev,br_nf_dev_queue_xmit)

注意br_nf_post_routing 的优先级是last,

在post_routing中也先判断,数据包是否是经过bridge的了,如果是从

ip/local_out->bridge/local_out,或者直接bridge/local_out的数据包都没有必要再经过一次ip/post_routing,即只有经过bridge转发的包,
才需要经过ip/post_routing

4.3 防止多次调用三层hook点的hook函数

ip_sabotage_in 在NFPROTO_IPV4/6的pre_routing 的first,如果是从网桥上来到三层的数据包,其实三层的pre_routing已经做过了,这个函数

就是控制如果是从网桥上来的数据包就返回NF_STOP ,停止这个hook点的后续hook函数的检查,并且接受数据包(防止两次走过三层的pre_routing),如果不是从网桥上来的包,就返回NF_ACCEP ,继续做这个hook点的hook函数的检查的

根据4.2 可知,在二层只有pre_routing,forward,post_routing 三个hook点会调用到三层对应hook点的hook函数,而只有经过
bridge/pre_routing->bridge/local_in->ip/pre_routing这样路径进来的数据包才需要在ip/pre_routing的位置判断是否是网桥上来的包,如果是网桥上来的就不再需要遍历这个hook点剩下的hook函数了.其他的路径,都不可能同时经过二层和三层的同一个hook点,

所以只需要在ip/pre_routing的first的位置注册ip_sabotage_in,就可以了,ip/forward,ip/post_routing 都不需要

5 brouting hook点

brouting的调用不是通过NF_HOOK 这种传统的方式来进行的,而且系统没有通过nf_register_hooks 这种方式注册对应的hook函数,

只是把一个函数赋值给了一个在br_input.c 中定义的br_should_route_hook_t

*br_should_route_hook 这个变量

然后通过这个变量来进行函数的调用,真正的函数是net/bridge/netfilter/ebtable_broute.c 中的ebt_broute

ebtable 有三个表,分别是

broute:系统没有注册有hook函数,允许注册的hook点只有一个就是brouting

nat:pre_routing(dnat),post_routing(snat),local_out(dnat_other)

filter:local_in,forward,local_out(other)

STP 最小生成树协议的5中状态

#define BR_STATE_DISABLED 0

#define BR_STATE_LISTENING 1

#define BR_STATE_LEARNING 2

#define BR_STATE_FORWARDING 3

#define BR_STATE_BLOCKING 4

DISABLE:   什么功能都没有,只有一个逻辑设备。

LISTENING: 可以接收和发送网络传输的BPDU,包括Configureation BPDU和TCN BPDU,但不能进行数据帧的转发、不能学习。

LEARNING:  可以接收和发送BPDU,可以学习,但是不能进行数据帧的转发。

FORWARDING:可以接收和发送BPDU、可以学习、可以进行数据帧的转发。

BLOCKING:  只能接收BPDU,不能发送BPDU,不能学习,不能转发数据帧。

至于什么是BPDU 这个可以去看看linux-bridge的最小生成树的相关知识

在br_handle_frame函数的forward 标签下,

如果p->state 是FORWARDING的才会调用到brouting的hook点的唯一的hook函数ebt_broute,这个是在pre_routing 的调用之前的,
这里是以调用函数的方式来做ebtable的规则的,而不是遍历hook点上面的hook函数来做ebtables上面的规则的,因此,如果想自定义
hook函数,估计要改源码,即brouting这个hook点,只提供了用户接口,没有提供开发接口

至于p->state (端口状态)是什么时候进行状态转换的?还不清楚

网卡新建为一个网桥的端口的时候状态是BR_STATE_DISABLED,

6 结论

经过二层的数据包会经过的hook点如下:
ebtables hook
不知道怎样把大图弄上CU,只能用viso画了,然后截图上去了,有点模糊

还有一篇从ebtables的使用角度分析的文章,个人感觉不错的,也贴在这里了
http://ebtables.netfilter.org/br_fw_ia/br_fw_ia.html

上一篇:[JS]笔记12之事件机制--事件冒泡和捕获--事件监听--阻止事件传播


下一篇:苹果App Store提交app审核时EULA(终端用户软件使用条款)的注意事项等政策解读