转眼间又快到春节了,去年的春节由于疫情原因促生了云拜年,经过众多白衣天使的艰苦奋战,今年春节整体环境好了很多,但疫情防控仍然不能松懈。
春节期间免不了给七大姑八大姨拜年的传统习俗,在中国的亲戚的关系"错综复杂",有时候一些亲戚该怎么称呼可能都不太清楚。这时,机智的程序员创造出了亲戚关系计算器。
目前网上各种版本都已比较成熟,在此就不做过多介绍了,本文主要介绍亲戚计算器实现中的一些语法与其他小细节。并对以下的python版本进行一些细节上的优化。
参考版本:https://zhuanlan.zhihu.com/p/56144138
算法实现思路:
通过将输入的关系拆分为对应的关系链(关系链由最基本的原子称呼组成,表1),进而对关系链进行简化,从而得到最终的关系表示,最后直接查找"关系链-称呼"映射即可得到最终称呼。
具体的实现方式与思想可参考:
https://www.jianshu.com/p/74290f1ae838
https://zhuanlan.zhihu.com/p/56144138
算法定义了如下12中基本的原子称呼。
表1:原子称呼表
符号 | 全称 | 含义 | 符号 | 全称 | 含义 |
---|---|---|---|---|---|
f | father | 父亲 | xb | x brother | 兄弟 |
m | mother | 母亲 | ob | older brother | 哥哥 |
h | husband | 丈夫 | lb | little brother | 弟弟 |
w | wife | 妻子 | xs | x sister | 姐妹 |
s | son | 儿子 | os | older sister | 姐姐 |
d | daughter | 女儿 | ls | little sister | 妹妹 |
同时为了减小性别、年龄带来的影响,还额外定义了一些修饰符。
表2:关系修饰符
符号 | 含义 | 符号 | 含义 |
---|---|---|---|
1 | 男性 | 0 | 女性 |
&o | 年长 | &l | 年幼 |
# | 隔断 | [a|b] | 并列 |
通过观察"关系链-称呼"(_data变量),不难发现以w开头的关系,其性别sex都是男性(妻子的…),而以h开头的关系,其性别sex都是女性(丈夫的…)。
因此,在我们将关系拆分成所有可能的关系链后,我们可以对subject的性别做一个简单的推断,以此提高最终关系计算的准确率。
亲测有效~
selectors = self.get_selectors(gx.strip())
result = [] # 匹配结果
for s in selectors: # 遍历所有可能性
# 根据关系,简单推断当前人的性别
if sex == -1:
if re.search(r'[,]h', s):
sex = 0
elif re.search(r'[,]w', s):
sex = 1
另外,还发现关系链简化过程中,正则匹配的顺序会影响最终的关系推断,需要注意。