by @秦书宝
全文约 2000 字,阅读约需 5 分钟
.
孩子跟谁姓这个事,让我想起另一个有趣的话题。
之前简单提过 tf/idf 这个逻辑:
- tf 就是一个词出现在特定一段话里的频率,这段话里这个词出现次数越多,这个词越可能是核心词;(比如说「姓名」)
- 而 idf 就是这个词出现在整个语言里的频率,整个语言里这个词出现次数越多,说明这个词越常见,反而越不可能是这段话的核心词;(比如说「的」)
这个逻辑本来是机器算法处理自然语言时,帮着提取一段话(一般是一个网页上的所有文本)的关键词,用来匹配其他素材的,但放在姓名上,就会有意想不到的结果。
比如你大概率认识至少一个叫张杰的人,或者王刚,或者李莉,或者刘伟,这些名字,在大数据时代,是近似隐形的。当然,同理,叫吴迪的,叫赵亮或者赵明的,也因为谐音而容易重名,所以也近似隐形。
假如用了俗名的人里,有一个出名了,那其他人就更加隐形了。比如张杰,对吧。就像我之前想搜一部老片《情书》,搜出来全是韩国 SBS 的综艺。
但这些名字只不过是近似隐形,有时还部分依赖于其他重名的人够不够火。
有没有真正隐形的名字呢?其实是有的。
比如:
- 姓周,叫周末。
- 姓白,叫白云。
- 姓杨,叫杨柳。
- 姓王,叫王冠。别笑,
- 这些都是真人真名。
这样的名字,不管有没有其他人重名,在中文语境里都是完全隐形的。用再智能的算法,也未必匹配得出来,因为直接借用了现代汉语常用词。不是谐音,是完全一样的字符,其额外信息量要靠上下文人工识别才可以识别出来。可与此同时,这样完全同字的谐音名,又能在线下生活中很轻易地让别人记住,留下较明确的印象。
同样的信息,在线上线下特性完全相反,而且几乎是各取其长,各避其短。
有人说,如果夫妻双方,一方的姓太俗太大,最好使用另一方的小姓,免得重名。我以前也这么觉得。但大数据之后,我觉得名字还是越俗越好,越不容易被发现越好,越没法在互联网上留下痕迹越好。
懂的人懂。
。
我有个小学同学叫文心,这个名字到现在我都记得😝
我的真名全国可能就一个…
我想起一个高中同学的名字,叫钱友好,不管顺着读,还是反着读,三个字的排列组合,都是好不隐形。
哈哈哈,好有意思的名字