用“情”最多的词人
我在美国留学的最初两年里,因为乍从朝九晚五的作息中解脱出来,突然间拥有了许多闲适心情下的可自由支配时间,欣喜之余,颇做了许多无聊且浪费时间的事。
如今我又变回了上班族,不仅每天要挤着曼哈顿老旧的地铁上下班,晚上和周末还要蜷缩在笔记本电脑前耕耘着我那不知何年何月才能够完结的小说,回首往昔,只能嗟叹年轻时可以虚掷光阴的奢侈,更感慨于那再也找不回来的闲适心情。
当然,求学期间所做的那些无聊事也并非全然无用,比如其中一件竟可以用来凑成本篇博文,以充实这片从创立之日起就日渐荒芜的园地。
事情的缘由是我选修的某门课里涉及到基础的数据库理论和数据查询语言(SQL),其实对于我这样从小到大一直经历激烈的学业竞争,深谙考试和高分之道的中国学生来说,在美国的课堂上多快好省、事半功倍地拿A,就算不是探囊取物,却也并不是特别难的事情。但我那时候坐在学校宽敞舒适,空旷明亮的图书馆里,感概着这片土地人均资源之丰富的同时,也产生了时间于我同样是取之不尽,可肆意蹉跎的错觉。
我于是选择了一条掌握关系型数据库理论最为彻底,同时也是最为耗时的道路,那就是自己从零开始创建一个具有一定规模的数据库,然后实践各种维护操作和合并查询。
从技术上讲,我完全可以建立一个有关日本女优的姓氏名字、血统三维、代表作品、下载链接以及在中国的微博粉丝数量等等的数据库。如果真的完成,这将是一件造福天下宅男的义举。但是我最终却还是选择建了一个关于宋代词人的姓名谥号、生卒年月、词牌词作、名言佳句的数据库。只缘于小时候对宋词的喜爱。
在我念中学的时候,整个社会总的来说还没有太多暴富的机会,商品房改革还未开始,同学们的父母之间的差异也没有如今这么巨大。虽然娱乐手段极度匮乏,心态却相当平和。我记得每节语文课之前,老师会用十分钟的时间选一位同学到黑板上写下自己最喜欢的一首诗词并简单讲解。班上一位才女十六岁生日的时候,大家凑钱给她买的并不是iPod或者兰蔻,而是一整套《中国历代诗余》。诗余就是词,词者,诗之余也。就是在那样风轻云淡的岁月里,我开始喜欢上了宋词……
我的宋词工程前后一共花了大约三四天的时间,先是建了数据库,然后从网上下载了一个TXT版本的《全宋词》,编了一个小程序,自动将作者生卒年月词牌词作等录入了数据库里。这个过程需要用到对String的各种巧妙的操作,并且难免有许多错漏,有的词牌后面还有小注、甚至大段的序言都要加以区分……总之,废寝忘食地付出了许多心血才将数据库最终建好。
那门课结束以后这个宋词数据库就被荒弃了。我修完了数学的学位以后改学金融工程,课程变得越来越实际,我也失去了那种不计得失刨根问底的求知精神。直到最近,我无意间翻出了保存在Excel当中的宋词数据库的原始版本,才意识到这多少还是一样有价值的东西,至少可以让喜爱宋词的人问出一些或寻常或有趣的问题……
面对这样一个数据库,第一个可以想到的简单问题大概就是谁是宋代写词最多的人?(当然因为依据是《全宋词》,李煜同学就未能包括在本文的任何话题内)
答案是辛弃疾,626首,第二名是苏轼,349首。恰恰是南宋和北宋最伟大的两位词人。
另一个稍微有趣一点的问题是,哪个词牌被填得最多?
写一个简单的SQL可以得到,全宋词里一共有1347个不同的词牌。其中被词人们填得最多的是《浣溪沙》,共721首。《浣溪沙》得名于西施浣纱的典故,许多人首先想到的很可能是晏殊的名句"无可奈何花落去,似曾相识燕归来"。
以下是词牌十强:
浣溪沙 |
721 |
水调歌头 |
688 |
鹧鸪天 |
583 |
菩萨蛮 |
565 |
满江红 |
490 |
临江仙 |
446 |
西江月 |
434 |
念奴娇 |
413 |
蝶恋花 |
403 |
减字木兰花 |
395 |
以上两个问题相对简单,百度一下大约也能找到答案,因此完全体现不出我的数据库的强大力量。因此我决定提一个更有难度的问题:近两万首宋词当中,那一个字被使用的最多?
如果要盲目猜测的话,应该感觉"风"、"花"、"情"、"月"这些字命中的概率较高。事实上,"风"只是第二名,"花"是第三名,"月"是十一名,而"情"只有第49名。
整个宋代,写词时被用得最多的汉字是"人",一共使用了12493次。
宋词中使用频率最高的前十个字依次是:人、风、花、一、不、春、无、云、来、天。
好,接下来终于要进入本篇博文的正题了。诗言志,词言情。在宋词中,"情"字一共被用了3730次,请问哪位词人使用最多,即,谁是宋代用"情"最多的词人?
在揭晓答案之前,我们不妨可以做一些猜测。是"衣带渐宽终不悔"的柳永吗,还是"此情无计可消除"的李清照?是"金风玉露一相逢,便胜却人间无数"的秦观,还是"马滑霜浓,不如休去,直是少人行"的周邦彦?当然,苏轼、辛弃疾这两大家虽是豪放派的代表,婉约词写得其实也不比任何人差,也是可能的人选。
但检索的结果却是,用"情"最多的词人是赵长卿(99次)。辛弃疾第三,柳永第五,苏轼第十,周邦彦十五,秦观二十一,李清照只排在第57名。赵长卿其实也是一位相当有名的词人,尽管不如前面提到的那些候选人有人气,有兴趣的朋友可以找一些他的词来赏读。但是不管怎么说,李清照排到五十名以外的结果还是让我有些小小的失望。
我突然想到,其实纯用绝对字数来做这个排名有欠公平,因为李清照一共只被收录了48首词,而赵长卿则写了338首。所以除非李清照写诸如"情啊情,情啊情,你情我情大家情"这样的词,否则是很难有机会超越他的。我于是想到了"用情比率",也就是平均一首词使用"情"字的多少。
不过这样一来问题又出现了。用情比最高的人是唐婉(陆游的表妹和第一任妻子,参见著名的《钗头凤》典故)。唐美女一共只写了那一首词,里面用了两个情字。2.0!竟无人可以超越了。大家想一想,虽然说诗言志,词言情,但是平均一首词要用超过两个情字的话也实在是有点过了。
因此评选这个用情比似乎还应该设一个总词数的门槛,我一拍脑袋,就设40吧。写了四十首以上宋词的词人中,谁使用情字的频率最高?
答案揭晓,李清照(0.3958)。柳永是第三名(0.3821)。
以上便是我求学期间闲极无聊时获得的"重要"学术成果之一。当然,抛开这些冰冷的统计数字,如果问我心目中用情最多的词人是谁的话,那么我的答案正是李清照和柳永。
=================================================================================
注1:紧跟柳永排在用情比(40首+)第四名的词人是黄裳。
注2:希望接下来可以写一系列的宋词随笔,结合文学价值和统计排名两方面来戏说一下我喜欢的词人和词作。