R文本挖掘初探之“天下风云出我辈, 一入江湖岁月催”(1)

宅了三天,动手操作文本挖掘。现将结果呈现在此,顺便总结下这几天的学习,看起来还挺有意思(bu kao pu)的。

完整的计划应该包含五个部分:

人物重要程度图:提取人物出现频数,绘制词云

主要人物出场次序图:按照出场顺序,绘制主要人物出场的顺序和活跃的阶段。

人物关系图:提取人物关系(节点和边),绘制关系图谱。

故事展开地图:提取文中地理位置出现的先后,绘制地图,并标明先后变化轨迹。

武功招式图:武功招式出现的频数,绘制词云图。

目前只完成了前三个人物,本文只展示这三个作品,其他的后续贴文章,实现过程也会在后面记录下来。

1. 人物重要程度词云

名字的大小表征该角色的出镜率的高低。采用一把剑的来组织词云,还是蛮符合笑傲江湖主题的。


主要人物热度词云

2. 主要人物出场次序图

不解释,直接上图。

令狐冲和林平之出场情况比较

图中可以看出这两个人物基本贯穿整部小说。。。相比于冲哥极高且分布较为均匀的样子,林平之倒是像是故事的各种线索:故事从他开始展开,关键环节他总是会出现,一点都不落下。唉,悲剧的人生就是给别人精彩的人生当坐标,串故事。

令狐冲、林平之、田伯光、岳不群、岳灵珊出场情况

这张图将令狐冲、林平之、田伯光、岳不群、岳灵珊这5个人物出场情况展示在一张图上,不得不说小师妹跟林师弟真的是天生一对。。。出现也是成双成对形影不离。田伯光这个人物看原著的时候知道他出镜率蛮高,可是没想到有结果这么高。。。说实话还是蛮喜欢这个采花大盗的。

主要人物出场分面图

前两张图在人物很少的情况下能够清晰的展现一些人物的出场情况,但是想要把所有主要人物的出场情况都表现出来如果都化成一张图(下一张)颜色的交织会使得观察的不够明显,于是采用分面图来表示Top21(一共有130+号人物出场,打酱油的路人甲除外)的人物上镜情况。可以既关注某个角色,又可以相互对比,其乐融融啊。。。基本是按热度排行,我们的圣姑除外。为了对比把所有Top21都画在一个图上的也传上来:

主要人物复合时间线图

3.人物关系图

人物关系图是最”复杂“”和”纠结”的了。。。



笑傲江湖人物关系图

笑傲江湖人物关系图

笑傲江湖人物关系图

相关文章

自1998年我国取消了福利分房的政策后,房地产市场迅速开展蓬...
文章目录获取数据查看数据结构获取数据下载数据可以直接通过...
网上商城系统MySql数据库设计
26个来源的气象数据获取代码
在进入21世纪以来,中国电信业告别了20世纪最后阶段的高速发...