第064章 用科学方法解读红楼梦
《盘点历史十大伪作(1)》一出,顿时引起了无数网友的关注。
东门庆工作室。
“庆哥,三无出山了?”
“啊?他不是不再盘点诗词工作了么?出尔反尔?又出来盘点诗词了?”
“没,他这次盘点了历史上的伪作,说《红楼梦》是伪作。”
“啥?卧槽啊!准备文稿,以前咱们一直是歌颂他的,这次准备开喷吧!争取做出全网第一条批判他的短视频!”
……
片场。
宋乔芸正坐在椅子上休息,身边的化妆师在补妆。
滴!
【抖乐提示:您关注的短视频博主发布了最新作品。】
她连忙打开手机,见到印入眼帘的一行字后,整个人瞬间绷直了。
“这……”
“完了,歪了歪了歪了!”化妆师忙道。
宋乔芸沉吟道:“三无的观点,未必是歪的。”
“我是说口红给您画歪了。”
……
富旦大学。
张教授正在和同事们畅聊历史。
突然有人匆匆跑来:“张主任,我万万没想到,您口中的那个朋友,竟然是三无老师!”
张教授一脸茫然:“什么东西?”
“您朋友啊,您不是说您有个朋友嘛,我做梦都不敢想,您口中的那个提出了《后出师表》伪作言论的朋友,竟然是诗人三无!张主任,您也太低调了吧,认识三无都不跟我们说?”
张教授很茫然:“啥意思,我不懂你啥意思。”
“您还装!这不嘛,您朋友三无老师,刚刚发布了一条短视频,您看啊,这上面不是写着呢么,《盘点历史十大伪作(1)》,《红楼梦》,他前几天不是还说《后出师表》是伪作嘛!您可千万别告诉我,这是两个研究者碰巧想到一块去了,都研究同一个方向了。”
张教授脑袋“嗡”地一声,他突然意识到了什么,但又完全不敢相信。
他一把抓过手机,因为激动手都是抖的,只见屏幕上徐徐展示出一段内容,然后他整个人,彻底懵住了。
……
无数双眼睛在不同时间盯着同样的内容,有着同样的震颤,这是一个挑战了所有人固有认知的短视频!
短视频在缓缓播放着内容。
三无极具特色的嗓音,舒缓平和,娓娓道来。
【我将《红楼梦》分为两部分,第一部分:前80回,第二部分,后40回。
在经过我缜密而繁复的研究工作后,我发现了一个惊天的秘密——《红楼梦》后四十回,其作者并不是曹雪芹,而是由后人续写,狗尾续貂之作。】
抖乐最近学习了其他短视频网站,开通了弹幕功能。
此时满屏幕的弹幕全是问号。
“???”
“啊???”
“三无,请回去写你的诗词吧,别在这逗我好么?”
“这不扯淡呢么?”
“现在的自媒体,为了流量真是啥瞎话都敢编啊!”
……
视频内容继续:
【接下来的一段时间里,我将分若干集,从各个角度出发,来论证《红楼梦》后四十回并不是曹雪芹手趣÷阁。
而本集视频,我们先从文本特征差异研究开始。我将运用统计学方法,并结合 R语言技术,对我的观点进行阐述!】
弹幕上,网友们又蒙圈了。
“R语言技术?统计学?跟《红楼梦》有什么关系?”
“什么是R语言?”
“这不是文学方面的事情么?怎么涉及到数学和计算机技术了呢?”
“对啊,文学就是文学,怎么能和其他学科混为一谈呢,一看就不靠谱!”
“继续围观,看这个诗人能扯出什么花样来。”
……
【在大量事件的前提下,无论是在语言表述,还是在写作中,每个人在特定情况下用字或是用词都存在着某种规律。
这种规律便是个人在说话与写作中所形成的语言表达习惯,即是个人在其特定习惯中所形成特有的文体特征。
所以,不同的作者在用词频率与用词风格上存在一定的差异性。
我将运用R语言对《红楼梦》著作进行文本分词和词频统计,从高频词汇和虚字两个研究角度,来分析《红楼梦》前八十回与后四十回在文本特征上的差异性。
首先,我们率先研究高频词汇。
在《红楼梦》的高频词汇中,我首先将人名、地名、称谓等剔除掉,以及对“一个”“一面”等表数量的没有实际意义的词汇进行剔除。
于是,我们得到了65个高频词汇进行文本研究,现制作统计表格。
如下图!】
短视频中,贴出一张统计表。
【高频词汇研究对象表】
【1,什么;2,我们;3,那里;4,姑娘;5,你们……63,家里;64这话;65到底。】
短视频解读继续:
【……我的研究分组方案如下,一至三十回第一组,十六至四十五回第二组,三十一至六十回第三组……,以此类推,一共将《红楼梦》分成7组。
运用R语言,对各组进行分词,对高频词汇研究对象进行词频统计。绘制高频词汇频数变化折线图。
如下图所示!】
话音落,短视频里,贴出了运用R语言绘制出的高频词汇频数变化折线图——一个带有X、Y坐标的七条折线的统计表。
而此时,网友们全看傻了。
“懵逼了,这些都啥意思啊?”
“这能代表啥啊,根本看不懂啊!”
“诗人你到底啥意思,请你明说行么?”
“我感觉看了你的视频,受到了侮辱!”
“你高估我们了!”
……
短视频开始对这一折线图进行讲解:
【我们可以发现折线图有明显的锯齿形,那么就表明高频词汇在各分组有明显的波动……诸如 16(没有)、21(听见)、26(回来)、34(心里)、51(那些)、65(到底)等词汇,当第六组和第七组出现波峰的时候,其他组却出现了波谷;
而在42(不过)、61(姊妹)等词汇,当第六组和第七组出现波谷的时候,其他组却出现了波峰;这就说明第六组和第七组的折线图与其他组的折线图有明显的相反的走势……】
弹幕疯狂抗议:
“求你了别说了,听不懂啊,能直接告诉我结论么?”
“你让数学常年不及格的我,如何理解你的高深莫测?”
“直接说结论吧,真听不懂!”
……
【从部分高频词汇角度分析,前八十回和后四十回词频有较显著的差异性,于是我得出初步结论,前八十回和后四十回,作者并不是同一个人。
完成了高频词汇的分析后,下面,我们对虚字进行分析。
虚字,是指不能单独成句,意义比较抽象,而具有一定语法意义的字或词。古典小说中的虚字是构成句子必不可少的成分,其使用不受故事情节的制约,仅与作者的写作习惯有关。
……
我们对44个虚字作为研究对象, 44个虚字如下:之、其、或、亦、方、于……偏、儿。
在研究之前,首先我对监督学习作简单介绍,监督学习分为回归分析与分类分析两大类别,本文应用了分类分析。所谓分类是通过分析已知数据,构造一个分类函数或者分类模型(即分类器),利用该模型将数据库中数据映射到某一给定类别中……
接下来,我将运用监督学习中的朴素贝叶斯法和BP神经网络对红楼梦各回作分类研究,并根据分类准确度分析前八十回和后四十回的差异性!】
富旦大学。
张教授身边,人越聚越多。
“他说的这是啥啊?”
“我怎么全程都听不懂?”
“什么是朴素贝叶斯法?是数学么?”
“BP神经网络啥意思?生物学?还是计算机?”
“这确定是,在考证《红楼梦》后四十回是伪作么?”
“张教授,你能看懂他说的是啥么?”
“张教授?”
在场的所有教授都傻了,全都看不懂啊。
什么朴素贝叶斯法,什么BP神经网络,又什么折线图啊,这些文学方面的大教授们,哪懂这些?
用数学、计算机技术等,去研究文史问题,他们闻所未闻啊。
虽然这样的研究在前世已经是常规手段,但是这一世的人们哪见过这个?
对于这一世的所有网友来说,对于这些大教授来说,现在已经不是震不震惊的问题了,也不是吐不吐槽的问题了。而是,完全看不懂的问题!
完全看不懂啊!
想吐槽几句,想骂几句,都不知道从何开口!
张教授傻了。
视频里讲解的内容,他听不懂,傻了!
江小白就是三无的这个真相,他更接受不了,更傻了!
他一时间怔在原地,他的认知上,从来都没受到过如此重大的冲击。
……
“卧槽,他怎么还列上数学式子了呢?”
众教授连忙再次望向手机屏幕!
【设有m个输入变量 x ={X?,X?,…,Xm},有n个可能取值分类型变量 y ={y?,y?,…,yn},则根据贝叶斯定理有: P( y = y0|x?,x?,…,Xm)= P( x?,x?,…,Xm……
根据最大后验概率原则,输出变量应预测n个后验概率中最大的概率值对应的类别。
……
首先将前八十回标记为类别1,将后四十回标记为类别2,进行朴素贝叶斯分类估计。
……
由表可知,准确率最小值为0.76000,而最大准确率达1(对测试集分类百分之百正确),平均准确率为0.91609。
假定两种分类方式的准确率总体服从正态分布,因为样本量为1000,属于大样本检验,因此采用z检验。建立假设并进行检验:
H0 :μ1 -μ2 ≤ 0
H1:μ1 -μ2 > 0
……
其中 ,xˉ1 = 0.91609 ,xˉ2 = 0.61587 ,s 2 1 = 0.00192 , s 2 2 = 0.00746 ……
既然p是极显著大于p2的,那么就说明前八十回与后四十回的分类方式相比于任意一般的分类方式而言,类别之间的差异性更明显,即前八十回和后四十回文本特征存在显著的差异。
也就是说,从虚字角度分析,前八十回和后四十回,也不是同一作者的手趣÷阁。
因此,无论是从高频词汇分析,还是从虚字分析,通过科学方法研究后,我得出以下结论:《红楼梦》前80回,和后四十回,并不是出自同一人之手。】
弹幕上终于松了一口气:
“终于完事了,脑袋里全是浆糊,懵了啊!”
“我刚刚究竟看了个啥?”
“全程懵逼中!”
“我突然想喷几句话,但发现我完全不知道从何喷起。因为我啥啥都没听懂啊!”
“视频还没结束么?哟,才进行了三分之二?”
“还没结束么?”
【下面,为了对我的研究成果进行验证,我们引入BP神经网络。
所谓BP神经网络是一种利用误差反向传播算法的人工神经网络,可以有效的解决很复杂的有大量互相相关的分类问题……】
弹幕,集体崩溃了。
“我靠,又来!”
“神啊,救救我吧。”
“请直接说结论!!”
“苍了个天!”
……
【朴素贝叶斯分类器平均准确率为0.91677,方差为0.00201;而BP神经网络分类器平均准确率为0.93513,方差为0.00175。
因此,我的研究成果是没有问题的。
综上所述,从高频词汇角度研究,我运用各组高频词汇频数变化折线图。从虚字角度,用了朴素贝叶斯和BP神经网络分类方法,作了组内与组间对照研究。
结果表明,】
视频中,三无的语气加重,严肃而肯定:
“《红楼梦》前八十回与后四十回文本特征存在显著的差异性,即前八十回和后四十回作者不是同一个人!】
短视频播放完毕!
富旦大学办公室内,围观的众教授,一头雾水!
此时此刻,他们和所有网友一样,都没看懂。
这个全程运用了统计学、计算机技术等科学手段进行文史研究的方法,对于这一世的人们来说,太超前了。
虽然在前世司空见惯,但是在这一世,所有人是闻所未闻,见所未见!
“三无关于《后出师表》的研究,我听得明明白白的。但是这个我完全懵了。”
“我完全理解不了他刚刚的内容,是对是错,完全不明白啊!”
“咱们先别谈这个研究哈,张主任,你竟然认识三无,你也太厉害了吧?”
“张主任人脉是广啊,竟然连三无都认识!”
“原来你的朋友,竟然是大名鼎鼎的三无,哇,你真的是神通广大啊。”
“张主任,您干嘛去?”
“张主任?”
张主任突然转身离去,一路小跑着奔向楼梯,同事的声音早已来不及回答。
(PS:文中公式是错的,因为正确的公式,字体识别不出来。)
东门庆工作室。
“庆哥,三无出山了?”
“啊?他不是不再盘点诗词工作了么?出尔反尔?又出来盘点诗词了?”
“没,他这次盘点了历史上的伪作,说《红楼梦》是伪作。”
“啥?卧槽啊!准备文稿,以前咱们一直是歌颂他的,这次准备开喷吧!争取做出全网第一条批判他的短视频!”
……
片场。
宋乔芸正坐在椅子上休息,身边的化妆师在补妆。
滴!
【抖乐提示:您关注的短视频博主发布了最新作品。】
她连忙打开手机,见到印入眼帘的一行字后,整个人瞬间绷直了。
“这……”
“完了,歪了歪了歪了!”化妆师忙道。
宋乔芸沉吟道:“三无的观点,未必是歪的。”
“我是说口红给您画歪了。”
……
富旦大学。
张教授正在和同事们畅聊历史。
突然有人匆匆跑来:“张主任,我万万没想到,您口中的那个朋友,竟然是三无老师!”
张教授一脸茫然:“什么东西?”
“您朋友啊,您不是说您有个朋友嘛,我做梦都不敢想,您口中的那个提出了《后出师表》伪作言论的朋友,竟然是诗人三无!张主任,您也太低调了吧,认识三无都不跟我们说?”
张教授很茫然:“啥意思,我不懂你啥意思。”
“您还装!这不嘛,您朋友三无老师,刚刚发布了一条短视频,您看啊,这上面不是写着呢么,《盘点历史十大伪作(1)》,《红楼梦》,他前几天不是还说《后出师表》是伪作嘛!您可千万别告诉我,这是两个研究者碰巧想到一块去了,都研究同一个方向了。”
张教授脑袋“嗡”地一声,他突然意识到了什么,但又完全不敢相信。
他一把抓过手机,因为激动手都是抖的,只见屏幕上徐徐展示出一段内容,然后他整个人,彻底懵住了。
……
无数双眼睛在不同时间盯着同样的内容,有着同样的震颤,这是一个挑战了所有人固有认知的短视频!
短视频在缓缓播放着内容。
三无极具特色的嗓音,舒缓平和,娓娓道来。
【我将《红楼梦》分为两部分,第一部分:前80回,第二部分,后40回。
在经过我缜密而繁复的研究工作后,我发现了一个惊天的秘密——《红楼梦》后四十回,其作者并不是曹雪芹,而是由后人续写,狗尾续貂之作。】
抖乐最近学习了其他短视频网站,开通了弹幕功能。
此时满屏幕的弹幕全是问号。
“???”
“啊???”
“三无,请回去写你的诗词吧,别在这逗我好么?”
“这不扯淡呢么?”
“现在的自媒体,为了流量真是啥瞎话都敢编啊!”
……
视频内容继续:
【接下来的一段时间里,我将分若干集,从各个角度出发,来论证《红楼梦》后四十回并不是曹雪芹手趣÷阁。
而本集视频,我们先从文本特征差异研究开始。我将运用统计学方法,并结合 R语言技术,对我的观点进行阐述!】
弹幕上,网友们又蒙圈了。
“R语言技术?统计学?跟《红楼梦》有什么关系?”
“什么是R语言?”
“这不是文学方面的事情么?怎么涉及到数学和计算机技术了呢?”
“对啊,文学就是文学,怎么能和其他学科混为一谈呢,一看就不靠谱!”
“继续围观,看这个诗人能扯出什么花样来。”
……
【在大量事件的前提下,无论是在语言表述,还是在写作中,每个人在特定情况下用字或是用词都存在着某种规律。
这种规律便是个人在说话与写作中所形成的语言表达习惯,即是个人在其特定习惯中所形成特有的文体特征。
所以,不同的作者在用词频率与用词风格上存在一定的差异性。
我将运用R语言对《红楼梦》著作进行文本分词和词频统计,从高频词汇和虚字两个研究角度,来分析《红楼梦》前八十回与后四十回在文本特征上的差异性。
首先,我们率先研究高频词汇。
在《红楼梦》的高频词汇中,我首先将人名、地名、称谓等剔除掉,以及对“一个”“一面”等表数量的没有实际意义的词汇进行剔除。
于是,我们得到了65个高频词汇进行文本研究,现制作统计表格。
如下图!】
短视频中,贴出一张统计表。
【高频词汇研究对象表】
【1,什么;2,我们;3,那里;4,姑娘;5,你们……63,家里;64这话;65到底。】
短视频解读继续:
【……我的研究分组方案如下,一至三十回第一组,十六至四十五回第二组,三十一至六十回第三组……,以此类推,一共将《红楼梦》分成7组。
运用R语言,对各组进行分词,对高频词汇研究对象进行词频统计。绘制高频词汇频数变化折线图。
如下图所示!】
话音落,短视频里,贴出了运用R语言绘制出的高频词汇频数变化折线图——一个带有X、Y坐标的七条折线的统计表。
而此时,网友们全看傻了。
“懵逼了,这些都啥意思啊?”
“这能代表啥啊,根本看不懂啊!”
“诗人你到底啥意思,请你明说行么?”
“我感觉看了你的视频,受到了侮辱!”
“你高估我们了!”
……
短视频开始对这一折线图进行讲解:
【我们可以发现折线图有明显的锯齿形,那么就表明高频词汇在各分组有明显的波动……诸如 16(没有)、21(听见)、26(回来)、34(心里)、51(那些)、65(到底)等词汇,当第六组和第七组出现波峰的时候,其他组却出现了波谷;
而在42(不过)、61(姊妹)等词汇,当第六组和第七组出现波谷的时候,其他组却出现了波峰;这就说明第六组和第七组的折线图与其他组的折线图有明显的相反的走势……】
弹幕疯狂抗议:
“求你了别说了,听不懂啊,能直接告诉我结论么?”
“你让数学常年不及格的我,如何理解你的高深莫测?”
“直接说结论吧,真听不懂!”
……
【从部分高频词汇角度分析,前八十回和后四十回词频有较显著的差异性,于是我得出初步结论,前八十回和后四十回,作者并不是同一个人。
完成了高频词汇的分析后,下面,我们对虚字进行分析。
虚字,是指不能单独成句,意义比较抽象,而具有一定语法意义的字或词。古典小说中的虚字是构成句子必不可少的成分,其使用不受故事情节的制约,仅与作者的写作习惯有关。
……
我们对44个虚字作为研究对象, 44个虚字如下:之、其、或、亦、方、于……偏、儿。
在研究之前,首先我对监督学习作简单介绍,监督学习分为回归分析与分类分析两大类别,本文应用了分类分析。所谓分类是通过分析已知数据,构造一个分类函数或者分类模型(即分类器),利用该模型将数据库中数据映射到某一给定类别中……
接下来,我将运用监督学习中的朴素贝叶斯法和BP神经网络对红楼梦各回作分类研究,并根据分类准确度分析前八十回和后四十回的差异性!】
富旦大学。
张教授身边,人越聚越多。
“他说的这是啥啊?”
“我怎么全程都听不懂?”
“什么是朴素贝叶斯法?是数学么?”
“BP神经网络啥意思?生物学?还是计算机?”
“这确定是,在考证《红楼梦》后四十回是伪作么?”
“张教授,你能看懂他说的是啥么?”
“张教授?”
在场的所有教授都傻了,全都看不懂啊。
什么朴素贝叶斯法,什么BP神经网络,又什么折线图啊,这些文学方面的大教授们,哪懂这些?
用数学、计算机技术等,去研究文史问题,他们闻所未闻啊。
虽然这样的研究在前世已经是常规手段,但是这一世的人们哪见过这个?
对于这一世的所有网友来说,对于这些大教授来说,现在已经不是震不震惊的问题了,也不是吐不吐槽的问题了。而是,完全看不懂的问题!
完全看不懂啊!
想吐槽几句,想骂几句,都不知道从何开口!
张教授傻了。
视频里讲解的内容,他听不懂,傻了!
江小白就是三无的这个真相,他更接受不了,更傻了!
他一时间怔在原地,他的认知上,从来都没受到过如此重大的冲击。
……
“卧槽,他怎么还列上数学式子了呢?”
众教授连忙再次望向手机屏幕!
【设有m个输入变量 x ={X?,X?,…,Xm},有n个可能取值分类型变量 y ={y?,y?,…,yn},则根据贝叶斯定理有: P( y = y0|x?,x?,…,Xm)= P( x?,x?,…,Xm……
根据最大后验概率原则,输出变量应预测n个后验概率中最大的概率值对应的类别。
……
首先将前八十回标记为类别1,将后四十回标记为类别2,进行朴素贝叶斯分类估计。
……
由表可知,准确率最小值为0.76000,而最大准确率达1(对测试集分类百分之百正确),平均准确率为0.91609。
假定两种分类方式的准确率总体服从正态分布,因为样本量为1000,属于大样本检验,因此采用z检验。建立假设并进行检验:
H0 :μ1 -μ2 ≤ 0
H1:μ1 -μ2 > 0
……
其中 ,xˉ1 = 0.91609 ,xˉ2 = 0.61587 ,s 2 1 = 0.00192 , s 2 2 = 0.00746 ……
既然p是极显著大于p2的,那么就说明前八十回与后四十回的分类方式相比于任意一般的分类方式而言,类别之间的差异性更明显,即前八十回和后四十回文本特征存在显著的差异。
也就是说,从虚字角度分析,前八十回和后四十回,也不是同一作者的手趣÷阁。
因此,无论是从高频词汇分析,还是从虚字分析,通过科学方法研究后,我得出以下结论:《红楼梦》前80回,和后四十回,并不是出自同一人之手。】
弹幕上终于松了一口气:
“终于完事了,脑袋里全是浆糊,懵了啊!”
“我刚刚究竟看了个啥?”
“全程懵逼中!”
“我突然想喷几句话,但发现我完全不知道从何喷起。因为我啥啥都没听懂啊!”
“视频还没结束么?哟,才进行了三分之二?”
“还没结束么?”
【下面,为了对我的研究成果进行验证,我们引入BP神经网络。
所谓BP神经网络是一种利用误差反向传播算法的人工神经网络,可以有效的解决很复杂的有大量互相相关的分类问题……】
弹幕,集体崩溃了。
“我靠,又来!”
“神啊,救救我吧。”
“请直接说结论!!”
“苍了个天!”
……
【朴素贝叶斯分类器平均准确率为0.91677,方差为0.00201;而BP神经网络分类器平均准确率为0.93513,方差为0.00175。
因此,我的研究成果是没有问题的。
综上所述,从高频词汇角度研究,我运用各组高频词汇频数变化折线图。从虚字角度,用了朴素贝叶斯和BP神经网络分类方法,作了组内与组间对照研究。
结果表明,】
视频中,三无的语气加重,严肃而肯定:
“《红楼梦》前八十回与后四十回文本特征存在显著的差异性,即前八十回和后四十回作者不是同一个人!】
短视频播放完毕!
富旦大学办公室内,围观的众教授,一头雾水!
此时此刻,他们和所有网友一样,都没看懂。
这个全程运用了统计学、计算机技术等科学手段进行文史研究的方法,对于这一世的人们来说,太超前了。
虽然在前世司空见惯,但是在这一世,所有人是闻所未闻,见所未见!
“三无关于《后出师表》的研究,我听得明明白白的。但是这个我完全懵了。”
“我完全理解不了他刚刚的内容,是对是错,完全不明白啊!”
“咱们先别谈这个研究哈,张主任,你竟然认识三无,你也太厉害了吧?”
“张主任人脉是广啊,竟然连三无都认识!”
“原来你的朋友,竟然是大名鼎鼎的三无,哇,你真的是神通广大啊。”
“张主任,您干嘛去?”
“张主任?”
张主任突然转身离去,一路小跑着奔向楼梯,同事的声音早已来不及回答。
(PS:文中公式是错的,因为正确的公式,字体识别不出来。)