紅樓夢後40回解密? 網友用「SVM」演算判斷作者

▲黎晨把三國演義分前60、後60回分析。(圖/翻攝自知乎)

網搜小組/綜合報導

紅樓夢是曹雪芹的名著,不過最後40回是否由他撰寫一直有爭議,大陸網友黎晨日前在《知乎》上發表文章,指稱用SVM(支持向量機器,Support vector machine)算法分析,得出的結果顯示作者並非曹雪芹。這篇文章引起網友大量討論,不過有人質疑研究方法不夠嚴謹、挑選樣本偏差,不足以證實論點為真。

黎晨以用詞作為辨認的依據,認為文章前後內容雖有差別,習慣卻不容易改變,首先用「jieba分詞工具」挑選出現超過100次的詞語,再從中去除因為劇情關係不一致的人名或地名,「我不選寶二爺或黛玉笑這種涉及人物的詞語,但是『忽然』、『故』、『只要』、『可不是』這種不容易受情節影響的連接詞,適合選出來當特徵」。

黎晨接著各選15回作為機器學習的數據、分析用詞特點,推算其他章節屬於前80回或後40回,「機器在學習以後告訴我,有95%的把握可以區隔前80回與後40回的用詞習慣」。他再拿三國演義測試,這次機器只有7成的把握,「準確度遠遠低於95%的預測水準,所以我們更有信心說曹老先生沒有寫後40回了。」

這項結論引起網友爭辯,有人直言,選取的特徵並不是完全獨立,而且回數分配不均,抽出的詞類也容易落入前80回,「作者把測試集和訓練集混在一起高估實際的準確率」,也沒有說明三國演義的測試條件,就把兩者拿來對比非常不精確。儘管結果不能解決爭論,這項實驗仍然不失為一種另類的分析角度。

分享給朋友:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

相關新聞

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面