是语言的基本词汇量、常用词、常用固定搭配等等。
比如中文里的“的地得”、“这”、“那”、“是”、“不”“你我他”。
比如英文里的“is”、“the”、“to”
比如日文里的“の”“て”
理解这一点,那就比较好办了,文件中但凡是这类的文字全部都可以先用这几种常用词汇套入。
随后是断句,苏御发现有些方块字直接由一个空格将其隔开,因此将不同的字区分成不同的区域,每一个区域便可以理解成一句话。
然后是标注,作为一份报告,肯定是有标注,有特别说明,比如中文论文里的“注1”“注2”,或者()。
而这些文件内也有类似这样的标注,有了这些标注后,再去破解原文,难度就会降低许多。
而随后,就是纷繁复杂的统计学工作,将文件中所有的文字全部提取出来,提取出所有的常用文字,提取出偶尔使用的文字,提取出只是用过一次的文字。
从而再进行统计学分析,和目前人类已知的文字进行对照,寻找语法相似的文字。
众所周知,中文和英文互为倒装句。
简单来说,中文是:今天你吃了吗?
英文是:你吃了吗?今天。
而经过苏御长达数天的分析,万界统合的文字和中文的语法更为接近,这让苏御松了口气,因为中文的文字数量更多,更利于进行统计学对照分析。
苏御继续那万界统合的文字和中文进行对比,并用这种很笨的方法来破译万界统合的文字。
这将是一个漫长的过程,但苏御有的是时间。
而且,苏御可以偷懒,那就是他可以将算法和程序编入计算机,并借助计算机来为他破译万界统合的文字。
确定目标后,苏御立刻开始行动,他直接找到了世界上运算速度最快的“银河”超级计算机,并借助这台计算机进行破译。
重复性的工作全部交给计算机完成,苏御只需要从计