语言识别模型的起源，一个数学家数了数小说中的 20000 字母-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2020/8/20200814090717_4844.jpg

语言识别模型源于一个数学家读小说的故事。1913 年，俄罗斯数学家安德雷 · 安德耶维齐 · 马尔科夫拿起一本俄罗斯文学的经典作品，亚历山大 · 普希金的歌剧小说《尤金 · 奥涅金》。不过马尔科夫只是为了测试自 1909 年发展起来的概率论。数学家更想看到一个个字母后面的数学结构。那时的概率论主要用来分析轮盘赌局和硬币翻转等现象，认为之前的结果不会影响到的当前事件的可能性。但是马尔科夫不赞同，他觉得大多数事情都有因果关系，他想要通过概率分析一些事情，并建立模型。德雷 · 安德耶维齐 · 马尔科夫《尤金 · 奥涅金》成为马尔科夫的试验材料。他的假设听上去匪夷所思——这本经典文学作品中，某个位置会出现什么字母，某种程度上取决于它之前的字母。计算机还没出现的 1913，马尔科夫抄录了《尤金 · 奥涅金》书中的前 20000 个字母，不包括标点和空格。然后按 10*10 的排列方式，填在 200 个网格中，开始逐行逐列对元音字母进行计数