微比恩 > 信息聚合 > 语言识别模型的起源,一个数学家数了数小说中的 20000 字母

语言识别模型的起源,一个数学家数了数小说中的 20000 字母

2020-08-14 09:10:01来源: IT之家

语言识别模型源于一个数学家读小说的故事。1913 年,俄罗斯数学家安德雷 · 安德耶维齐 · 马尔科夫拿起一本俄罗斯文学的经典作品,亚历山大 · 普希金的歌剧小说《尤金 · 奥涅金》。不过马尔科夫只是为了测试自 1909 年发展起来的概率论。数学家更想看到一个个字母后面的数学结构。那时的概率论主要用来分析轮盘赌局和硬币翻转等现象,认为之前的结果不会影响到的当前事件的可能性。但是马尔科夫不赞同,他觉得大多数事情都有因果关系,他想要通过概率分析一些事情,并建立模型。德雷 · 安德耶维齐 · 马尔科夫《尤金 · 奥涅金》成为马尔科夫的试验材料。他的假设听上去匪夷所思——这本经典文学作品中,某个位置会出现什么字母,某种程度上取决于它之前的字母。计算机还没出现的 1913,马尔科夫抄录了《尤金 · 奥涅金》书中的前 20000 个字母,不包括标点和空格。然后按 10*10 的排列方式,填在 200 个网格中,开始逐行逐列对元音字母进行计数

关注公众号