众所周知,BERT 在预训练时会对某些单词进行拆分 (术语叫做“WordPiece”)。比如把“loved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es”。目的是缩减词表、加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力。比如把”lossless”分成”loss”和”less”的时候。现在,来自哈工大和腾讯 AI Lab 的研究人员,尝试利用不做单词拆分的词汇表开发了一个 BERT 风格的预训练模型 ——WordBERT。结果,这个 WordBERT 在完形填空测试和机器阅读理解方面的成绩相比 BERT 有了很大提高。在其他 NLP 任务,比如词性标注 (POS-Tagging)、组块分析 (Chunking) 和命名实体识别 (NER) 中,WordBERT 的表现也都优于 BERT。由于不用分词,这个 WordBERT 还可以直接进行中文训练。更值得一提的是,它在性能
不拆分单词也可以做 NLP,哈工大最新模型在多项任务中打败 BERT,还能直接训练中文
2022-03-05 15:13:16来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 英特尔 i7-12650HX 曝光:14 核 20 线程,55W 基础功耗2022-03-05 15:19:02
- realme V25 首销战报:相比 V15 同比增长 677%,V 系列整体销量突破 460 万2022-03-05 15:28:04
- 雷蛇发布猎魂光蛛模拟光轴迷你版机械键盘,1199 元2022-03-05 15:34:53
- TP-LINK 今晚举行“史上最具爆点”发布会,4 大领域 20 类新品2022-03-05 15:44:58
- 国资委:在集成电路等领域加大重要产品和关键核心技术攻关力度2022-03-05 16:04:10
- realme Book 增强版 Air 新增「天空青」版本,4299 元起2022-03-05 16:09:54
- 华为与土耳其电信签署 5G 协议谅解备忘录,合作开发相关项目2022-03-05 16:14:17
- 戴尔推出游匣 G15 2022 高配版:i7+ RTX 3070 Ti,首发 10499 元2022-03-05 16:17:56
- 吉利回应李书福退出吉利汽车集团董事:业务需要,仍为实控人2022-03-05 16:20:50
- 森海塞尔推出 IE600 高保真音乐耳机:3D 打印锆外壳,首发 4999 元2022-03-05 16:32:45
- 1上药云健康进博会首秀:以专业药房体系引领创新疗法用药惠及患者
- 2输出轻资产管理 济高•世茂芯环中心盛大开业
- 3欧莱雅皮肤科学美容事业部亮相进博会,共探科学护肤未来
- 4人民网发布11.11电商服务调研结果 超33%消费者认为京东服务创新最多、最活跃
- 5晓华在原址注册新理发店 晓华个人注册理发店
- 6法国欧珑全球首家香水学院在欧莱雅进博会展台拉开序幕
- 7官方玩梗!听泉赏宝公司登记听泉猫作品著作权
- 8TCL智家及TCL家电集团换帅完成工商变更 彭攀任TCL智家及TCL家电集团董事长
- 9TÜV南德授予亿联网络MVC S40产品碳足迹核查声明
- 10Firstrade 宣布将于2025年第一季度推出美股隔夜交易服务