首页 > Web开发 > 详细

huggingface Bert的encode方法

时间:2020-07-07 18:16:19      阅读:171      评论:0      收藏:0      [点我收藏+]

数据集分为raw和tokenized版本,应该使用raw版本用Bert自带的encode方法进行分词(因为Bert有自己的词表并且使用bpe的方法避免oov)

分词前的raw data长这样:
技术分享图片

用tokenizer encode之后再convert_ids_to_tokens打出来看看长这样:
技术分享图片

encode时把return_attention_mask设为True,打出来看attention_masks,是把padding的部分都置为0,其余句子部分置1。

huggingface Bert的encode方法

原文:https://www.cnblogs.com/thousfeet2/p/13261553.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!