Bert Tokenizer 使用特殊字符
记录一个使用 Bert Tokenizer 时踩得小坑。
Bert 的 [unused*] 不是直接使用的,在创建 tokenizer 的时候需要提前指定需要用到的 token,具体来说,如果想要用到 [usused1]-> [unused99],那就要按如下先声明 tokenizer :
1 | |
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!
记录一个使用 Bert Tokenizer 时踩得小坑。
Bert 的 [unused*] 不是直接使用的,在创建 tokenizer 的时候需要提前指定需要用到的 token,具体来说,如果想要用到 [usused1]-> [unused99],那就要按如下先声明 tokenizer :
1 | |
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!
目录