Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请扩充模型的中文词表 #14

Closed
sohowj opened this issue May 9, 2024 · 1 comment
Closed

请扩充模型的中文词表 #14

sohowj opened this issue May 9, 2024 · 1 comment

Comments

@sohowj
Copy link

sohowj commented May 9, 2024

目前的DeepSeek V2似乎并没有扩中文词表,这样中文推理的效率还未达到最高。

vocab-coverage的统计结果(https://github.com/twang2218/vocab-coverage):
字表 《《通用规范汉字表》一级汉字》:字数:3500,完整:3168,完整率:90.51%
字表 《《通用规范汉字表》二级汉字》:字数:3000,完整:251,完整率:8.37%
字表 《《通用规范汉字表》三级汉字》:字数:1605,完整:5,完整率:0.31%
字表 《《常用國字標準字體表》甲表(增)》:字数:1749,完整:0,完整率:0.00%
字表 《《常用國字標準字體表》乙表(增)》:字数:4503,完整:0,完整率:0.00%
字表 《《Unicode中日韩统一表意文字》(增)》:字数:6910,完整:1,完整率:0.01%

对比Qwen的模型:
字表 《《通用规范汉字表》一级汉字》:字数:3500,完整:3500,完整率:100.00%
字表 《《通用规范汉字表》二级汉字》:字数:3000,完整:3000,完整率:100.00%
字表 《《通用规范汉字表》三级汉字》:字数:1605,完整:1605,完整率:100.00%
字表 《《常用國字標準字體表》甲表(增)》:字数:1749,完整:633,完整率:36.19%
字表 《《常用國字標準字體表》乙表(增)》:字数:4503,完整:4,完整率:0.09%
字表 《《Unicode中日韩统一表意文字》(增)》:字数:6910,完整:32,完整率:0.46%

@luofuli
Copy link
Member

luofuli commented May 14, 2024

当前版本的tokenizer是在语料上使用BBPE算法统计训练得到的,并没有对词表进行手动修改。我们在后续的模型迭代中会考虑手动补充一些各语言的常用词来更好的提升tokenizer的压缩率 @sohowj

@luofuli luofuli closed this as completed May 28, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants