Binance Casino,USDT娱乐,数字货币游戏,区块链游戏,BTC娱乐场,USDT投注,数字资产平台,体育娱乐,电子游艺,快速提现
原词组为byte pair encoder,各取其第一个字母简称为bpe。这个词组翻译成中文为:字节对编码。同时它也可以被称为digram coding双字母组合编码。
它的主要目的是为了数据压缩。即算法描述为字符串里频率出现的一对字符,用一个没有在这个字符中出现的字符所代替的层层迭代的过程。
比如我们想编码aaabdaaabac,于是我们就会发现这里的aa出现的词数最高,那么就用这里没有的字符Z来替代aa,于是我们就会得到:ZabdZabac(Z=aa)。
此时,我们又发现ab出现的频率最高,那么同样的,我们用Y来代替ab,于是我们就会得到:ZYdZYac(Y=ab、Z=aa)。
同时,我们又发现ZY出现的频率也比较大,于是我们就用X来替代ZY,于是我们会得到:XdXac(X=ZY、Y=ab、Z=aa)。
最后,连续两个字符的频率都为1了,也编码计算也就结束了,过程其实比较简单。