并行分词

  • 如何利用多核提升分词速度

    在进行中文分词的时候,我们如何利用多核提升分词速度呢? 计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费. 在对一段文本进行分词的时候,word分词器的处理步骤如下: 1.把要分词的文本根据标点符号分割成句子: 2.以分割后的句子为基本单位进行分词: 3.把各个句子的分词结果按原来的句子顺序组合起来: word分词器充分考虑到了利用多核提升分词速度这个问题,在第1步完成后,如果分割出了多个句子,那么这多个句子就可以同时(并行)进行分词,这样就能充分利用多核CPU来提

    word, 多线程, 多核, word分词器, 并行分词, ParallelStreamMay 12