<sub id="jxz5d"></sub>

          分詞和詞性標注

          介紹:

          中文分詞指的是將連續的漢字序列切分成一個個單獨的詞。搜狗云分詞系統包括中文分詞與詞性標注。

          主要特點:

          采用了基于漢字標注的分詞方法,主要使用了線性鏈鏈CRF(Linear-chain CRF)模型。

          詞性標注模塊主要基于結構化線性模型(Structured Linear Model)

          分詞精度:

          使用國家語委語料庫所開放的2000萬字漢語語料,其詞性標注集符合《信息處理用現代漢語詞類標記規范》(GB/T 20532—2006)。其中1800萬字作為訓練集,220萬字作為測試集。在該集合上進行封閉測試,分詞精度可達:F1 = 97.03%。

          詞性標注精度:

          訓練和測試集同上。封閉測試精度:96.08%

          在線演示

          分詞源文:
          分詞結果:

          批量處理

          第一步:上傳文件(100M以內的txt文件)

          第二步:輸入提取碼

          午夜免费啪视频观看视频,三级床上长片完整版录像,乱輪中文字幕在线观看