lulalala address tokenizer 中文地址分析

lulalala_address_tokenizer 是一個 Ruby gem ,做中文地址分詞用。
理論上也能套用其他語言的模型做分詞。

運作原理

本網站使用由Wapiti訓練出來的模型做地址分詞。背後的原理請見條件隨機域。Wapiti 是個 C 的程式庫,所以有 C 的接口也能使用這裡的地址模型。

訓練資料主要來自OpenStreetMap ,約有一萬五千筆。

訓練好的模型檔