【台科研成就】中研院終於開源釋出國產自動化中文斷詞工具

移至主內容
https://s4.itho.me/sites/default/files/ithome_logo_0.png
  • [url=https://www.ithome.com.tw/news][/url]
  • [url=https://www.ithome.com.tw/tech][/url]
  • [url=https://www.ithome.com.tw/feature][/url]
  • [url=https://www.ithome.com.tw/big-data][/url]
  • [url=https://www.ithome.com.tw/blockchain][/url]
  • [url=https://www.ithome.com.tw/cloud][/url]
  • [url=https://www.ithome.com.tw/devops][/url]
  • [url=https://www.ithome.com.tw/tags/gdpr][/url]
  • [url=https://www.ithome.com.tw/security][/url]
  • [url=https://www.ithome.com.tw/seminar][/url]
  • [url=https://intel.ithome.com.tw/][/url]

  • [url=https://www.ithome.com.tw/search][/url]


新聞

千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具
中研院近日正式開源釋出了自行研發多年的中文斷詞程式,提供給在臺灣從事中文自然語言領域研究的學術圈或開發者來使用,目前已放上GitHub平臺。



按讚加入iThome粉絲團




文/余至浩 | 2019-09-04發表


https://s4.itho.me/sites/default/files/styles/picture_size_large/public/field/image/snap10.jpg?itok=psJzS-AJ
中研院近日正式開源釋出了自行研發多年的自動化中文斷詞程式,並已放上GitHub。


https://itadstatic.ithome.com.tw/B3/1567396708_5d6c93646af07.jpg

圖片來源: 
GitHub

從事中文自然語言處理(NLP)研究的中研院CKIP Lab中文詞知識庫小組,近日正式開源釋出了自行研發多年的一套中文斷詞程式,提供給在臺灣從事中文自然語言領域研究的學術圈或開發者來使用,這也意謂著,臺灣終於有了一套國產的自動化中文斷詞工具可以拿來用,而且完全開源,目前已放上GitHub平臺上,開放給大家試用。

中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIP Lab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供原始碼,因此,過去使用上一直不如中國開源的中文斷詞工具Jieba(結巴)好用。

不過,這次中研院決定將自己的中文斷詞工具開源釋出,並放上程式代管平臺GitHub上,對於臺灣中文NLP研究者或開發者來說,無疑是一大福音。現在使用者已經可以透過該平臺來安裝使用該工具,並可以依據自己需求,來修改原始碼,增加自己想要的新功能或特色。

根據該工具的文件說明,這套CkipTagger中文處理工具,不只提供繁體中文斷詞的功能,也加入詞性標注和18類專有名詞的實體辨識(Named entity recognition)等功能,甚至當以多達5萬句的ASBC 4.0漢語語料庫測試集,來進行中文斷詞測試時,CkipTagger表現遠高於中國的結巴,中研院在中文斷詞準確度可達到97.49%,相較之下,中國的結巴只有90.51%。

新版本也提供幾大特色,包括了加強斷詞表現、可以不自動刪/改字,並且能夠支援不限長度的句子,另外,新版也加入使用者自訂功能,提供參考/強制 詞典的自訂功能。

不只開源中文斷詞程式,我們今年初採訪該詞庫小組計畫負責人馬偉雲時,他也提到,接下來,將用4年的時間,將中文維基百科上的百萬詞彙,自動建立其知識圖譜,來打造成為一個具有百萬中文詞庫的知識庫。他更計畫以現有9萬詞彙所建立的知識圖譜架構,發展相關的自然語言處理工具,可以自動建立其知識圖譜。



https://d3jcp1umdd59vg.cloudfront.net/sites/default/files/fb_300x114_s3.gif







[url=https://www.ithome.com.tw/news/132838#][/url][url=https://www.ithome.com.tw/news/132838#][/url][url=https://www.ithome.com.tw/news/132838#][/url]





Advertisement


更多 iThome相關內容


https://itadstatic.ithome.com.tw/B2/1567414381_5d6cd86d962b5.gif
https://d3jcp1umdd59vg.cloudfront.net/sites/default/files/fb_300x114_s3.gif


熱門新聞
https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/0903-kb4512941-problem.png?itok=WCGL2DOz
微軟Windows 10 1903更新導致CPU使用率飆高
2019-09-03


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/zhu_tu_wei_fu_bu_gong_bu_tai_wan_yi_liao_yuan_suo_22jia_yu_hai_0902.jpg?itok=YH5Z6NaU
衛福部晚間公布臺灣醫療院所受勒索軟體攻擊現況,已有22家遇害
2019-09-02


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/zhu_tu_wei_fu_bu_tu_pian_lai_yuan_ithome.jpg?itok=NkWMSmir
兩家衛福部所屬醫院遭勒索軟體襲擊,確認臺灣已有10多間醫院遇害
2019-08-31


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/zhu_tu_bu_meng_wang_ci_die_zhen_lie_gu_zhang__0.jpg?itok=WD0d_Bz4
虛擬主機供應商捕夢網驚傳磁碟陣列故障,造成用戶網站服務中斷
2019-09-04


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/tu_1yi_zhi_ssl_vpnlou_dong_zao_hai_ke_suo_ding_tu_pian_lai_yuan_bad_packet.jpg?itok=BIfQwIwK
企業修補進度慢!近期臺灣資安業者揭露的SSL VPN漏洞,傳出已遭駭客鎖定,全球近1.5萬個Pulse Secure VPN端點曝險
2019-09-03


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/0902-google_ios_exploit_chains.png?itok=-s4-LCy7
間諜程式藏網站大規模侵入iPhone至少2年,疑意在監控維吾爾人
2019-09-02


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/snap10.jpg?itok=Q72marqd
千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具
2019-09-04


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/0902-bitcoin.jpg?itok=JX55KZuV
挖礦軟體XMRig感染目標擴及x86系統
2019-09-02


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/0902-wordpresswai_gua_lou_dong_.png?itok=MYBLAcLv
WordPress 10多個外掛遭駭,用以建立網站非法帳號
2019-09-02


https://s4.itho.me/sites/default/files/styles/square_thumbnail/public/field/image/fireshot_capture_552_-_now_in_beta_managed_service_for_microsoft_active_directory_ad_-_go_-_cloud.google.com_.jpg?itok=4OVMoMZN
Google開始公開測試微軟Active Directory託管服務
2019-09-02


專題報導
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/935-feng_mian_gu_shi_-1_open-960x420.jpg?itok=0IZvzMeb 64核處理器來了
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/934-35-feng_mian_gu_shi_-1_open-960x420_gong_zuo_qu_yu_1.jpg?itok=LLjlCbqb 人臉考勤門禁應用在臺落地
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/933-feng_mian_gu_shi_-1_open-960x420.jpg?itok=RbSN3xhk 純網銀三國時代開戰!
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/932-feng_mian_gu_shi_-1_open-960x420.jpg?itok=5LsHQKjJ 打造國家級資安情報力
https://s4.itho.me/sites/default/files/styles/picture_size_small/public/931-feng_mian_gu_shi_-1_open-960x420.jpg?itok=W6c7BR1J 紡織短鏈變革的關鍵
更多專題報導


https://itadstatic.ithome.com.tw/B1/1567508105_5d6e468933aac.gif
https://itadstatic.ithome.com.tw/B6/1566361218_5d5cc68203a21.gif
0
分享 2019-09-05

5 个评论

这个技术上本质上很简单啦,只是官方版本数据量更大而已~
已经取得文凭的和尚未取得文凭的干部职工
aggie 已停用 ?
看了半天这个中字头单位原来是台湾的,怪不得没听说过
二十四口交换机的闹剧不再上演
請多分享台灣的科技消息,五毛總喜歡吠台灣技術全靠美國賞賜,怕不是自己太酸

要发言请先登录注册

要发言请先登录注册