sciwork 2023

PyLiteracy:以語言學為基礎的中文文法檢查器
2023-12-09, 16:30–17:00 (Asia/Taipei), NYCU

無論是否為母語者,在繁體中文的使用上,諸如近義詞、錯別字的錯誤使用是常見的,此問題也間接導致訓練資料多來自網路的大型語言模型 (LLM)無法在中文文法檢查任務上扮演可靠的角色。然而從語言學的角度來看,僅針對正確及錯誤句的對照進行模型訓練並非最有效的方式,其實此類型錯誤與詞類和句型結構有著直接關係,若將正確的詞類及句型結構規則分析化簡之後以程式碼撰寫成模型,此類以語言學規則為本的模型即能以和人類兒童依類似方式掌握語言的使用,實現以少量語料完成高效率中文文法檢查的任務。


  1. Introduciton:
    在使用以大型語言模型 (LLM) 為基礎的系統進行繁體中文文法檢查時,不時會遇到模型給予簡繁體中文參雜、偏離焦點、甚至錯誤的回覆,亦或是檢查結果不一致、無法正確說明結果等情形,上述現象或多或少帶給不論語言學習者或是母語者一些不必要的困擾。人類語言是以多層次結構為基礎運作的,而以線性向量化字符為訓練資料的 LLM 難以掌握人類語言的結構,其訓練資料中,繁體中文資料相對不足之外,含有錯別字、文法錯誤對照等範例者更是十分有限,以上特點均造成 LLM 在繁體中文文法檢查任務上無法盡善盡美,欲針對問題進行微調時所需耗費的資源也相對龐大。因此,我們從語言學的角度出發,從詞類與句型結構間的關係下手,將正確的詞類及句型結構規則分析化簡之後以程式碼撰寫成模型,讓模型以語言學規則為本,和人類兒童依類似方式掌握語言的使用,實現以少量語料完成高效率中文文法檢查的任務。

  2. Contents:
    此次分享旨在點出 LLM 在繁體中文文法檢查上的不足之處,並提出以語言學為基礎、貼合人類語言本質的方法來解決相關問題。

  3. Contact & More Information:
    GitHub Repo:https://github.com/Chenct-jonathan/pyLiteracy
    Slides:https://github.com/Chenct-jonathan/pyLiteracy/blob/main/PyLiteracy.pdf
    Jonathan Chen:chenjonathan901210@gmail.com
    Joe Huang:joehuangx@gmail.com
    PeterWolf:peter.w@droidtown.co
    Lisi Yang:lisi16810@gmail.com

Ask questions at slido


Prior Knowledge Expected?

No, previous knowledge expected

Language

Mandarin talk w. Chinese slides

我是目前就讀於國立陽明交通大學外文系的學生,今年大四,從上大學開始,我就不斷尋找能將語言學知識落地實作應用的可能性,而後在學習的道路上也遇到了許多夥伴一起做了一些實作開發,試圖用語言學中極為簡化的理論思維及演算方法以程式化的方式實際執行,解決生活中的問題。