中華經典資源庫、古漢語大語言模型等成果涌現
生僻字更易輸入 文言文更快釋讀

“頔”寓意美好、“燊”表示熾盛、“鋆”意為金子……古籍裡的這些生僻字,曾因無法輸入電腦,給文化傳承、學術研究,乃至人們日常生活帶來不便。數字時代,如何讓漢語言文字更完整地活躍在“雲”端?
日前,教育部圍繞推進語言文字信息化發展舉辦新聞發布會。“從‘鉛與火’到‘光與電’,中文信息處理技術不斷創新發展。”北京大學王選研究所所長湯幟介紹,北京大學作為國家語委中文文字字體設計與研究中心的依托單位,設計開發國家重大基礎性規范《通用規范漢字表》的配套字庫,研制人口信息生僻字超大字庫解決方案,在第二代居民身份証、護照上應用,協助解決銀行、稅務等社會應用系統的人名、地名缺字問題。
語言文字信息化是經濟社會信息化的重要組成部分,是數字中國建設的基礎性工作。記者了解到,近年來,教育部聯合有關部門發布了國家通用語言文字和民族語言文字信息化規范標准100多項,推動建成國家語委媒體語言語料庫、冬奧會多語言術語庫等,上線國家語言資源服務平台、中國語言文字數字博物館等,持續推動語言文化資源共建共享。
隨著智慧化學習的廣泛開展,語言文化優質資源惠及更多人。教育部語言文字信息管理司司長劉培俊介紹,為推進語教融合,教育部打造“中華經典資源庫”,總瀏覽量超6000萬﹔打造“中小學語文示范誦讀庫”,惠及全國約1.6億中小學生和上千萬教師及社會大眾﹔上線中國語言文字數字博物館,收納海量資源,構建全民學習新課堂。
此外,數智賦能也讓國家通用語言文字推廣普及效率不斷提升。目前,普通話測試方式已實現從人工到智能的轉變,機輔測試已服務超過9200萬人次。廣東省教育廳副廳長朱建華介紹:“我們支持研發普通話水平智能測試艙、聲紋分析系統等,打造了全國首個以智能化為核心的普通話水平測試智慧考場,能夠做到‘隨到隨考’。”
語言文字信息化讓古籍裡的文字展現出新的活力。打開“AI太炎”古漢語大語言模型,輸入待分析的古籍文本,系統便能根據用戶選擇進行釋讀,包括字詞釋義、文白翻譯、句讀標點、用典分析等。北京師范大學黨委常委、副校長康震介紹,“‘AI太炎’依靠自主可控、安全可信的技術路線,理解力強、准確率高,能夠高質量完成多種文言文理解任務,目前已廣泛應用於學術科研、基礎教育、編輯出版等多個領域。”
近日,教育部、國家語委、中央網信辦共同印發《關於加強數字中文建設 推進語言文字信息化發展的意見》。意見提出創新應用自然語言處理、大語言模型、多模態信息處理、知識圖譜、語料加工等5項前沿技術。
“我們要將數字中文建設作為全面推進語言文字信息化發展的突出重點,服務大語言模型等人工智能技術創新應用‘制高點’,夯實國家關鍵語料基礎設施‘新基建’,全方位釋放語言文字在經濟社會發展中的數據要素價值。”劉培俊說。
分享讓更多人看到
- 評論
- 關注