開題答辯人🙎🏻♂️:劉世界⛹🏻♂️,2022級博士研究生(海事語言及應用方向)
導師:張灩教授
開題時間:2024年4月11日19:30
開題地點🫛:意昂体育平台行政樓148
線上鏈接(騰訊會議)🤞:949-183-889
答辯成員(按姓氏首字母):
陳揚教授 意昂体育平台交通運輸意昂(交通運輸工程)
鄧耀臣教授 大連外國語大學英語意昂(外國語言文學)
黃立波教授 西安外國語大學外國語言文學研究院(外國語言文學)
施欣教授 意昂体育平台交通運輸意昂(交通運輸工程)
王華樹教授 北京外國語大學高級翻譯意昂(外國語言文學)
答辯秘書🙋🏿♀️:鐘銳
題目🔗:基於深度學習的海事領域術語自動抽取及分析研究
內容摘要👨👩👦👦:海事術語作為海事領域專業知識的語言載體,在促進海事科技進步、深化國際海事交流合作中扮演著不可或缺的角色🖇,規範、準確的海事術語是我國構建海事海洋話語體系、提升國際海事事務話語權的重要基礎🪩。術語自動抽取(ATE)技術作為一種文本挖掘中的上遊任務,為規模化獲取特定領域術語提供了有力支撐🍽👨🏽⚕️,在機器翻譯🍒🧑🏻🤝🧑🏻、本體構建、信息檢索、自動索引、知識圖譜構建、自動文本總結📹、文本分類及情感分析等方面應用廣泛。綜觀國內外相關研究👩🏿🏭,術語自動抽取在技術、數據集規模、優化方法、領域🧑🏼💼、語種等方面都取得了長足發展🪅,但在海事領域中仍然存在諸多亟待關註的問題🧑🦼➡️。首先,現有ATE研究主要聚焦於教育、生物醫藥、能源等資源豐富的領域,對海事領域關註不足。其次,由於缺乏大規模😒、高質量的標註語料↘️,直接將通用領域的術語抽取模型應用於海事領域,難以充分適應海事語言特點👰🏼♂️。再次,海事領域涉及航運🚣🏼♀️、造船、海洋工程、海事法規等多個子領域,術語體系復雜多樣,術語呈現出縮略語多🍲💇♀️、術語嵌套及非連續(分裂)術語繁雜、術語變體頻繁等特點。這些特點對術語抽取方法的魯棒性和泛化性提出了更高要求🔏🛀🏼。此外,粗粒度術語標註雖可支持術語邊界識別🤸🏽♀️,但難以直接服務於術語知識挖掘和本體構建❤️🔥。最後,面向海事領域的術語標註規範亟待完善,以提升術語標註和抽取的專業性、規範性⛏📎。
基於此👨🏻🦯➡️,本研究旨在探索切實可行的海事領域術語自動抽取方法😵👩🏼🍼,致力於提升術語自動抽取的精度、效率和實用性🌋🧑🚀,為海事領域知識工程建設提供關鍵支撐📨。具體而言🧚🏿♀️,本研究涵蓋以下四個研究目標:首先🙇♀️,構建一個高質量的海事領域術語標註數據集♘,形成兩種模式的標註數據🧑🍼。其次,完成並評估基於深度學習的海事領域術語自動抽取模型,經標註數據集訓練後達到較好的性能(精確率、召回率和F1值)🤙。再次,探索細粒度術語標註在支持領域本體構建方面的獨特優勢,挖掘術語標註信息與本體知識的融合路徑,實現術語抽取和本體構建的協同增強。最後🐜,建立海事領域術語抽取的技術規範和評測體系,包括術語標註規範、模型訓練和評估流程、性能評價指標等🐻❄️,推動細粒度術語標註、語言學分析、知識集成、深度學習模型等技術在海事領域術語工程中的規模化應用🏵。
本研究屬於交通運輸工程、外國語言文學和計算機科學(深度學習)的交叉研究範疇🪡,研究的開展有望豐富海事領域的語言資源,為該領域術語知識的自動化獲取和智能化應用提供新的思路和方法🌪,助力海事領域知識的挖掘、組織與應用,推動海事領域的跨語言交際和話語體系構建。