跨語檢索 CLIR 或稱「跨語資訊檢索」(Cross-Language Information Retrieval,CLIR),其定義採用Oard, D. W.,在1997年發表的文章:Cross-Language Information Retrieval Defined。跨語檢索意指使用者自然地使用某種語言(natural language)的檢索詞彙(query)檢索由另一種語言表達的文件。
舉例來說,使用者使用(自己熟悉的)中文產生一組檢索詞彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。
起源與發展
1969年,Salton,G.發表Automatic processing of foreign language documents文章。Salton以 SMART 文件檢索系統 (SMART document retrieval system)當作實驗對象,SMART文件檢索系統背後有多國語言語料庫的支援,藉由該系統,Salton使用英文為主要檢索詞彙 (query) 的語言,檢索德文的文件和資料,反之亦然。實驗結果發現,採用全自動文件處理方法(fully automatic text processing methods)的 SMART 文件檢索系統可以用相對簡單而有效率的方式,進行文獻索引(document indexing)、分類 (classification)、搜尋 (search),和檢索 (retrieval)等工作。這也是文獻中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或跨語資訊檢索一詞。
1992年,美國國家標準和科技機構 (National Institute of Standards and Technology, 簡稱NIST)和美國情報局先進研發活動 (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡稱DARDA) 合作舉辦「文字檢索會議」( The Text REtrieval Conference, 簡稱TREC),一開始是附屬於TIPSTER Text program底下的計畫,從1992年之後,每年都會舉辦一次TREC會議。TREC 會議成立目的是輔導與支援資訊檢索相關研究,提供標準測試集協助研究者進行測試等。
1996年,美國計算機協會(Association of Computing Machinery, 簡稱ACM)在瑞士所舉辦的SIGIR-96會議中,首次出現以跨語檢索為研究主題的研討會(Workshop),與跨語檢索相關的討論,可在這本會議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval 》找到。
1998年,召開第一次 NII Test Collection for IR Systems program, 簡稱NTCIR會議。NTCIR會議主要是由日本學術振興會(Japan Society for Promotion of Science, 簡稱JSPS)、日本國家科學資訊系統中心 (National Center for Science Information Systems, 簡稱NACSIS),以及日本國立情報學研究所(Institute of Informatics National Institute of Informatics, 簡稱NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領域中,能發展出以日文為主的標準測試集。至今,已發展出NTCIR1~6的文件集。
2000年,歐盟成立「跨語言資訊檢索論壇」 (Cross Language Evaluation Forum , 簡稱CLEF),每年定期舉辦跨語檢索研討會,並且推動跨語檢索技術評比。目前有文字資訊檢索評比,或稱文字檢索(text retrieval)評比和跨語圖片資訊檢索評比,或稱跨語圖片檢索(Cross-Language Image Retrieval )項目,除了跨語檢索技術評比之外,尚包括發展以歐洲語系為主的單語資訊檢索系統(monolingual information retrieval system)的基礎建設,包含測試 (testing)和評鑑(evaluating)等工作,該組織也包含在歐盟的數位圖書館 (digital library)計畫中。(黃浚維)
參考資料:
陳光華(1998)。超越資訊檢索的語言藩籬。大學圖書館,2(1),87-99頁。
陳信希(2005)。跨語檢資訊檢索:理論、技術與應用。圖書館學與資訊科學,28(1),19-32頁。
沒有留言:
張貼留言