技術服務小百科: 自動化索引(Automatic Indexing )

2011年4月27日星期三

自動化索引(Automatic Indexing )

自動索引法是研究如何運用電腦，自動地由文獻中找出代表該文獻之索引語彙(Index Term)方法。一般在從事文獻索引編製的方法上，可以分成給予式索引法(Assignment Indexing)及截取式索引法(Extraction Indexing)兩大類。前者在文獻分析完之後，必須要依據索引典(Thesaurus)的標準語彙給予文獻索引語，而後者則直接截取文獻的用字作為文獻的索引詞彙。目前自動索引之研究，大都是利用截取式索引法作為研究的主要方向。

自動索引法的研究，可以追溯自1950年代電腦出現時。而自1957年美國IBM公司的Hans Peter Luhn關於文獻自動索引的論文發表後，各國曾進行大量的自動索引實驗研究。當時美國的資訊科學家們，著手將整篇英文文獻輸入電腦，讓電腦自動計算該文獻每個英文單字出現之次數，然後將計算結果與剔除字(Stoplist)相比對，去除類似"of"、"the"、等不具任何意義的英文介詞，冠詞，連接詞等，剩下的語彙再依照出現總數之多寡由大而小排序。最後再從這樣的序列當中，直接截取所需要的字彙，作為該文獻的索引詞彙。此種自動索引法是假定文獻中，重覆出現的語彙頻率越高，其與文獻的主題相關度亦越高，因此該語彙越適合作為索引用語。例如本篇文章出現次數最多的詞彙可能是索引，由此可以推論出本篇文章必然與索引的主題有關，故索引可直接作為本篇之索引語彙。

從文獻中自動截取索引語彙的方法，除了上述絕對頻率(Absolute Frequency)的計算方式外，還有相對頻率計算法(Relative Frequency)，位置加權計算法及構句法(Syntactic)等。這些不同的計算方式，無非是要突顯文獻中重要的詞彙，以使截取出來的索引語彙更具有代表性。

現今自動化索引系統，並非完全自動化。多數索引編製作業方式，初步先透過電腦的計算分析，找出該文獻可能的索引詞彙，再經由索引專家逐一檢視這些索引詞彙是否恰當，必要時予以補充電腦無法給予的索引語彙，或將重覆之語彙切除或修改。

一個自動索引系統通常包括文本輸入、詞典、抽詞、知識庫、綜合與轉換和輸出等6個子系統：

1. 文本輸入子系統：對事實資訊或文獻文本進行自動索引前，必須使之變為機器可讀形式，並按一定格式加以組織。

2. 詞典子系統：自動索引詞典是存儲在電腦系統內的一部或多部詞表。因索引的目的要求不同﹐詞表的結構和組織也有很大差別。

3. 抽詞子系統：通過查找機器詞典中存儲的信息﹐對輸入的文本逐字逐句進行掃描﹐抽出供綜合與轉換子系統處理的檢索標誌。對於拼音文字來說﹐詞間有空格分隔﹐可按空格進行逐詞掃描﹐作抽詞處理。對於漢語這樣的拼音文字來說﹐詞間沒有空格﹐不能進行逐詞掃描。因此﹐漢語抽詞子系統的首要任務﹐是將連續書寫的漢字文本切分為有空格分隔的詞。

4. 知識庫子系統：是人工索引中選詞知識形式化的規則集合。總結人工索引經驗﹐人工索引包括主題分析﹑選擇表述主題的關鍵詞和把關鍵詞轉換為規範主題詞 3個階段。

5. 綜合與轉換子系統：依據知識庫提供的知識﹐對抽詞子系統抽出的全部詞語進行統計﹑分析和綜合﹐選取表達主題的關鍵詞﹐然後﹐按詞典子系統的規範化規則﹐將選出的關鍵詞轉換為規範化詞語。

6. 輸出子系統：將選取的關鍵詞存入到文本記錄的有關字段﹐並將記錄輸出到要求的介質上。(蔡玉紋)

參考資料：

莊道明(無年代)。自動索引法。網址：http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary。上網日期：980405

中國大百科智慧藏(無年代)。自動索引。網址：http://library1.lib.nccu.edu.tw.ezproxy.lib.nccu.edu.tw:8090/cpedia/Content.asp?ID=1264&Query=1 。上網日期：980405。

技術服務小百科

2011年4月27日星期三

自動化索引(Automatic Indexing )

沒有留言:

張貼留言

2011年4月27日 星期三

自動化索引(Automatic Indexing )

沒有留言:

張貼留言

2011年4月27日星期三