全國(guó)服務(wù)熱線:400-080-4418
1引言
網(wǎng)絡(luò)信息檢索已成為我們獲取信息主要手段。根據(jù)CNNIC的統(tǒng)計(jì)數(shù)據(jù)[1]:目前中國(guó)用戶上網(wǎng)的主要目的中,信息獲取以42.3%位居榜首;有98.7%的人表示通過(guò)互聯(lián)網(wǎng)來(lái)獲取信息,其中有71.9%的人是通過(guò)搜索引擎來(lái)查找相關(guān)網(wǎng)站的。然而網(wǎng)絡(luò)信息檢索面臨兩個(gè)亟待解決的關(guān)鍵問(wèn)題:
(1)搜索的結(jié)果相關(guān)度低,冗余信息太多;
(2)搜索引擎無(wú)法對(duì)常識(shí)性問(wèn)題給予回答,智能化水平低。
出現(xiàn)上述問(wèn)題的原因在于目前檢索技術(shù)主要依賴于編碼技術(shù),通過(guò)分類(lèi)模式來(lái)描述給定的信息;通過(guò)基于字符串匹配的全文檢索技術(shù),來(lái)搜索用戶提交的關(guān)鍵詞。由于編碼描述只能反映出部分語(yǔ)義,因此不能保證語(yǔ)義的匹配;檢索過(guò)程是把用戶的查詢關(guān)鍵詞與全文中的每一個(gè)詞進(jìn)行比較,而不考慮查詢請(qǐng)求與文檔語(yǔ)義上的匹配。針對(duì)上述兩個(gè)關(guān)鍵問(wèn)題,本文運(yùn)用本體論的相關(guān)知識(shí),提出基于本體構(gòu)建的語(yǔ)義搜索引擎模型。該模型能夠根據(jù)用戶的查詢關(guān)鍵字或者詢問(wèn)問(wèn)題,進(jìn)行基于知識(shí)的推理,從而提高檢索結(jié)果的相關(guān)度,并且實(shí)現(xiàn)一定水平的語(yǔ)義檢索。
2本體論
2.1本體的概念
本體這個(gè)術(shù)語(yǔ)來(lái)自于哲學(xué),根據(jù)韋氏詞典的解釋?zhuān)倔w是形而上學(xué)的一個(gè)分支。目前本體在人工智能領(lǐng)域得到廣泛研究和應(yīng)用,但尚未形成統(tǒng)一的定義,廣為流傳的定義有[2]:
定義1:本體是對(duì)共享概念模型的形式化明確說(shuō)明。它有幾個(gè)要點(diǎn):
★概念模型:指通過(guò)抽象客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型,其表示的含義獨(dú)立于具體的環(huán)境狀態(tài);
★明確:指所使用的概念及使用這些概念的約束都有明確的定義;
★形式化:指Ontology是計(jì)算機(jī)可讀的;
★共享:指Ontology中體現(xiàn)的是共同認(rèn)可的知識(shí),反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集,它所針對(duì)的是團(tuán)體而不是個(gè)體。
簡(jiǎn)單地說(shuō),本體給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的確定詞匯外延的有關(guān)規(guī)則的定義;其目標(biāo)是捕獲相關(guān)的領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定領(lǐng)域內(nèi)通用的詞匯,并給出這些詞匯和詞匯之間相互關(guān)系的明確定義。
定義2:本體論是關(guān)于詞匯或概念的理論,這些訶匯和概念用于構(gòu)建人工智能系統(tǒng)。該定義認(rèn)為,本體實(shí)際上是一種表示性的詞匯,這種詞匯可以應(yīng)用于特定領(lǐng)域。比如電子設(shè)備領(lǐng)域的本體,它包含一些描述基本概念的詞匯——晶體管,運(yùn)算放大器,電壓等;也包含這些基本詞匯間的關(guān)系——運(yùn)算放大器是電子設(shè)備的一種,而晶體管是運(yùn)算放大器的組件。一般來(lái)說(shuō),識(shí)別這種詞匯和潛在的概念需要仔細(xì)分析領(lǐng)域內(nèi)存在的各種對(duì)象和關(guān)系。這一定義描述的本體建設(shè)方法與面向?qū)ο蠓椒ㄓ幸欢ǖ墓餐ㄖ帯?/P>
定義3:本體論是用來(lái)定義某一領(lǐng)域的知識(shí)主體。該定義認(rèn)為,本體是描述某個(gè)領(lǐng)域的知識(shí),它不僅僅是簡(jiǎn)單的詞匯表,而是整個(gè)上層知識(shí)庫(kù)。
綜上所述,本體是某個(gè)領(lǐng)域內(nèi)不同主體之間進(jìn)行交流的一種語(yǔ)義基礎(chǔ),即由本體提供定義明確的詞匯表,描述概念和概念之間的關(guān)系,作為使用者之間達(dá)成的共識(shí)。
2.2本體的作用
本體的作用可歸結(jié)為通訊、互操作和系統(tǒng)工程。
(1)所謂通訊是指本體為人與人之間或組織與組織之間的通訊提供共同的詞匯,即交流的基礎(chǔ)。
(2)互操作說(shuō)明本體建立了在不同的建模方法、范式、語(yǔ)言和軟件工具之間進(jìn)行翻譯和映射的機(jī)制,以實(shí)現(xiàn)不同系統(tǒng)之間集成。
(3)系統(tǒng)工程:本體分析能夠?yàn)橄到y(tǒng)工程提供以下方面的好處:
★重用:本體是領(lǐng)域內(nèi)的重要實(shí)體、屬性、過(guò)程及其相互關(guān)系形式化描述的基礎(chǔ)。這種形式化描述可成為軟件系統(tǒng)中可重用和共享的組件。
★知識(shí)獲。寒(dāng)構(gòu)造基于知識(shí)的系統(tǒng)時(shí),用已有的本體作為起點(diǎn)和基礎(chǔ)來(lái)指導(dǎo)知識(shí)的獲取,可以提高其速度和可靠性。
★可靠性:由于本體的描述是形式化的,形式化的表達(dá)使得自動(dòng)的一致性檢查成為可能,從而提高了軟件系統(tǒng)的可靠性。[Page]
★規(guī)范描述:本體分析有助于確定系統(tǒng)(如知識(shí)庫(kù))的需求和規(guī)范。
3基于本體語(yǔ)義搜索引擎
3.1基于本體搜索引擎的設(shè)計(jì)思想
本體提供了人機(jī)交流的機(jī)制,使得機(jī)器可以理解語(yǔ)義,從而為搜索引擎提高效率奠定了基礎(chǔ)。
基于本體的搜索引擎的基本設(shè)計(jì)思想:
(1)在領(lǐng)域?qū)<业膸椭,建立相關(guān)領(lǐng)域的本體;
(2)收集信息源中的數(shù)據(jù),并參照已建立的Ontology,把收集來(lái)的數(shù)據(jù)按規(guī)定的格式存儲(chǔ)在元數(shù)據(jù)庫(kù)中:
(3)對(duì)用戶檢索界面獲取的查詢請(qǐng)求,查詢轉(zhuǎn)換器按照Ontology把查洵請(qǐng)求轉(zhuǎn)換成規(guī)定的格式,在Ontology的幫助下從元數(shù)據(jù)庫(kù)中匹配出符合條件的數(shù)據(jù)集合;
(4)檢索的結(jié)果經(jīng)過(guò)定制處理后,返回給用戶。
3.2知識(shí)庫(kù)
實(shí)現(xiàn)基于本體的語(yǔ)義搜索引擎,建立知識(shí)庫(kù)是必需的。知識(shí)庫(kù)是語(yǔ)義搜索引擎進(jìn)行推理和知識(shí)積累的基礎(chǔ)和關(guān)鍵,而Ontology則是知識(shí)庫(kù)的基礎(chǔ)。一般來(lái)說(shuō),本體提供一組術(shù)語(yǔ)和概念來(lái)描述某個(gè)領(lǐng)域,知識(shí)庫(kù)則使用這些術(shù)語(yǔ)來(lái)表達(dá)該領(lǐng)域的事實(shí)。例如醫(yī)藥本體可能包含“白血病”、“皮膚病”等術(shù)語(yǔ)的定義,但它不會(huì)包含具體某一病人的診斷結(jié)果,而這正是知識(shí)庫(kù)所要表達(dá)的內(nèi)容。比如張三患有皮膚病、李四患有皮膚病和白血病、王五患有白血病,其中的皮膚病、白血病就是本體。而各個(gè)病癥的實(shí)例(張三、李四、王五)及其病癥描述就是知識(shí)庫(kù)的內(nèi)容。
本體和知識(shí)庫(kù)的關(guān)系有幾個(gè)要點(diǎn):
★Ontology為知識(shí)庫(kù)的建立提供一個(gè)基本的結(jié)構(gòu);
★Ontology提供一套概念和術(shù)語(yǔ)來(lái)描述某一領(lǐng)域,并且獲取該領(lǐng)域的本質(zhì)的概念結(jié)構(gòu);
★知識(shí)庫(kù)就運(yùn)用這些術(shù)語(yǔ)去表達(dá)現(xiàn)實(shí)或者虛擬世界中的正確知識(shí)。
因此,建設(shè)一個(gè)知識(shí)庫(kù)的第一步就是對(duì)該領(lǐng)域進(jìn)行有效的Ontology分析。
3.3構(gòu)造本體
本體的構(gòu)造是整個(gè)基于Ontology的信息檢索系統(tǒng)的底層基石,決定著系統(tǒng)的性能、通用程度以及系統(tǒng)運(yùn)行的質(zhì)量。如何正確、有效、合乎邏輯的建立本體是這個(gè)系統(tǒng)建立的關(guān)鍵。
(1)本體的構(gòu)造準(zhǔn)則
對(duì)同一領(lǐng)域,同一事物,不同人往往會(huì)建立不同的本體。由于本體應(yīng)該是規(guī)范化的描述,因此遵循統(tǒng)一的構(gòu)造準(zhǔn)則是必要的。目前為常用的是Gruber提出的指導(dǎo)本體構(gòu)造的5個(gè)準(zhǔn)則,[3]即:
清晰:本體必須有效的說(shuō)明所定義術(shù)語(yǔ)的意思。定義應(yīng)該是客觀的,與背景獨(dú)立的。當(dāng)定義可以用邏輯公理表達(dá)時(shí),它應(yīng)該是形式化的。定義應(yīng)該盡可能的完整。所有定義應(yīng)該用自然語(yǔ)言加以說(shuō)明。
一致:本體應(yīng)該是一致的,也就是說(shuō),它應(yīng)該支持與其定義相一致的推理。它所定義的公理以及用自然語(yǔ)言進(jìn)行說(shuō)明的文檔都應(yīng)該具有一致性。
可擴(kuò)展性:本體應(yīng)該為可預(yù)料到的任務(wù)提供概念基礎(chǔ)。它應(yīng)該可以支持在已有的概念基礎(chǔ)上定義新的術(shù)語(yǔ),以滿足特殊的需求,而無(wú)須修改已有的概念定義。
編碼偏好程度小:概念的描述不應(yīng)該依賴于某一種特殊的符號(hào)層的表示方法。因?yàn)閷?shí)際的系統(tǒng)可能采用不同的知識(shí)表示方法。
本體約定小:本體約定應(yīng)該小,只要能夠滿足特定的知識(shí)共享需求即可。這可以通過(guò)定義約束弱的公理以及只定義通訊所需的詞匯來(lái)保證。
(2)本體的表示
目前有兩種本體表示方法應(yīng)用比較廣泛,一是傳統(tǒng)的四元素表示方法、二是較新的六元組表示法。前者在世界范圍內(nèi)得到了比較高的認(rèn)同,但是形式過(guò)于靈活,不易掌握。后者因?yàn)槎x規(guī)范,可操作性強(qiáng),得到了廣大國(guó)內(nèi)研究者的歡迎。
★四元素表示方法
四元素表示方法的基本思想是;一個(gè)本體中的四個(gè)主要元素是:概念、關(guān)系、實(shí)例和公理。
概念表示某個(gè)領(lǐng)域中一類(lèi)實(shí)體或事物的集合。通常概念可以分成兩大類(lèi),一類(lèi)是簡(jiǎn)單概念,另一類(lèi)是詳細(xì)概念。簡(jiǎn)單概念是那些只具備必要條件(即屬性)的類(lèi)成員。詳細(xì)概念是指對(duì)類(lèi)成員的描述既充分又必要。例如:“正方形是四個(gè)角都是直角的四邊形”就是一個(gè)簡(jiǎn)單概念。而“正方形是四個(gè)角都是直角的四個(gè)邊等長(zhǎng)的四邊形”就是一個(gè)詳細(xì)概念,因?yàn)樗膫(gè)邊等長(zhǎng)是正方形的充分且必要條件。[Page]
關(guān)系描述概念和概念屬性的交互。
實(shí)例是概念表示的具體的事物,如對(duì)于大學(xué)這個(gè)概念,山東大學(xué)就是一個(gè)實(shí)例。嚴(yán)格的說(shuō),一個(gè)本體不應(yīng)該包括任何實(shí)例,因?yàn)樗患僭O(shè)為一個(gè)具體領(lǐng)域的概念化。一個(gè)本體與相關(guān)的實(shí)例的組合就是我們?nèi)缃袼Q(chēng)呼的知識(shí)庫(kù)。
公理是用來(lái)限制類(lèi)和實(shí)例的取值范圍,公理中包括許多具體的規(guī)則和約束。
★六元組表示法
這種方法的基本思想就是用一個(gè)六元組來(lái)表示一個(gè)本體。
An Ontology={C,AC,R,AR,H,X}
其中C表示概念的集合。AC表示多個(gè)屬性集合組成的集合,其中每個(gè)屬性集合對(duì)應(yīng)于一個(gè)概念。R是一個(gè)關(guān)系集合。AR是由多個(gè)屬性集合組成的集合,其中每個(gè)屬性集合對(duì)應(yīng)于R中的一個(gè)關(guān)系。H表示概念之間的層次結(jié)構(gòu)關(guān)系,X表示公理集合。
為了深入描述本體的表示方法,以下列出了一個(gè)家庭本體描述實(shí)例。
Family_Ontology={Cfamily,ACfamily,R family,ARfamily,H family,X family}where
Cfamily={father,mother,children}
ACfamily={ACfamily(father),ACfamily(mother),ACfamily(children)}
ACfamily(father)={name,age,job,salary,……}
ACfamily(mother)={name,age,job,salary,……}
ACfamily(children)={name,age,sex,……}
R family={TakeCareOf(mother,mother,children),
Educate(father,mother,children),
Help(children,mother),……}
ARfamily={ARfamily(TakeCareOf),ARfamily(Educate),ARfamily(Help),……}
ARfamily(TakeCareOf)={feed,clothing,seeDoctor,……}
ARfamily(Educate)={teach,exercise,……}
……
(3)本體的構(gòu)造的生命周期
了解了本體建設(shè)的準(zhǔn)則和方法論之后,下一步就是要著手建立本體。而建立的過(guò)程可以用生命周期的概念來(lái)描述。Uschold & Gruninger提出了一個(gè)本體構(gòu)造的方法學(xué)框架[4](圖1),框架包括以下組成部分:
首先要明確本體使用的目的和范圍,然后依次構(gòu)造本體。構(gòu)造本體過(guò)程可以分為三個(gè)階段:
本體捕獲就是確定關(guān)鍵的概念和關(guān)系,給出精確定義,并確定其它相關(guān)的術(shù)語(yǔ);本體編碼即選擇合適的表示語(yǔ)言表達(dá)概念和術(shù)語(yǔ);已有本體的集成是對(duì)已有本體的重用和修改。這個(gè)階段也是一個(gè)循環(huán)往復(fù)的迭代過(guò)程。
后是評(píng)估階段,要根據(jù)需求描述、能力問(wèn)題等對(duì)本體以及軟件環(huán)境、相關(guān)文檔進(jìn)行評(píng)價(jià)。
3.4基于本體的語(yǔ)義搜索引擎模型簡(jiǎn)介
OntoSSE是基于本體的搜索引擎,它能夠?qū)崿F(xiàn)語(yǔ)義搜索、知識(shí)檢索和一定的推理功能。本模型假設(shè)搜索引擎存在的環(huán)境是web網(wǎng)頁(yè),這些網(wǎng)頁(yè)并未自動(dòng)含有語(yǔ)義標(biāo)記。
此系統(tǒng)也應(yīng)具備搜索引擎的各種基本的功能,比如網(wǎng)頁(yè)的遍歷和獲取、索引的建立、頁(yè)面查找算法等,都可以參考目前流行的搜索引擎的結(jié)構(gòu)和實(shí)現(xiàn)過(guò)程。
OntoSSE的重要之處是信息庫(kù)和知識(shí)庫(kù)的交流。知識(shí)庫(kù)是實(shí)現(xiàn)智能搜索的核心,它如同人的大腦,其增長(zhǎng)也需要一種自然的循環(huán)。知識(shí)庫(kù)的豐富也決定著檢索能力和Question-Answer能力的高低。信息庫(kù)是知識(shí)庫(kù)存在和發(fā)展的空間,知識(shí)庫(kù)就是對(duì)信息庫(kù)的判斷、提取、分析和概括。智能搜索引擎就是通過(guò)知識(shí)庫(kù)把用戶的問(wèn)題提高到知識(shí)層面,然后利用這個(gè)知識(shí)檢索信息庫(kù)。[5]二者的有機(jī)結(jié)合離不開(kāi)語(yǔ)義分析和知識(shí)管理。因此,Ontology作為語(yǔ)義分析和知識(shí)共享和重用的重要基礎(chǔ),與知識(shí)庫(kù)、信息庫(kù)一起構(gòu)成OntoSSE的三大支柱。
展示了基于本體的語(yǔ)義搜索引擎OntoSSE的系統(tǒng)結(jié)構(gòu)及其工作流程。OntoSSE模型的工作原理和檢索步驟可以概括如下:
(1)搜索引擎通過(guò)自動(dòng)網(wǎng)頁(yè)采集器來(lái)抓取網(wǎng)頁(yè),參照特定詞表將網(wǎng)頁(yè)信息分類(lèi)建立索引,加入索引庫(kù)中。
OntoSSE的體系結(jié)構(gòu)及其工作流
[Page](2)由人工、自動(dòng)或者半自動(dòng)的方式,建立領(lǐng)域或者通用的本體。(3)參照本體,使用本體描述語(yǔ)言(DAML、RDF)對(duì)文檔進(jìn)行標(biāo)注。(4)標(biāo)注的文檔(RDF Triple)相當(dāng)于一個(gè)本體的實(shí)例,它被存放在知識(shí)庫(kù)中。(5)用戶以自然語(yǔ)言輸入查詢請(qǐng)求,這種請(qǐng)求可能是關(guān)鍵字,或者一個(gè)問(wèn)題。(6)查詢過(guò)濾器(分析器)對(duì)用戶的查詢請(qǐng)求進(jìn)行語(yǔ)義分析,提取出相關(guān)屬性的值。(7)檢索代理結(jié)合RDF Triple中體現(xiàn)的類(lèi)和關(guān)系信息以及由查詢過(guò)濾器提交的屬性值,進(jìn)行邏輯推理,生成查詢實(shí)例。(8)查詢實(shí)例被傳往信息數(shù)據(jù)庫(kù),在不同目錄中查找,并將結(jié)果處理后返回給用戶。例如,如果我們要檢索“微軟總裁是誰(shuí)”,將這個(gè)問(wèn)題輸入模型以后,查詢過(guò)濾器根據(jù)分詞技術(shù),進(jìn)行語(yǔ)義理解,分析出該句子的語(yǔ)義實(shí)際表示了“有某個(gè)名為‘職務(wù)’的屬性其值是‘微軟總裁’”。而通過(guò)本體和知識(shí)庫(kù),系統(tǒng)通過(guò)推理,可以知道在名為“人”的類(lèi)中有名為“職務(wù)”的屬性,這樣,在進(jìn)行語(yǔ)義推理時(shí),就生成一個(gè)人的類(lèi)的實(shí)例,其中有屬性“職務(wù)=微軟總裁”,而通過(guò)知識(shí)庫(kù)得知,這個(gè)實(shí)例的名字屬性為“Bill Gate”。這時(shí),我們就獲得了“Bill Gate”的答案。后,我們還可以從信息庫(kù)和知識(shí)庫(kù)中檢索與比爾蓋茨相關(guān)的各種潛在信息。
可見(jiàn)OntoSSE模型可實(shí)現(xiàn)本體對(duì)搜索引擎三個(gè)方面的改進(jìn):提高結(jié)果相關(guān)度、語(yǔ)義推理功能和知識(shí)檢索。
4結(jié)束語(yǔ)
通過(guò)本體支持語(yǔ)義,支持人機(jī)之間的交流,從而實(shí)現(xiàn)機(jī)器智能,為web的發(fā)展帶來(lái)了新的契機(jī)。而本體在搜索引擎中的應(yīng)用,必將對(duì)搜索引擎的易用性和效率,產(chǎn)生極大的改進(jìn),從而使得web用戶能夠更好的在浩如煙海的信息海洋中遨游。
Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號(hào)-13
滬公網(wǎng)安備 31011402007386號(hào)