• 1. 基于Web挖掘的領域本體 自動學習 Automatic Ontology Learning Through Web Mining方衛東 袁華 劉衛紅 華南理工大學網絡工程研究中心 2005年9月26日
  • 2. 主要內容1. 概述 2. 本體主干的獲取 本體與本體主干 識別顯式的is_a關系 發現潛在的is_a關系 3. 識別概念間的一般關系 領域關系的發現 關系的修剪 4. 實驗與結論
  • 3. 1. 本體學習概述1.1 本體學習 1.2 現有方法的局限 1.3 本文的學習模型
  • 4. 1.1 本體學習本體學習—Web信息提取的擴展 可以從文本、字典、知識庫、半結構化以及關系模式中等資源中進行 基于文本的本體學習是最具有挑戰性和最有意義的本體學習方式 基于句法分析的方法(如模式匹配法等) 基于統計的方法
  • 5. 1.2 現有方法的局限依賴于某些通用詞典(如WordNet等)或核心本體(core ontology),側重于擴展已有詞典中概念之間的關系或者擴充核心本體; 對于所獲取的概念之間的關系缺乏可信度量化
  • 6. 1.2 現有方法的局限(續)現有方法不適于從特定文本中學習領域本體: 效率低; 某些語言中適合本體學習的詞典可能不存在; 概念關系可信度沒有量化。
  • 7. 1.3 本文的學習模型本文所提出的本體學習模型: 擴展的模式匹配規則抽取候選本體主干 利用概念間共同出現的統計規律發現一般關聯關系 使用了分布語義(Distributional Semantic)模型修剪、優化和合并所得到的候選本體
  • 8. 1.3 本文的學習模型(續)
  • 9. 1.3 本文的學習模型(續)充分利用模式匹配在特定上下文中所表示的特化/泛化關系的準確性,但又不使用復雜和低效的自然語言理解模型發現概念之間的一般關系; 模式庫中的每條匹配規則都根據其語法特征和統計結果被賦予一個可信度值; 每對概念間關系的可信度取決于識別該關系所使用的模式、概念間的語義距離和各種統計特征; 循環遞增的方式對領域本體進行擴充和完善。
  • 10. 2.本體主干的獲取2.1 本體 2.2 本體主干 2.3 顯式is_a關系 2.4 模式的擴充 2.5 潛在is_a關系
  • 11. 本體要素 概念 概念之間的特化/泛化關系 概念之間的其它關系 定義1:一個領域D上的本體O是一個四元組: 其中, 其中C是一個元素集合,這些元素稱作概念;is_a是C上的一個偏序關系(即is_a是一個二元關系,滿足自反、傳遞和反對稱),R是一個包含所有關系名稱的集合,是函數,定義為: 2.1 本體
  • 12. 直接確定定義1中的所有元素是非常困難的;因此,我們采取了首先確定本體主干,然后再發現本體概念間的其他關系的方法。 定義2:一個本體O的主干是它的一個子集: 其中,C,I,is_a的定義同定義1,h是函數,定義為:2.2本體主干
  • 13. 2.3顯式is_a關系 概念之間的is_a關系可以通過簡單的模式匹配在文本集中發現,而領域概念則可以通過命名實體識別獲取。例如: 某些體育運動,如籃球、排球、足球等,… 概念:體育運動,籃球,排球和足球 模式:<某些> NP0 <如> NP1 {NP2,…,[及]NPi[等]} 該模式表達了以下語義: for all NPi,i≧1,kind-of (NPi,NP0)
  • 14. 2.4 模式的擴充如果本體主干中不存在未提取的概念對則退出 從本體主干中抽取術語對,其中t2 = h(t1) 從文本集中提取包含t1和t2的句子 對句子進行分析,提取共同模式 如果所提取模式已經存在于模式庫中,轉5;否則將模式加入模式庫 轉1算法1
  • 15. 2.5 潛在is_a關系 使用分布語義(Distributional Semantic)模型:兩個在語義上相近的概念,與它們共同出現的詞的規律(主題簽名)和它們所處的上下文(上下文簽名)也必定相似 主題簽名(topic signatures):與概念c在同一上下文(比如同一句子)中出現的詞的集合; 上下文簽名(context signatures),包括: 主語簽名(subject signatures):一個動詞集,該集合中的動詞以c作為主語; 賓語簽名(object signatures):一個動詞和介詞集,c是該集合元素的動詞賓語或介詞賓語; 修飾詞簽名(modifier signatures):一個形容詞和限定詞的集合,集合中的元素在名詞性短語中修飾c。
  • 16. 計算舉例:主題簽名
  • 17. 計算舉例:主題簽名(續)
  • 18. 3. 識別3.1 概念間的一般關系 3.2 領域關系的發現 3.3 關系的修剪
  • 19. 3.1 概念間的一般關系通用關系:這類關系在大多數領域概念間都是存在的,包括:一般屬性關系(property_of)、整體-部分關系(part_of)、成員-集體關系(member_of)等。 基于可擴展的模式分析法 領域關系:指專門存在于某領域中的關系,例如 在新聞報道中的原因-事件關系(agent_event)、人物-事件關系(people-event)、時間-事件關系(time-event)… 在市場分析中的生產商-產品關系(producer-product),生產者-消費者關系(producer-consumer),商場-顧客關系(retailer-customer)…
  • 20. 3.2 領域關系的發現給定一個交易集T = {ti|i = 1...n},其中每一個交易是一個項目集ti = {ai,j|j = 1...n, ai,j∈C},C是項目名稱的集合; 計算關聯規則Xk?Yk,使得該規則的支持度和信任度不小于用戶指定的閾值; 支持度(support)被定義為交易集中包含Xk∪Yk的交易所占有的百分比; 可信度(confidence)被定義為當Xk在交易中出現時,Yk出現的頻率 。
  • 21. 3.2 領域關系:公式
  • 22. 3.2 領域關系:算法從本體庫中任意選取兩個概念c1,c2,使得c1≠H(c2),且c2≠H(c1),若不存在這樣的概念,轉5 按公式(8)計算support(c1→c2),若support(c1→c2)< k?support,轉1 按公式(9)計算confidence(c1→c2),若confidence(c1→c2)< kconfidence,轉1 將(c1→c2)加入規則庫,轉1 對關系進行修剪 結束 如果概念c1的出現總是伴隨c2的出現,則我們推測c2可能與c1存在某種關系:領域關系的可信度:
  • 23. 3.3 關系的修剪算法2找出的概念關系中存在大量冗余,例如: 商品-質量和手機-質量之間都存在較強關聯 事實上,因為手機是一種商品,所以手機-質量之間的關聯是商品-質量的自然體現,不應該被視作新的關聯。
  • 24. 3.3 關系的修剪:策略設定一個閾值kinterest 對于任意一對關聯r :a→b和r‘:a’→b‘,若 a=H(a‘)且b=H(b’) ,則若support(r)> kinterest*support(r‘)且confidence(r)> kinterest*confidence(r’),則刪除r‘,否則刪除r; 否則,若a≠H(a')或b≠H(b') ,則令x = support(r) * confidence(r),y = support(r') * confidence(r')。若x > y則刪除r',否則刪除r。
  • 25. 3.3 關系的修剪:策略(續)
  • 26. 4. 實驗與結論(1)使用Google從網絡上搜集了850個與“手機市場”相關的網頁作為初始領域文本; 使用了對照網頁排除與待研究領域無關的概念 ; 本體學習&文本擴展
  • 27. 4. 實驗與結論(2)
  • 28. 4. 實驗與結論(3)
  • 29. 4. 實驗與結論(4)手機市場概念可信度概念可信度價格0.92銷售0.93品牌0.68競爭0.90市場0.85趨勢0.50短信0.70分析0.82投訴0.69潛力0.44............
  • 30. 4. 實驗與結論(5)本體知識應用日漸廣泛 本文介紹的方法解決了以下問題 現有本體學習方法依賴通用詞典 不能對所獲得的關系進行可信度量化
  • 31. Maedche, A.; Staab, S. Ontology Learning for the Semantic Web [J], IEEE Intelligent Systems, Kluwer Academic Publishers, 2001, 16(2): 72-79. Navigli, R., Velardi, P., Gangemi, A. Ontology learning and its application to automated terminology translation [J]. IEEE Intelligent Systems, 2003, 18(1): 22-31. Kietz J.U., Maedche A., Volz R. A Method for Semi-Automatic Ontology Acquisition from a Corporate Intranet [A]. Proc EKAW-2000 Workshop "Ontologies and Text" [C]. Juan-Les-Pins, France. 2000. Maedche, A. and Staab, S. Discovering Conceptual Relations from Text [A]. Proc 14th Euro Conf on Artificial Intelligence [C]. Amsterdam: IOS Press. 2000. Hearst M. A. Automated Discovery of WordNet Relations [A]. C. Fellbaum (ed.): WordNet: An Electronic Lexical Database [C]. Cambridge, MA: MIT Press. 1998. 131-151. Agirre, E., Ansa, O., Hovy, E., and Martinez, D. Enriching very large ontologies using the WWW [A]. Proc 1st Workshop on Ontology Learning OL'2000 [C]. Berlin, Germany: CEUR Workshop, 2000. Maedche A. and Staab S. Mining ontologies from text. Proc EKAW-2000 [A], Springer Lecture Notes in Artificial Intelligence (LNAI-1937) [C]. London, UK: Springer-Verlag, 2000. Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases [A]. Proc ACM SIGMOD Conf Management of Data [C], New York, USA: ACM Press, 1993. 207-216.References
  • 32. References (Cont.)Hearst M. A. Automatic acquisition of hyponyms from large text corpora [A]. Proc 14th Intl Conf Computational Linguistics [C]. Morristown, NJ, USA: Association for Computational Linguistics, 1992. 539-545. Hobbs J. The generic information extraction system [A]. Proc 5th Message Understanding Conf (MUC-5) [C], Baltimore, Maryland, USA: Morgan Kaufmann Publishers, 1993. 87-92. Maedche A., Staab S. Discovering conceptual relations from text [A]. Proc ECAI2000 [C]. Amsterdam: IOS Press, 2000. Srikant, R., Agrawal, R. Mining generalized association rules [A]. Proc VLDB [C]. San Francisco, CA, USA: Morgan Kaufmann Publishers, 1995. 407-419. SUN Jian, GAO Jianfeng, ZHANG Lei, et al. Chinese Named Entity Identification Using Class-based Language Model [A]. Proc 19th Intl Conf Computational Linguistics [C]. San Francisco: Morgan Kaufmann, 2002. 967-973. FANG Weidong, ZHANG Ling, WANG Yanxuan, et al, Toward a Semantic Search Engine Based on Ontologies [A]. Proc 4th Intl Conf Machine Learning and Cybernetics (ICMLC 2005) [C]. New York: Institute of Electrical and Electronics Engineers Inc, 2005. Stumme G., Madche A. FCA-Merge: Bottom-up merging of ontologies [A]. Proc 7th Intl. Conf Artificial Intelligence [C]. San Francisco: Morgan Kaufmann, 2001. 225-230.

梦幻诛仙手游丹青阁天书 www.rasug.icu 下載文檔到電腦,查找使用更方便

需要 8 金幣 [ 分享文檔獲得金幣 ] 0 人已下載

下載文檔