央廣網(wǎng)貴陽5月27日消息(記者陳屹)5月26日,,中國科學技術信息研究所在正在貴陽舉行的2018中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上發(fā)布在網(wǎng)絡環(huán)境下大數(shù)據(jù)時代新型《漢語主題詞表》,。新《漢語主題詞表》在體系結(jié)構(gòu),、詞匯術語,、詞間關系等方面都進行了改進和創(chuàng)新,,將對國家信息基礎建設提供支撐作用。
據(jù)悉,,新型《漢語主題詞表》是支持漢語信息處理的語義工具,是以概念詞匯為知識節(jié)點,,以等同關系,、等級關系和相關關系為語義關聯(lián),構(gòu)建成的超大型知識庫系統(tǒng),,編織成的多維度的知識網(wǎng)絡,。通過新型《漢語主題詞表》的微觀知識結(jié)構(gòu),,可以將大數(shù)據(jù)結(jié)構(gòu)化、語義化,、規(guī)范化,。
新型《漢語主題詞表》支持中文文獻文本語義處理,;通過專業(yè)詞庫,,支持對專業(yè)文獻的文本分詞,;通過同義詞歸并,,聚焦專業(yè)知識節(jié)點,;通過主題分析,,批量揭示文獻信息涵蓋的知識內(nèi)容與分類類型,將海量信息進行序化,;提供在線概念檢索和輔助標引服務,,通過可視化技術,展示各類概念關系,,為網(wǎng)絡時代大數(shù)據(jù)的語義化,、結(jié)構(gòu)化,、數(shù)據(jù)共享與開放提供了重要支撐,;既可以運用于資源組織與知識關聯(lián),,也可以支撐知識展示與數(shù)據(jù)服務,,成為實現(xiàn)信息檢索,、知識發(fā)現(xiàn),、語義推理的智能引擎,;通過機器標注、語義關聯(lián)為云計算、云儲存提供了信息描述的標準化模型;通過主題標引,、學科分類,、知識聚類功能,成為物聯(lián)網(wǎng)與虛擬現(xiàn)實的精準知識組織系統(tǒng),。
《漢語主題詞表》是1975年國家重點科技攻關項目“漢字信息處理系統(tǒng)工程”的配套項目,于1980年6月正式公開出版,,1985年獲得國家科學技術進步二等獎,。1991年,,出版自然科學增訂本。為我國大規(guī)模計算機信息存儲與檢索奠定了基礎,,促進了中文文本信息處理工作的開展,。
新型《漢語主題詞表》是為適應網(wǎng)絡環(huán)境下海量文本大數(shù)據(jù)形式化,、結(jié)構(gòu)化、語義化處理的需要,中國科學技術信息研究所從2009年開始牽頭組織分領域,、分階段修訂和重新構(gòu)建的工程,。目前已經(jīng)完成工程技術卷和自然科學卷的編制工作,覆蓋31個學科領域,,術語詞匯達50萬條,,已經(jīng)在國家工程技術數(shù)字圖書館中,提供科技信息的組織和檢索服務,。