關鍵詞:主題模型 標簽 跨語言文本分類 標簽推薦 潛在主題
摘要:針對日漸豐富的跨語言的文字信息資源與新聞報道及科技文獻中的多標簽數據,為了挖掘跨語言間的相關性及數據屬性間的關聯性,提出了帶標簽雙語主題模型,應用于跨語言文本分類與標簽的推薦。首先,假設科技文獻中的關鍵詞與摘要部分有著內容上的相關性,對關鍵詞進行提取,并進行標簽化,進而把標簽對應于主題模型中的主題,實例化“潛在”的主題;其次,利用帶標簽雙語主題模型對摘要部分進行了訓練迭代;最后,對新加入的文檔進行跨語言文本分類及標簽的推薦。實驗結果表明,跨語言文本分類任務中micro-F1達到94.81%,推薦的標簽也能較好地體現出語義上的相關性。
計算機應用研究雜志要求:
{1}注釋與參考文獻:注釋是對論文中某一特定內容的解釋或補充說明,用帶圈數字注于當頁頁腳;參考文獻是論文中引用的觀點、數據和材料等內容的出處,用帶方括號的數字(如[])按順序編碼標明,并與文末編碼對應。
{2}引言應簡明扼要介紹本文研究的領域,國內外目前研究的近期結果與趨勢,存在的問題;本文研究的理論依據,歷史背景,研究的設想、思路、要解決的具體問題,創新點(重要)和預期目的及意義。
{3}來稿須為學術論文,內容應在本刊用稿范圍內。來稿應結構完整,包括標題、作者信息、摘要、關鍵詞、正文和參考文獻等部分。
{4}作者介紹主要包括:作者姓名,工作單位(+職務),技術職稱,主要研究方向。
{5}一般三至四級標題為宜,不超過五級。正文字號字體均為五號宋體,行間距為固定值20磅。一級標題應加黑居中。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社