關鍵詞:文本復雜網絡 特征降維 pca 特征提取
摘要:【目的/意義】本文構建一種'特征降維'文本復雜網絡進行文本表示,解決傳統詞同現文本復雜網絡處理海量數據時的維數災難與語義不足問題,再結合機器學習方法提升文本特征提取效果。【方法/過程】依據共現關系抽取二級詞條,再結合依存句法關系抽取三級詞條,構建'特征降維'文本復雜網絡,接著利用PCA算法和TOPSIS法評價網絡節點重要性提取反映文本主題的關鍵詞作為文本特征詞,實現文本特征提取。【結果/結論】本文以網絡新聞數據為實驗對象。實驗結果表明,特征降維文本復雜網絡能較好地表示中文文本,并且在較好地保留了文本語義信息的同時有效減少網絡節點冗余,結合PCA算法的特征提取方法可以使文本分類性能提高。
情報科學雜志要求:
{1}摘要論文應附有中英文摘要。摘要應能客觀地反映論文主要內容的信息,具有獨立性和自含性。一般不超過200字,以與正文不同的字體字號排在作者署名與關鍵詞之間。
{2}本刊提倡嚴謹的學風,堅持“百花齊放,百家爭鳴”的方針,堅持相互尊重的自由討論。
{3}正文(包括圖、表)中的物理量和計量單位必須符合國家標準與國際標準。
{4}附錄內容較少,與參考文獻排在同一頁;如出現內容較多,則另起一頁。附錄的字體為12磅,Times New Roman字體,加粗。附錄內容格式要求與正文一致。
{5}本刊用稿采取三審四校制。來稿應包括題名、作者姓名、作者單位、中英文摘要與關鍵詞、主要作者簡介、正文、參考文獻等。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社