時間:2023-03-01 16:37:18
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇數據挖掘技術研究,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
空間數據挖掘(spatial Data Mining,簡稱SDM),是指從空間數據庫中提取用戶感興趣的空間模式、普遍關系、數據特征的過程。空間數據挖掘技術綜合數據挖掘技術與空間數據庫技術,可用于對空間數據的理解、空間關系和空間與非空間關系的發現、空間知識庫的構造以及空間數據庫的重組和查詢的優化等,其根本目標是把大量的原始數據轉換成有價值的知識,發現大量的地學信息中所隱含的規則。
空間數據挖掘是計算機技術、數據庫應用技術和管理決策支持技術等多學科交叉發展的新興邊緣學科,一般來說,空間數據挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關聯規則四類。空間分類的目的是在空間數據庫對象的空間屬性和非空間屬性之間發現分類規則,是近年來空間數據挖掘領域中比較活躍的一個方向,常用的方法是決策樹。空間聚類是在一個比較大的多維數據集中根據距離的度量找出簇或稠密區域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當離城市中心越來越遠時經濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關的分析方法。空間關聯規則是指空間鄰接圖中對象之間的關聯,空間關聯挖掘多采用逐步求精的優化思想,即首先用一種快速的算法粗略地對初始空間數據庫進行一次挖掘,然后再在裁剪過的數據庫上用代價高的算法進行進一步精化挖掘。
空間數據挖掘過程一般可分為數據篩選(消除原始數據的噪聲或不一致數據)、數據集成(將多種數據源組合在一起)、數據選擇(根據用戶的要求從空間數據庫中提取與空間數據挖掘相關的數據)、數據變換(將數據統一成適合挖掘的形式)、空間數據挖掘(運用選定的知識發現算法,從數據中提取用戶所需的知識)、模式評估(根據某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術和知識表示技術,向用戶提供挖掘的知識)等階段(見圖1)。空間數據挖掘實際上是一個“人引導機器,機器幫助人”的交互理解數據的過程。
2 空間數據挖掘在GIS中的應用
空間數據挖掘技術與地理信息系統(GIS)的結合具有非常廣泛的應用空間。數據挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數據挖掘模式,這種模式基本上將GIS當作一個空間數據庫看待,在G IS環境外部借助其它軟件或計算機語言進行空間數據挖掘,與GIS之間采用數據通訊的方式聯系。其二為嵌入式,又稱內部空間數據挖掘模式,即在GIs中將空間數據挖掘技術融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發的工作量和難度,又可以保持外部空間數據挖掘模式的靈活性。
利用空間數據挖掘技術可以從空間數據庫中發現如下幾種主要類型的知識:普遍的幾何知識、空間分布規律、空間關聯規律、空間聚類規則、空間特征規則、空間區分規則,空間演變規則、面向對象的知識。目前,這些知識已比較成熟地應用于軍事、土地、電力、電信、石油和天然氣、城市規劃、交通運輸、環境監測和保護、110和1 20快速反應系統等資源管理和城市管理領域。在市場分析、企業客戶關系管理、銀行保險、人口統計、房地產開發、個人位置服務等領域也正得到廣泛關注與應用,實際上,它正在深入到人們工作和生活的各個方面。
3 空間數據挖掘面臨的問題
(1) 多數空間數據挖掘算法是由一般的數據挖掘算法移植而來,并沒有考慮空間數據存儲、處理及空間數據本身的特點。空間數據不同于關系數據庫中的數據,它有其特有的空間數據訪問方法,因而傳統的數據挖掘技術往往不能很好地分析復雜的空間現象和空間對象。
(2) 空間數據挖掘算法的效率不高,發現模式不精練。面對海量的數據庫系統,在空間數據挖掘過程中出現不確定性、錯誤模式的可能性和待解決問題的維數都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領域知識發現、去除與任務無關的數據,有效地降低問題的維數,設計出更有效的知識發現算法。
(3) 沒有公認的標準化空間數據挖掘查詢語言。數據庫技術飛速發展的原因之一就是數據庫查詢語言的不斷完善和發展,因此,要不斷完善和發展空間數據挖掘就必須發展空間數據挖掘查詢語言。為高效的空間數據挖掘奠定基礎。
(4) 空間數據挖掘知識發現系統交互性不強,在知識發現過程中很難充分有效地利用領域專家知識,用戶不能很好掌控空間數據挖掘過程。
(5) 空間數據挖掘方法和任務單一,基本上都是針對某個特定的問題,因而能夠發現的知識有限。
(6) 空間數據挖掘與其他系統的集成不夠,忽視了GIS在空間知識發現過程中的作用。一個方法和功能單一的空間數據挖掘系統的適用范圍必然受到很多限制,目前開發的知識系統僅局限于數據庫領域,如果要在更廣闊的領域發現知識,知識發現系統就應該是數據庫、知識庫、專家系統、決策支持系統、可視化工具、網絡等多項技術集成的系統。
上述問題使得從空間數據庫中提取知識比從傳統的關系數據庫中提取知識更為困難,這給空間數據挖掘研究帶來了挑戰。因此,空間數據挖掘在未來的發展中,還有很多理論和方法有待深入研究。
4 空間數據挖掘的發展趨勢
(1)空間數據挖掘算法和技術的研究。空間關聯規則挖掘算法、時間序列挖掘技術、空間同位算法、空間分類技術、空間離群算法等是空間數據挖掘研究的熱點,同時提高空間數據挖掘算法的效率也很重要。
(2) 多源空間數據的預處理。空間數據內容包括數字線劃數據、影像數據、數字高程模型和地物的屬性數據,由于其本身的復雜性與數據采集的困難,空間數據中不可避免地存在著空缺值、噪聲數據及不一致數據,多源空間數據的預處理就顯得格外重要。
當今社會已經進入了人工智能時代,人工智能的應用,大大改善了我們的生活。大數據時代已經來臨,不論是從數據的使用,挖掘,處理等方面,都為人工智能的應用起到了基礎和保障。
1人工智能
1.1人工智能的定義。人工智能(ArtificialIntelligence),簡稱AI。屬于計算機學科下的分支,顧名思義,它是一門專門研究類人化的智能機器學科,即利用現階段科學的研究方法和技術,研制出具有模仿、延伸和擴展人類智能的機器或智能系統,從而實現利用機器模仿人類智能的一切行為。1.2人工智能的研究背景。在1956年的達特矛斯會議上,“人工智能”這一術語正式由麥卡錫提議并采用了,隨后人工智能的研究取得了許多引人注目的成就。在這之后,科研人員進行了許多的研究和開發,人工智能這個話題也取得了飛速的發展。人工智能是一門極具挑戰性的科學,從事這項工作的人必須了解計算機知識、心理學和哲學理念。人工智能的研究包涵廣泛的科學知識,以及其他領域的知識,如機器學習、計算機視覺等。一般來說,人工智能研究的主要目標是使機器能夠做一些通常需要人工智能完成復雜工作的機器。1.3人工智能的研發歷程。早期研究領域:人工智能專家系統,機器學習,模式識別,自然語言理解,自動定理證明,自動編程,機器人,游戲,人工神經網絡等,現在涉及以下研究領域:數據挖掘,智能決策系統,知識工程,分布式人工智能等。數據挖掘的出現使得人工智能的研究在應用領域得到廣泛的發展。以下簡要介紹其中的幾個重要部分:(1)專家系統。所謂專家系統就是控制計算的智能化程序系統,通過研發人員總結歸納了專業學科知識和日常經驗,能夠知道計算機完成某個領域內的專業性活動或者解決某些專業級別的問題。人工智能技術可以合理利用已知的經驗體系在復雜環境中,解決和處理復雜問題。(2)機器系統。機器系統簡單說就是機器人通過人造神經系統,借助于網絡或者存儲系統汲取系統的知識進行開發研究。(3)感知仿生。感知仿生系統通過模擬人類的感官,感知生物學特征,通過人工智能機器的感部件對外界外部環境進行感知,識別,判斷,分析的能力。能夠更好的適應環境,做出判斷。(4)數據重組和發掘。是指通過人工智能系統,結合當前先進的理念,對大數據的總結歸納,識別存儲,調取等應用。通過數據的加工處理,能夠主動做出判斷和分析。(5)人工智能模式。分布式人工智能是模式之一,該系統利用系統有效的規避和克服系統資源在某段時間內的局限性,并能有效地改善因資源造成的時間和空間不均衡問題。它具備,模式自動轉換,并行處理,開放啟發方式,冗余且容錯糾錯的能力。
2數據挖掘
2.1數據挖掘的定義。數據挖掘(DataMining,DM)是揭示數據中存在的模式和數據關系的學科,強調處理大型可觀察數據庫。數據挖掘的出現使得人工智能的研究在應用領域得到了廣泛的發展。這里包括數據挖掘和智能信息提取過程,前者從大量復雜的現實世界數據中挖掘出未知和有價值的模式或規則,后者是知識的比較,選擇和總結出來的原則和規則,形成一個智能系統。2.2數據挖掘的研究現狀。當前數據挖掘應用主要集中在電信、零售、農業、網絡日志、銀行、電力、生物、天體、化工、醫藥等方面。看似廣泛,實際應用還遠沒有普及。而據Gartner的報告也指出,數據挖掘會成為未來10年內重要的技術之一。而數據挖掘,也已經開始成為一門獨立的專業學科。2.3數據挖掘的研究發展。具體發展趨勢和應用方向主要有:性能方面:數據挖掘設計的數據量會更大,處理的效率會更高,結果也會更精確。工具方面:挖掘工具越來越強大,算法收斂越來越多,預測算法將吸收新穎性算法(支持向量機(SVM),粗糙集,云模型,遺傳算法等),并實現自動化的實現算法,選擇和自動調諧參數。應用:數據挖掘的應用除了應用于大型專門問題外,還將走向嵌入式,更加智能化。例如進一步研究知識發現方法,對貝葉斯定理和Boosting方法的研究和改進,以及對商業工具軟件不斷的生成和改進,著重建立整體系統來解決問題,如Weka等軟件。在先進理論的指導下,按照國內形態發展,至少需要20年的時間,才能改進數據挖掘的發展。
3數據挖掘與人工智能技術的聯系
數據挖掘屬于人工智能中獨立系統。它于人工智能的存在關系屬于,并存聯系,且獨立運行,互不從屬。此設計體系一方面可以有效促進人工智能提升學習能力,增進分析能力,另一方面還對分析,統計,OLSP,以及決策支持系統模塊等起到推動作用。在收挖掘應用領域,處理可以對WEB挖掘,還能夠有效進行文本,數據庫,知識庫,不同領域不同學科的信息進行序列矩陣模式挖掘。基于數據本身的分類,辨識,關聯規則,聚類算法更加博大精深。因此,獨立于人工智能的數據挖掘,更加便于科研團體或者領域對數據的使用和分析。數據挖掘是人工智能領域的一部分。首先,高智能是數據挖掘和人工智能的最終目標,正是由于這個目標,人工智能和數據挖掘有很多關聯。其次,數據挖掘和人工智能是各種技術的整合。數據挖掘和人工智能是許多學科的跨學科學科。最后,數據挖掘的出現逐漸發展壯大,加強了人工智能,因此可以說,它們兩者是不可分割的。
4人工智能和數據挖掘技術的發展前景
在當前環境下,人工智能和數據挖掘技術具有以下發展前景:(1)在大數據互聯網中的應用。將人工智能的技術應用于互聯網中將會使網絡技術帶上智能的特性,可以為人們的生活提供智能化的幫助,給人們的生活帶來便利。還可以提高網絡運行效率、增加網絡安全性等。(2)智能化服務的研究。人工智能和數據挖掘都很注重對智能化服務的研究,例如很多智能機器人便應運而生,它們已經能勝任許多簡單的工作,可以為人們提供人性化的服務。高度的智能化是數據挖掘和人工智能研究最終追求的目標,也是二者最終合而為一的標志。(3)使知識產生經濟化。在現階段的知識經濟時代,人工智能和數據挖掘勢必受到經濟的影響,這決定了人工智能和數據挖掘將具有經濟特征。人工智能和數據挖掘技術作為無形資產可以直接帶來經濟效益,通過交流,教育,生產和創新的無形資產將成為知識經濟時代的主要資本。可以預期未來的人工智能和數據挖掘技術將更加經濟實用。(4)交叉學科的技術融合。各行各業的理論和方法都已經開始融入了人工智能和數據挖掘之中。未來的人工智能和數據挖掘技術必將是一個融合眾多領的復合學科。當今,我們已經在逐漸使用人工智能與數據挖掘技術,去攻克更多難題,解決更多問題,造福人類,改善生活,近在眼前。
作者:喻正夫 單位:漢江師范學院
參考文獻:
[1]萬璞,王麗莎.數據挖掘與人工智能技術研究[J].無線互聯科技,2016(10):113-114.
[2]王翔.試論如何利用大數據挖掘技術推動人工智能繼續發展[J/OL].科技創新報,2017,14(01).
[3]秦益文.微博數據挖掘中人工智能推理引擎的應用[J].中小企業管理與科技(中旬刊),2017(02).
[4]蒲東齊.數據挖掘在人工智能上的應用[J].信息與電腦(理論版),2016(19).
關鍵詞:
大數據大數據分析大數據挖掘可視分析
隨著云計算、物聯網和互聯網等技術的快速發展,各種移動設備、傳感網絡、電商網站、社交網絡時時刻刻都在生成各種各樣類型的數據,大數據時代已經到來。大數據即數據體量巨大、數據類型多樣、數據的質量低、處理速度迅速的數據。大數據分析的核心是從大量數據中獲取有價值的內容,更準確、更深層次的知識,而不是對數據簡單的統計和分析。
1大數據的定義與特征
大數據已經進入了我們每個人的生活,各行各業都在討論如何發展和運用大數據,那么什么是大數據,大數據的特征是什么?大數據是指所涉及的數據規模巨大到無法通過目前主流的軟件工具在合理時間內擷取、管理、處理、挖掘這些數據,并整理成為企業經營決策有用的信息。IBM提出大數據的4V特征,得到了業界的廣泛認可。第一,數量(Volume),即數據巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數據類型繁多,不僅包括傳統的格式化數據,還包含來自互聯網的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價值性(Veracity),即追求高質量的數據。大數據具有4V特征,給人們帶來了新的機遇與挑戰。
2大數據挖掘與分析的意義
在大數據處理的過程中,數據分析是核心,因為大數據的價值全部在數據分析過程中產生。互聯網、硬件等技術迅猛發展,加深了人們對數據分析的需求。如果大數據是一種產業,賺錢的重點在于如何提高數據的分析能力,通過分析發現數據的更多潛在的價值。在大數據時代,數據分析是數據價值發現的最重要環節,也是決策的決定性元素。傳統的數據分析主要針對結構化數據,且已經形成一整套非常有效果的分析體系。但是在大數據時代,半結構化和非結構化數據量的快速增長,給傳統的分析技術帶來了巨大的挑戰和沖擊。大數據分析于傳統數據分析有哪些區別呢?
3大數據挖掘與分析的關鍵技術
大數據挖掘與分析的關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據實時處理、大數據可視化和應用等。
3.1大數據采集技術大數據采集一般分為大數據智能感知層和基礎支撐層。智能感知層重點攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。基礎支撐層重點攻克提供大數據服務平臺所需的虛擬服務器、數據庫及物聯網絡資源等處理技術。
3.2大數據預處理大數據預處理是指在大數據挖掘前期對大數據進行的一些提前處理。預處理包括數據清理、數據集成、數據變換和數據歸約等幾種方法(表1)。大數據的特點是數據量大,但并沒有增加數據價值,相反增多了數據噪音,有很多數據放在存儲器里就沒再用過。數據量的突然增加,各種媒體數據被任意碎片化。在應對處理大數據的技術挑戰中,大數據的降噪與清洗技術值得高度重視。早期主要是結構化數據的挖掘,可從數據庫中發現時序知識、關聯知識和分類知識等。在大數據時代,數據庫已經不能滿足人們的需求了。大數據中數據類型繁多,我們進入了一個非結構化數據挖掘時代。因此,非結構化數據模型是大數據預處理的重要研究方向。
3.3大數據管理大數據不斷地從復雜的應用系統中產生,并且將會以更多、更復雜、更多樣化的方式持續增長。多樣化的物聯網傳感設備不斷地感知著海量的具有不同格式的數據。物聯網系統中大數據的復雜化和格式多樣化,決定了物聯網系統中針對大數據的應用場景和服務類型的多樣化,從而要求物聯網大數據管理系統必須采用特定技術來處理各種格式的大數據,而現在針對特定數據類型和業務的系統已經無法滿足多樣化需求,因此,設計新的具有可擴展性的系統架構已經成為大數據管理的研究熱點。
3.4大數據實時處理根據大數據速度快的特點,時間越長,數據的價值也在不斷衰減,因此很多領域需要對數據進行實時處理。大數據時代,伴隨著各種應用場景的數據分析從離線轉向了在線,實時處理的需求不斷提高。大數據的實時處理面臨著一些新的挑戰,主要體現在數據處理模式和算法的選擇及改進。
3.5大數據可視分析大數據可視分析是指在大數據自動挖掘的同時,融合計算機的計算能力和人的認知能力,利用人機交互技術和可視化界面,獲得大規模復雜數據集的分析能力。在大數據時代,大數據可視化是必須盡快解決的關鍵問題,為大數據服務的研究指明了方向。
4結語
傳統數據處理方法已經不能滿足大數據挖掘與分析的需求。近年來,大數據挖掘與分析領域已經出現了很多新技術,并成為大數據采集、存儲、處理和呈現的堅實基礎。但是對大數據分析的價值尚缺少深入的理解,大數據分析中的很多重要技術還不成熟,還有很多其他關鍵技術難題需要去繼續研究。
參考文獻
[1]韓晶.大數據服務若干關鍵技術研究[D].北京郵電大學博士學位論文,2013.
[2]程學旗,靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數據可視分析綜述[J].軟件學報,2014,25(09):1909-1936.
在當前的時代背景下,很多的行業都引入了大數據挖掘的理念,這既給計算機產業帶來了發展機遇,也帶來了挑戰。因為想要做好大數據挖掘的相關工作,就一定要掌握數據分類算法,而數據分類算法可稱得上是數據挖掘中的一道難關。隨著數據分析的研究不斷深入,人們開發了多種多樣的分類算法,用以不斷減輕其難度。通常都是以數據分類器為基準,進行相應的數據分類,包括決策樹類、Bayes類、基于關聯規則類以及利用數據庫技術類,本文將對它們進行簡單的闡述。
1 決策樹分類算法
1.1 傳統算法
C4.5算法作為傳統的數據分類算法,有著很明顯的優點,如規則簡單易懂,實際操作易于上手。但是隨著計算機的不斷普及,數據的規模變的越來越龐大,其復雜程度也是日漸增長。C4.5已經逐漸無法滿足新時期的數據分類處理工作了。并且由于決策樹分類算法的規則,決定了在數據分類的過程中,要對數據進行多次重復的掃描和排序。特別是在構造樹的時候,這種缺點更加明顯。這不僅會影響數據分析的速度,也浪費了更多的系統資源。對于大數據挖掘來說,C4.5更加無法勝任,因為C4.5算法的適用范圍十分有限,只能夠處理小于系統內存數量的數據,對于內存無法保留的過于龐大的數據集,C4.5甚至會出現無法運行的情況。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來,在其基礎上做了一些技術性的完善,例如增強了數據的排序技術,并采取了廣度優先的處理策略。這使得SLIQ算法能夠很好地記錄數據處理的個數,并具有相當優秀的可擴展性,為處理大數據提供了基礎條件。但是SLIQ算法也存在一些缺點,由于它是以C4.5算法為基礎的,因此在進行數據處理時,仍需要將數據集保留在內存中,這就導致SLIQ算法的可處理數據集的大小受到了限制。即數據記錄的長度一旦超過了排序的預定長度,SLIQ算法就很難完成數據處理和排序的工作。
(2)SPRINT 算法是為了解決SLIQ算法中數據集大小受到內存限制的問題而開發出來的。SPRINT 算法重新定義了決策樹算法的數據分析結構,改變了傳統算法將數據集停留在內存中的做法。值得一提的是,它沒有像SLIQ 算法那樣講數據列表存儲在內存當中,而是將其融合到了每個數據集的屬性列表中,這樣既避免了數據查詢時重復掃描造成的速度緩慢,又釋放了內存的壓力。特別是在進行大數據挖掘時,由于數據的基數過大,在每個數據集的屬性列表內尋找所需數據能夠大大節省分析的時間,對數據進行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點,對于不具有可分裂屬性的數據列表,由于它只能在數據集內進行分析,結果可能不是十分準確,導致其拓展性受到了限制。
2 其他分類算法
2.1 Bayes分類算法
Bayes分類算法是利用概率統計學而開發出來的一種算法,在目前數據分類中應用比較廣泛。但是其缺點也比較明顯,由于Bayes分類算法需要在分析之前對數據的特性做出一定的假設,而這種假設往往缺少實際數據的理論支持,因此在數據分析過程中就很難做到準確有效。在此之上,TAN算法又被開發出來,它是為了提高Bayes分類算法的假設命題的準確率,也就是降低了NB任意屬性之間獨立的假設。
2.2 CBA分類數據算法
基于關聯規則的分類算法就是CBA分類數據算法。這種算法一般需要用到數據構造分類器,在數據分析的過程中,先搜索到所有的右部為類別的類別關聯規則,這被稱為CAR;然后再從CAR中選擇合適的數據集。CBA算法中主要用到的是Apriori算法技術,它能夠使潛在的數據關聯規則呈現到表面,方便進行歸納整理。但是由于其在進行數據分類時容易出現疏漏,因此經常采用設置最小支持度為0的辦法來減少遺漏的數據,這就造成了算法的優化作用不能完全發揮,降低了運行效率。
2.3 MIND和GAC-RDB算法分類算法
在大數據挖掘的背景下,未來數據分類算法的發展方向應當是以數據庫技術為基礎的的分類算法。盡管很久之前就已經有一些專門研究數據庫的人員發現并提出了基于數據庫技術的分類算法,但是并沒有得到實際運用。因為在進行數據挖掘和數據分析的時候,很難將其與數據庫的系統集成,目前來說,MIND和GAC-RDB算法還能夠較好地解決這個問題。
2.3.1 MIND算法
MIND算法與決策樹算法有些相似,都是通過構造數據分類器來進行數據分析。但是MIND算法采用了UDF方法和SQL語句來與數據庫系統實現關聯。在進行數據分析時,UDF方法能夠大大縮短對每個節點的數據特性進行分析的時間,這樣就在為數據庫的集成提供了理論基礎。SQL語句是通過對數據集的屬性進行分析,以便從中選擇出最合適的分裂屬性,然后給數據排序,這樣就節省了數據分類的時間。但是MIND算法還不能直接在數據庫系統中實現查詢功能,更重要的是,該算法的維護成本過高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基礎上進行了更多的改進,能夠充分利用數據庫系統進行聚集運算,也就是實現了數據庫系統的集成。該算法擁有分類準確,分析迅速,執行更快的優點,同時可拓展性也比較出色。更重要的是,它可以充分利用數據庫提供的查詢功能,從而避免了重復掃描數據集的現象,縮短了分析的時間,節約了系統資源。只要在自動確定參數取值的技術上進行一些改進,該算法就能很好地勝任大數據挖掘的數據處理工作。
3 總結
大數據挖掘是時展的潮流,因此數據分類算法的重要性也將隨著顯現。通過分析幾種不同的算法,能夠在數據分析速度、可擴展性和結果的準確性上進行比較,從而選擇最適合的數據分類算法。它們都在不同程度上有著各自的優缺點,因此要繼續深入研究以開發出更好的分類算法。
參考文獻
[1]錢雙艷.關于數據挖掘中的數據分類算法的綜述,2014(13).
要讓數據電子化,首先要搭建適用的網絡平臺,網絡平臺的搭建分為2個過程。如果需要收集數據,則需要搭建一個面向對象的網絡平臺。在對大學生社會體系和人際關系的研究中,采用的是在WEB上自動收集量表數據,首先將量表轉換為匯編語言編寫的網頁,再采用將量表轉換后的電子版網頁與數據庫中的表相連接,這樣,只要被試登錄指定網站,就可以在網上完成量表的填寫,數據則直接存入數據庫中。數據庫管理系統使用的是SQLServer2000,在網絡成癮和注意關系偏向的研究中,也采用了同樣的方法。如果對現有的數據進行分析,則可以略過數據收集這個步驟,直接將數據輸入數據處理軟件中。在對于青少年同伴關系的研究中,創建了一個數據倉庫來存放現有數據,選用SQLServer2000作為數據倉庫的構建平臺。由于青少年同伴關系的研究中的維度不是太多,維度層次也不復雜,出于對查詢效率和使用者是否容易理解的角度考慮,決定使用星型結構來創建數據倉庫,青少年同伴關系研究的星型結構。最后一種方法是直接將數據輸入SPSS中,這種方法這樣需要大量人力物力,而且效率難以提高,存在誤錄的可能。
1.2數據挖掘分析
將數據轉換為需要的電子文本格式以后,進行簡單的數據處理。在剔除了部分缺失或者明顯錯誤的數據后,就可以進行數據挖掘工作了。數據挖掘的常用算法為關聯規則挖掘、決策樹算法和聚類挖掘算法。在此選用關聯規則挖掘算法做詳細說明,在大學生社會網絡和人際關系研究中,選取被試人際關系滿意度為例進行關聯規則挖掘。表1被試人際關系滿意度關聯規則挖掘關聯規則挖掘的步驟如下:
①選擇數據根據關聯規則挖掘的目標,選擇如上表所示的屬性,通過下面的sql語句選擇數據,并將jibenxinxi表和zongjie表通過學號連接起來。select性別,是否獨生子女,你對自己的人際關系滿意嗎,你對自己與父母的關系滿意嗎,你對自己與同伴的關系滿意嗎,你對自己與老師的關系滿意嗎,你認為比較了解你的人會對你的人際關系給出一個怎樣的評價,你對自己人際關系的關注程度fromjibenxinxia,zongjiebwherea.學號=b.學號;
②保存選擇的數據:首先將第一步選擇的數據插入到一張表中,sql語句如下:insertintoguanlianguize1select性別,是否獨生子女,你對自己的人際關系滿意嗎,你對自己與父母的關系滿意嗎,你對自己與同伴的關系滿意嗎,你對自己與老師的關系滿意嗎,你認為比較了解你的人會對你的人際關系給出一個怎樣的評價,你對自己人際關系的關注程度fromjibenxinxia,zongjiebwherea.學號=b.學號;
③構造滿足關聯規則挖掘的事務數據庫在guanlianguize1表中增加一個屬性item,通過下面的sql語句給item賦值。注意各屬性的數據挖掘映射代碼如上表所示。新建表social_guanlian_1作為數據挖掘的事務數據庫,導入item。Insertintosocial_guanlian_1(item)selectitemfromguanlianguize1以上關聯規則挖掘的結果,結果表明:對自己圖人際關系評價較高的大學生,同時對自己人際關系的滿意度也較高。對自己人際關系評價較低的大學生,同時對自己人際關系的滿意度也較低。對人際關系關注程度較低的同學,人際關系滿意度也較低。這些數據之間是互相有關聯的,因此呼吁大學生多關注人際關系和人際交往的法則,有利于他們及早的認識到自己在人際交往方面的不足,為以后步入社會,創造更大的社會價值打好基礎。除此以外,對于教育學中的很多課題,例如青少年同伴關系的研究,網絡成癮與注意偏向關系的研究,學生成績的分析等等都可以用數據挖掘來進行科學的數據分析,數據挖掘技術在教育學領域正發揮著越來越大的作用。
1.1.1將文本對比作為基礎的方式采用計算機軟件系統中的對比程序代碼中所包含的語句行展開進一步的判斷過程,這種方法在進行后期的改進過程中針對的是對字符串的匹配效率進行提升,提升的辦法有很多,最為主要的就是通過Hash函數技術進行匹配效率優化,在這個過程中最為常用的工具為Duploc。
1.1.2將標識符對比作為基礎的方式將標識符對比作為基礎的方式,最具代表性的方式是對由分詞所組成的標識符序列構造前綴樹,并將其作為依據然后進行對比,將標識符對比作為基礎的方式的工具主要有CCFinder、Dup等[3]。
1.2計算機軟件數據檢索挖掘數據檢索挖掘與克隆代碼一樣,同樣是計算機軟件工程中最為原始的數據挖掘需求之一,對于計算機軟件數據檢索挖掘來說其主要分為以下三步:第一步,為數據信息的錄入。所謂的數據信息錄入實際上指的是對于要檢索的信息進行錄入的過程,針對使用者的需求將使用者所需要的數據信息輸入到檢索信息錄入框中進行數據的查找。第二步,為數據信息的查找過程。當客戶所需要的信息進入到數據檢索錄入框中時,進行確認后數據挖掘系統將會根據數據信息中所涵蓋的數據信息內容進行數據庫中的查找,并且根據不同的分類,對查找信息的數據信息資料進行羅列[4]。第三步,為數據信息資料內容的導出和查看,在查找到相關的客戶需要數據內容時,客戶可以根據自己本身的實際需要,進行數據信息的導出或者是在線查看,在數據信息資料導出后,需要應用相關的數據信息查看軟件進行查看。并且客戶在導出數據信息時,會在中形成一定的歷史記錄,對客戶及時查找的數據信息進行記錄與保存,當客戶想要再次進行查找時能夠更為方便與快捷的找到其所需要的數據信息內容。
0 引言
網絡輿情作為一種十分重要的輿情表現形式,是公眾在互聯網上對某種社會現象或社會問題公開表達的具有一定影響力和傾向性的共同意見。要加強對網絡輿情信息的分析,及時發現輿情熱點,及時對民意走勢做出正確引導。在此情況下,我們引入Web數據挖掘技術來提高對輿情的處理和分析的效率以及質量,實現網絡輿情的分析。
1 Web挖掘
Web挖掘是數據挖掘在Web上的應用,它是一種綜合使用自然語言處理、數據挖掘、人工智能、機器學習等技術的智能分析方法。根據挖掘對象的不同,Web挖掘可以分為Web內容挖掘、Web結構挖掘和Web使用挖掘三個方面。相比于傳統的網絡輿情分析方法,Web挖掘可以用更短的時間了解網絡輿情的狀況和走向以及與之相關聯的熱點問題,為網絡輿情的深入分析提供了技術支持。
1.1Web內容挖掘。Web內容挖掘是指從Web文檔的內容或者Web搜索的結果中獲取知識的過程。由于網頁的內容錯綜復雜不易于計算機理解,Web內容挖掘可以有效的對大量的Web文本集合進行總結、分類、聚類、關聯分析,以及利用Web文本進行趨勢預測。在網絡輿情分析中,Web內容挖掘可以發現與事件主題相關的知識內容和語義關聯模式。
1.2Web結構挖掘。Web結構挖掘是指對Web組織結構、Web頁面的鏈接關系等進行挖掘并從中提取出潛在的有用的知識的過程。Web鏈接信息包括了大量的關于Web內容相關性、質量和結構方面的信息,為網絡輿情的分析的提供了重要資源。通過Web結構挖掘,可以獲得與輿情主題高度相關的鏈接以及鏈接邏輯結構的語義知識,從而幫助輿情分析人員確定重要輿情源和中心頁面,有助于深入挖掘輿情信息。
1.3Web使用挖掘。Web使用挖掘是指通過挖掘Web服務器上的日志信息來提取瀏覽者的訪問記錄,獲取有價值的信息的過程。這些信息包括網絡服務器訪問記錄、服務器日志記錄、瀏覽器日志記錄、用戶信息、注冊記錄、用戶對話或交易信息、用戶提問等。通過上述信息可以發現用戶的訪問模式以及行為偏好,可以更好地理解用戶行為從而提供智能化的服務。通過Web使用挖掘,可以確定輿情熱點和焦點,從而更準確地預測網民行為。
2 基于Web數據挖掘的網絡輿情分析
2.1數據層。輿情信息采集的主要任務是提取與熱點相關度高的信息,為下面的輿情挖掘和分析做好準備工作。輿情信息采集由以下5步完成。
(1)確定主題和選擇采集地點。為了使采集效果更好,必須以主題的形式對信息需求進行描述。
(2)利用自動采集軟件采集數據。數據采集軟件可以自動采集相關信息,并下載到本地進行分析。
(3)頁面分析。采集完頁面之后,對頁面進行分析,提取重要信息,以便進行后續的過濾和處理。
(4)URL與主題的相關性判斷。在采集過程中增加過濾機制以便提高采集數據的質量。
(5)頁面過濾。對采集頁面進行主題相關性評價,去除相關性低的頁面,從而提高采集頁面的準確性。
2.2 挖掘層。挖掘層主要由語義信息集成和Web挖掘引擎兩部分組成,而且語義信息集成為Web挖掘引擎提供經預處理后的結構化信息,簡化并加速 了Web挖掘處理。
(1)語義信息集成。由于數據層的數據來自于不同的媒介,因而在結構和語義上都存在很多的不同,需要對其進行統一處理,并根據需要利用智能信息處理技術進行深入的預分析,從而提高挖掘引擎的效能和健壯性。
(2)Web挖掘引擎。Web挖掘引擎是網絡輿情分析的動力部分,執行Web挖掘任務。它定義了Web挖掘模型語言,選取了合適的挖掘算法和工具。其主要目的是從大量的網絡輿情信息中提取規律,并預測事件的發展趨勢。可根據網絡輿情信息源的特點,從多個方面更加深入的進行挖掘處理。
2.3分析層。分析層是核心部分,其主要技術應用于對網絡輿情信息的智能分析,該分析從六個層面進行,分別是:主體類聚分析、語義關聯分析、概念描述、趨勢預測分析、主題識別探測和傾向性分析。其功能主要是將經過挖掘處理后的知識進行描述,并生成網絡輿情分析報告來輔助決策機構。
2.4應用層。應用層的出現首先方便了與用戶之間的交互。用戶可以通過軟件來指導網絡輿情信息的采集、挖掘和分析處理,從而發現隱藏的規律和發展趨勢,同時也更易于輿情信息的理解和分析結果的應用。其次,為后續工作提供接口。由于計算機不能對隨機出現的各種警情進行判斷,因此需要提供系統交互接口,可以讓專家進行分析,實現人機互動,從而提高輿情分析的準確性。
3 基于Web挖掘的網絡輿情分析系統實例分析
本文以方正智思輿情預警輔助決策支持系統為例,討論Web挖掘技術在網絡輿情分析中的應用。正智思輿情預警輔助決策支持系統是一款由北大方正技術研究院研發而成的中文智能信息挖掘與處理的平臺軟件。其核心技術為中文信息處理技術與Web挖掘技術,采用B/S結構,利用J2EE技術框架,實現基于瀏覽器的瘦客戶、服務器模式。它不僅能對輿情信息進行全方位采集,還能對輿情信息進行智能分析處理。其實時響應、智能分析、輔助傾向性判斷等特點為相關職能部門全面掌握網絡輿論動態,作出正確引導,提供分析依據,從而提高各級政府應對突發事件的能力。
4 結語
Web挖掘是一種綜合使用自然語言處理、數據挖掘、人工智能、機器學習等技術的智能分析方法。實踐表明,將Web挖掘融入網絡輿情分析中,可以充分發揮Web挖掘技術從海量信息中發現隱藏的規律,實現對網絡輿情信息全方面深入的分析,從而輔助相關職能部門正確引導民意。在網絡輿情中應用Web挖掘技術,可以有效地提高網絡輿情分析結果的正確性,也是其未來的發展方向。
參考文獻:
[1]付業勤,鄭向敏. 國內外網絡輿情研究的回顧與展望[J]. 編輯之友,2013,12:56-58.
中圖分類號:TP311.13
隨著因特網的發展,數據信息來源種類逐漸增多,相應的信息復雜性也在增加,傳統的數據存儲和處理方式已經不能很好的滿足實際使用與研究的需求,XML作為一種半結構化數據標準,已經開始被越來越廣泛的應用,而對于此類結構化數據的挖掘也為我們的日常研究提供了一個方向。
對于半結構化數據源的挖掘不同于傳統的數據挖掘。傳統的數據庫中的數據類型工整,數據結構性很強,為完全的結構化數據,因此對于此類數據處理較為簡單,只需要按照其規律進行分析即可。而對于半結構化的數據則因其表現形式的多樣性,所以對其挖掘要比對于單個數據倉庫的數據挖掘要復雜。
1半結構化數據
半結構化數據有兩種,一種是指該數據在物理層面上缺少結構,另外一種是指該數據在邏輯層上缺少結構。在現有的Web環境中,有一些結構化的數據,為了用于網頁頁面顯示而采用了與HTML語言標記符號嵌套的方式,因此就構成了第一種物理上的半結構化數據。另外網絡中有眾多的Web頁面,頁面上有著豐富的數據內容,這些數據大多都以HTML文件的方式存在,并沒有嚴格的結構和類型定義,這樣的數據都屬于第二類的邏輯層的半結構化數據。網絡頁面上的數據與傳統數據庫中存儲的數據不同,傳統數據庫內的數據都有一定的數據模型,每個特定的數據都可以根據模型來進行描述,而網絡頁面上的數據很復雜,并且不能按照特定的模型進行描述,每一個站點的數據都遵循其獨立的設計規則,并且它的數據本身具有自我描述的特性和動態的可變性。因此網絡頁面上的數據具有一定的結構性,但是其因為具有自述層次的存在,因此屬于一種非完全結構化的數據,也稱為半結構化數據。
2半結構化數據的來源
(1)在Internet上因為對所存儲的數據沒有嚴格模式的限制而產生的半機構化數據,常見的有HTML、XML、SGML等類型的文件。
(2)在電子郵件、電子商務文件、文獻資料等文件中,由于沒有嚴格的格式要求,所以存在著大量結構與內容不固定的半結構化數據。
(3)在包含有異構信息源集成的情況下,由于信息源集成范圍廣泛,對于信息源的存取范圍包括各類數據庫、電子圖書館、知識庫和文件系統等,因此也會產生半結構化數據。
3半結構化數據的幾個特點
(1)包含有隱藏的模式信息。雖然說半結構化數據具有一定的結構,但是由于數據和結構混合在一起,所以并沒有明顯的模式定義。
(2)結構不規則。半結構化數據的一個數據集合可以由不同結構的元素組成,或者在某些情況下使用不同類型的數據來表示相同的信息。
(3)類型約束不嚴格。半結構化數據由于沒有預先確定的表達模式,并且數據在結構上沒有遵循相同的規則,因此會導致其缺乏對于數據的嚴格約束。
基于以上幾個半結構化數據模型的特點可以看出半結構化數據缺乏嚴格、完整的數據結構,但是這類數據并非沒有結構,但是它們的結構可能是隱藏的、并不完整的,并且可能是需要不斷進行修改的。
半結構化數據的模式與以往的關系數據模式或者面向對象的數據模式最大的區別在于半結構化數據是現有數據然后再有模式。不對數據的結構進行強制性的約束,只需要描述出數據的結構信息,并且它只描述數據部分結構的非精確模式,在應用中隨著數據對象的不斷更新而動態修改其描述,據此分析半結構化數據的數據特點和它所產生的原因,半結構化數據源的挖掘是能夠實現的。
半結構化數據源挖掘技術首先要解決的是數據遠模型及其查詢與集成的問題。要解決網頁頁面上的異構數據的集成與查詢,就必須要有一個適當的模型來對這些數據進行清晰的描述,因此如何創建這個半結構化的數據模型就成為了解決問題的關鍵所在。首先我們需要定義一個半結構化數據模型,其次我們還需要一種適用于此模型的半結構化模型挖掘技術用來的從現有的數據中自動挖掘半結構化模型。對于網頁頁面數據的挖掘就必須以此半結構化數據模型和半結構化數據模型挖掘技術為手段來建立相應的數據庫。
在針對多數據源的數據庫進行半結構化數據提取、表示和查詢的處理一般采用包裝的方式來進行。首先把信息源的數據通過包裝轉換成為目標數據庫所使用的格式和類型。同時處理過程中負責監視的部分將自動監測信息中的數據變化,如果發現數據有變化則將這些變化上報,這些變化經過分析發現有新的數據源連接倉庫系統或者信息源發生變化時,那么系統就會把這些有變化的數據進行過濾、匯總,并把這些信息源進行匯總處理,并將收集到數據庫中。
此系統對半結構化數據進行處理的過程中所面臨的主要問題就是如何將其轉化為更易于處理的結構化信息。但是對這些半結構化數據進行轉換的目標是龐大的網頁頁面數據源,如果依靠人工手段針對每個數據源編寫相應的轉換方式的話工作量非常代價。因此,我們需要一種能夠快速建造并且直至自動維護的轉換工具。目前這類工具還不是很多,并且使用上并不十分完善。但是,隨著近年來XML及其應用技術的發展為處理半結構化數據提供了很好的工具和方法。
4XML有如下幾個特點
(1)XML語法具有嚴格的標記規定;
(2)XML對于各元素之間的順序有著嚴格的先后順序,是按照相應的解釋模式來排列的;
(3)XML中的元素可以包含有多個屬性值。基于以上幾個特點,如今XML已經成為正式規范,開發人員已經開始使用XML格式的標記和交換數據。XML在網頁數據挖掘中可以用于建立信息源層的數據集成,即構建數據倉庫),也可以用于將信息處理結果以XML的形勢發往數據倉庫,也可以基于數據倉庫將數據進行挖掘和分析處理,還可以將半結構化數據挖掘處理的結果送往應用層。
基于XML的網頁頁面信息提取一般包括頁面捕獲、頁面預處理和半結構化數據提取等方面。其中頁面捕獲有多種方法,一種是直接利用OCX控件,根據提供的入口參數URL來獲取頁面超文本內容;另外一種是利用開發工具所提供的支持網頁文本獲取的功能接口來獲取。
XML為基于Web的應用提供了強大的功能和廣泛的靈活性,它能為開發者帶來更多的好處,例如Web數據可以按照XML的格式進行唯一性的表示,因此可以進行更有意義的搜索。有了XML之后,搜索軟件可以不必了解每個數據庫都是如何構建的。在使用XML之前由于每個數據庫描述數據的格式幾乎都不相同并且數據來源廣泛,所以針對不同來源數據進行搜索幾乎是不可能的。但是XML語言能夠將不同來源的半結構化數據進行結合,相關應用集成上可以使用中間層服務器對采集上來的半結構化數據進行挖掘,然后將處理后的數據發送到最終用戶或者其他服務器做進一步的處理。
XML的豐富擴展性和靈活性使它能夠描述不同類型應用中的數據,并且XML文檔因為是對象模式,因此它允許使用腳本或者其它程語言進行數據處理,數據計算不需要返回到服務器就可以操作。在Web中XML可以被用來分離使用者瀏覽的數據頁面,可以用簡單靈活和開放的格式為Web創建功能強大的云應用,通過創建高效的云計算平臺來為用戶服務,而以前此類軟件只能依靠高端數據庫來構建。
5結束語
XML作為一種結構化數據的工作也標準,為廣大組織、開發者、網站和終端使用者提供了有利的條件,隨著XML作為WEB上進行數據交換的一種標準方式的逐步發展,基于XML的半結構化數據挖掘將會變得越來越輕松。
參考文獻:
[1]李效東,顧毓清.基于DOM的Web信息提取[J].計算機學報,2002(5):526-533.
中圖分類號: TN711?34; TP393.08 文獻標識碼: A 文章編號: 1004?373X(2017)12?0059?04
Abstract: Various softwares and equipments in large?scale computer networks have security holes, which lead to the previously?proposed abnormal data mining methods in large?scale computer networks can′t make reasonable mining. Therefore, a new abnormal data mining method in large?scale computer network is put forward. The method can mine the abnormal data in large?scale computer network by data washing, data format conversion and pattern mining operation. The data mining system designed with the proposed method is composed of data mining processor, analysis module and database. The database provides the processing and mining schemes for data mining processor and analysis module. The data mining processor is used to monitor the abnormal situation in large?scale computer network in real time, and carry out data processing. The analysis module is used to analyze the processed data by means of "secondary activation" mode, and dig up the abnormal data. The experimental results show that the proposed method has good convergence, and the system designed with the method has strong scalability.
Keywords: large?scale computer network; abnormal data; data mining technology; reasonable mining
0 引 言
隨著電子信息技術的普及和不斷發展,大型計算機網絡隨之產生,越來越多的網民能夠更為便捷地享受各種信息資源,現如今,網絡已成為人們生活中不可缺少的一部分。大型計算機網絡在為人們提供便利的同時,也造成了一定的困擾,網絡入侵事件時有發生[1]。若想有效維護大型計算機網絡安全,需要將其中的非正常數據準確、高效地挖掘出來,相關組織已開始著手進行大型計算機網絡中非正常數據挖掘技術的研究工作[2]。
1 非正常數據挖掘技術
數據挖掘技術是指依據特定任務,將重要的隱含知識從具有一定干擾存在下的隨機數據集群中提煉出來[3]。數據挖掘技術是一項交匯科目,經其挖掘出來的數據具有一定的輔助決策作用。將這種技術用于進行大型計算機網絡非正常數據的挖掘工作中,能夠自動控制大量初始數據,為用戶提供更多的便利[4]。
所提大型計算機網絡中非正常數據挖掘方法的挖掘流程如圖1所示。
由圖1可知,所提方法先對大型計算機網絡中的初始數據集群進行統一處理,處理過程包括數據洗滌和格式變換。數據洗滌的目的是將初始數據集群中的噪音、重疊參數和缺失重要特征的數據除去,再經由格式變換,使洗滌后的數據集群特征更加明顯,提高對非正常數據的挖掘準確性。
當數據處理完畢,所提方法隨即開始進行模式挖掘。所謂模式挖掘,是指通過對比分析方式獲取大型計算機網絡中數據之間共有特征的過程,所獲取到的共有特征即為數據挖掘技術中的“知識”[5]。
將模式挖掘定義成向的映射,和均是大型計算機網絡中初始數據集群的一部分,并且,。在中隨機定義一個數據集群,此時可以將和在中出現的幾率設為向映射的知識,用表示,則有:
設置和的取值范圍可使所提大型計算機網絡中非正常稻萃誥蚍椒具有收斂性。若無特殊規定,可將二者的取值范圍均設置在0~100%之間。如果用戶需要對某一特定的非正常數據進行精準挖掘,也可隨時變更取值范圍。
取值范圍設定成功后,本文將式(1)和式(2)中的重疊部分輸出,用來表示大型計算機網絡中非正常數據的挖掘結果。
2 非正常數據挖掘系統設計
2.1 系統總體設計
現使用所提大型計算機網絡中非正常數據挖掘方法設計數據挖掘系統,以實現對大型計算機網絡安全的有效維護。
所設計的系統由數據挖掘器、分析模塊和數據庫組成,如圖2所示。數據挖掘器被安放在大型計算機網絡的特定節點上,用來實時監控網絡工作的非正常情況,并進行數據處理。分析模塊負責對數據挖掘器處理過的數據進行分析,進而挖掘出大型計算機網絡中的非正常數據。數據庫為數據挖掘器和分析模塊提供數據的處理和挖掘方案。
2.2 系統具體設計
在所設計的大型計算機網絡非正常數據挖掘系統中,數據挖掘器可看作是大型計算機網絡初始數據集群的接收端,用于獲取數據挖掘技術中的“知識”,其工作流程如圖3所示。
由圖3可知,在數據挖掘器開始工作前,數據庫會事先根據大型計算機網絡初始數據集群的特征制定數據挖掘器的具體挖掘方案,并對其實施驅動。數據挖掘器根據挖掘方案對數據進行洗滌和格式轉換等處理。處理結果將被存儲。
值得一提的是,數據挖掘器具有自檢功能,如果處理結果不符合用戶所設定的置信度,那么該結果將會被保留到數據挖掘器的緩存器中。一旦緩存器中有新鮮數據進入,數據庫便會重新驅動數據挖掘器,直至處理結果成功通過自檢。隨后,所設計大型計算機網絡中非正常數據挖掘系統的分析模塊將對數據挖掘器的處理結果進行分析。為了增強系統的可擴展性,應充分利用系統計算節點的性能,并縮減節點失效率,為此,給分析模塊設計出一種“二次激活”方式[6],以延長系統計算節點的使用壽命,如圖4所示。二次激活是指當系統計算節點出現疲勞狀態時,分析模塊將自動放出替補節點,使疲勞節點擁有足夠的時間去休整。休整后的計算節點將替換下替補節點,繼續進行數據挖掘工作。
在分析模塊中,每個計算節點均有多個替補節點,如果節點即將失效并且未能尋找到下一個合適的計算節點,將采取替補節點與性能相似節點同時工作的分析方式,以保證所設計大型計算機網絡中非正常數據挖掘系統的可擴展性,并使挖掘結果更加準確。
3 實驗驗證
3.1 方法收斂性驗證
在大型計算機網絡中,只有具有較好收斂性的非正常數據挖掘方法才能有效保證挖掘結果的準確性。為了驗證本文所提方法收斂性的優劣,需要進行一次實驗。本次實驗在某大型計算機網絡實驗室中進行。用于進行數據挖掘的主機配置為:3 GB內存、四核i7處理器、500 GB硬盤。實驗中,于主機寫入本文方法,并向大型計算機網絡中加入兩種類型的大數據集群,兩集群中的數據節點[7?8]分別為4萬個和80萬個。當數據節點中的數據不出現波動時,表示本文方法已進入收斂狀態,此時主機便不會再向下一節點傳遞數據。實驗結果如圖5所示。
從圖5可明確看出,本文方法具有收斂性,并且大數據集群中的數據節點越多,方法的收斂時間就越短。在兩種大數據集群中,本文方法的收斂時間分別為1.2 s和4.3 s。據統計,其他方法的收斂時間大多在10.8 s左右,這顯示出本文方法具有較好的收斂性。
3.2 系統可擴展性驗證
為了驗證經本文方法設計出的數據挖掘系統是否能夠合理應對大型計算機網絡中非正常數據的更新,需要對本文系統的可擴展性進行驗證。實驗選出的對比系統有基于Hadoop的數據挖掘系統和基于并行圖算法的數據挖掘系統。
在第3.1節實驗的基礎上,只保留大數據集群2,并分別以橫向和縱向方式向集群的數據節點中隨機寫入30 000個非正常數據。使用三種系統對大型計算機網絡中的非正常數據進行挖掘,所得實驗結果如圖6~圖8所示。
由圖6~圖8可知,三個系統在縱向寫入下的可擴展性均低于橫向寫入。與其他兩個系統相比,本文系統參與進行非正常數據挖掘的節點數量更多,并且節點失效率最少,證明使用本文方法設計出的數據挖掘系統具有較強的可擴展性。
4 結 論
本文提出一種新型的大型計算機網絡中非正常數據挖掘方法,并使用該方法設計數據挖掘系統。數據挖掘技術是指依據特定任務,將重要的隱含知識從具有一定干擾存在下的隨機數據集群中挖掘出來。將數據挖掘技術用于進行大型計算機網絡非正常數據挖掘工作中,能夠對大量數據進行自動控制,為用戶提供更多便利。實驗結果表明,本文方法具有較好的收斂性,使用本文方法設計出的數據挖掘系統也具有較強的可擴展性,可將大型計算機網絡中的非正常數據準確、高效地挖掘出來。
參考文獻
[1] 吳嘉瑞,唐仕歡,郭位先,等.基于稻萃誥虻拿老中醫經驗傳承研究述評[J].中國中藥雜志,2014,39(4):614?617.
[2] 李善青,趙輝,宋立榮.基于大數據挖掘的科技項目模型研究[J].圖書館論壇,2014,34(2):78?83.
[3] 丁騁騁,邱瑾.性別與信用:非法集資主角的微觀個體特征―基于網絡數據挖掘的分析[J].財貿經濟,2016,37(3):78?94.
[4] 楊丹丹.搜索引擎及網絡數據挖掘相關技術研究[J].數字化用戶,2014,20(11):126.
[5] 王元卓,賈巖濤,劉大偉,等.基于開放網絡知識的信息檢索與數據挖掘[J].計算機研究與發展,2015,52(2):456?474.
中圖分類號:TP391
文獻標識碼:A
文章編號:16727800(2017)004018503
0引言
充分利用企I信息系統集成中所產生的生產業務信息數據成為企業的關鍵技術,數據挖掘技術則是企業系統中使用的技術之一。數據挖掘指對數據庫中的海量數據進行過程復雜的數據分析,從而獲得其中隱含信息的過程。根據用戶需求,選擇比較切合的數據挖掘算法,成為挖掘技術成功的關鍵。通過研究各種數據挖掘算法,筆者在眾多算法中選擇了K均值算法作為本文數據挖掘的基礎算法。
1K均值算法概述
1.1K均值算法概念
聚類問題是將給定的數據集合D劃分成一組聚類:{C1,C2,…},Ci∈D,使不同種類中的數據盡可能不相似(或距離較遠),同一種類中的數據盡可能相似(或距離較近)。聚類是一種無監督的學習,所謂無監督學習指事先并不知道要找的內容,即沒有目標變量,它將相似的對象歸到同一個簇中[13]。K均值(Kmeans)算法在聚類算法中使用最為廣泛。首先根據分類的個數k,隨機地選取k個初始的聚類中心,當然這個k值是難以確定的,并把每個對象分配給離它最近的中心,分別得到起始的聚類點。然后,將當前每個聚類的中心作為新的聚類中心,并把每個對象重新分配到最近的中心。不斷地循環迭代,直到目標函數的最小值,即最終的聚類中心點沒有移動。其中,目標函數通常采用平方誤差準則,即:其中,E表示所有聚類對象的平方誤差和,S是聚類對象,Mi是類Ci的各聚類對象的平均值,即:
其中,|Ci|表示類Ci的聚類對象數目。每一次迭代時,每一個點都要計算一遍它和各聚類中心的距離,并取最短距離的類作為該點所屬的類。直到E獲取最小值,最終表現為最后的聚類中心無法移動。一般k的典型取值為2~10。
1.2K均值算法計算模型
假設在一片小區域中有若干數據點,如圖1所示。先假設k=2,即最終這些數據點會聚類成兩個類。K均值算法具體解釋如下: (1)由于k=2,任意的兩個數據點被選作初始類的聚類中心(圖中用點F、G表示),如圖1(a)所示。 (2)將其余的各個點分配到距離最近的聚類中心點(本例中為F點、G點)所代表的類中,即求圖中所有點到各個聚類中心的距離。如果Si距離Ci近, 則Si屬于Ci聚類。如圖1(b)所示,A、B點與F點的距離相對G點更近,所以屬于F點聚類,C、D、E點與G點相對F點距離更近,所以屬于G點聚類。 (3)將聚類中心點F點、G點移動到“自己”的聚類中心,如圖1(c)、圖1(d)所示。 (4)重復步驟(2)、(3),直到每個類中的聚類對象(如圖1(e)中的點)不再重新分布為止,第一個點聚合了A、B、C,第二個點聚合了D、E,此時重復循環的迭代過程結束。
2.1系統概述
通過對K均值算法的介紹及其算法處理模型,筆者結合某制造型企業的信息化系統平臺用戶實際需求建立數據倉庫,在數據倉庫的基礎上使用數據挖掘中的K均值算法對大量數據進行潛在信息的挖掘,并開發出基于K均值算法的挖掘器,輔助決策者進行決策。假如數據庫中的數據關于產品信息生成了k個聚類中心,即k個中心點point,將其余的各個點分配到距離最近的聚類中心點所代表的類中,距離為distance,并獲取距聚類中心距離最小的距離min2,將該元素歸類于距離聚類中心點最近的那個聚類中,核心代碼如下:
private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //將聚類中心點移動到自己的聚類中心,求兩點誤差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求兩點誤差平方”的方法,計算誤差平方和準則 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //設置新的聚類中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //對第2、3步進行重復迭代,直至得到算法最終結果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }
2.2零部件市場需求分析
在銷售系統“零部件市場需求分析”模塊,主要針對銷售信息以及產品信息所建立的數據倉庫中的信息進行數據挖掘。合同中記載了所銷售的產品圖號、數量、客戶相關信息等,同時根據產品圖號可以得到產品BOM信息。 產品BOM信息即該產品的設計信息,包括零件信息、物料進貨方式及加工作業方式、工藝信息、圖紙信息、層次碼、總數量等。其中零件信息主要有:零件圖號、零件名稱、材料、牌號、外形尺寸等;物料進貨方式及加工作業方式主要包括:物料類別(如:配套件、緊固件)、物料進場狀態(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工內容(如:金工、電工);工藝信息即零部件加工的工藝信息;圖紙信息包括圖紙幅面等;層次碼主要用來標注該零部件在產品中的所處位置;總數量即表明該零部件在產品中該層次碼下的個數。 相同產品可能會有處于不同層次的相同零部件,不同產品可能會有相同零部件。因此,在所建立的數據倉庫基礎上,使用數據挖掘技術挖掘出查詢條件,從銷售的產品中具體細化到銷售需求較多的零部件,從而在企業決策時察覺出該情況。通過針對性地制定預投生產計劃、增加庫存,能夠幫助企業提高生產效率,對于市場快速反應,以提高市場占有率。 對于該部分功能,首先可以進行條件查詢。查詢屬性有:產品圖號、產品型號、代號、名稱、規格尺寸、長度寬度、材料、牌號、年份和客戶編號。 從查詢屬性看,這是多種搜索條件的組合;從數據挖掘角度看,這是在K-均值聚類算法設計的數據倉庫基礎上開發出來的一個數據挖掘工具。此項功能設計時是從月份出發,將每年的銷量按照月份呈現,因此“年份”是必選項,其余條件用戶可以自由組合。例如:選擇“2012年”,查詢結果如圖2所示。
該圖表示在2012年的銷售產品里對零部件數量進行匯總的結果。通過該數據挖掘器,提出了銷量最領先的4個零部件。曲線代表其在各月的銷售總數及市場需求總數,單位以“百”計。每條曲線代表的零部件圖號在圖右側進行了說明。該表示方法直觀、清晰,可以給決策者提供明確的零部件市場需求變化曲線圖。通過聚類結果可知,“零件圖號”為“8UE.016.0211”的零件,從八月開始銷量減少,并且其它3種零件在六月開始需求量變大,從而可使決策者在來年制定更合理的方案,以提高企業競爭力。
2.3廢料統計情況分析
廢料統計情況分析主要是針對生產中由于工人誤操作、材料劣質、機器故障等各種原因造成所領物料報廢,需要重新領料進行加工的情況進行統計分析。 物料是一個統稱,它包括可以直接領的成品、需要再加工的半成品,以及需要加工的原材料。因此,對于物料有一個物料編碼,專門對所有可領的成品、半成品、原材料進行唯一標示。物料編碼根據零件圖號、零件名稱、材料、牌號、外形尺寸、物料進場狀態、物料類別、加工方式8個字段進行唯一性區分。根據編碼方式,產生唯一的物料碼,例如“A00B021”。該企業的物料有“定額”和“非定額”兩種情況。“定額”即可以用個數來統計的零部件物料;“非定額”指無法用個數來統計的物料,如:5米長的銅線等。具體而言,本文主要研究針對某個工作令從生產開始到生產結束,所有定額物料的生產料廢情況。在工作令系統和領料單系統的基礎數據庫上建立數據倉庫。工作令系統的數據庫中存有工作令號、起始生產日期、結束生產日期及其它工作令的基本信息。領料單系統數據庫中的廢料表中存有料廢的物料編碼、材料、數量等信息。查詢屬性有:工作令號、合同號、起始時間和終止時間。 填入工作令號“2B7-1D044205”,點擊“查詢”按鈕,會通過數據挖掘方法統計該工作令下的所有零件材料料廢情況,如表1所示。
表1清晰表明了該工作令號“2B7-1D044205”中各個物料損失的比重。從表中可以看出,以廢料“A03B004”、
“D03E334”和“E17B231”為聚類中心的廢料占多數,從而可以使企業決策者從這些材料損失中發現問題,分析物料損耗原因,如:采購質量問題、工人操作失誤,還是其它可避免的各類原因。因此,該基于數據倉庫的數掘挖掘器,有利于輔助企業決策者從實際生產中找出各類潛在問題,從而制定合理的政策,降低生產損失,提高企業競爭力。
3結語
本文采用數據挖掘技術對數據庫中積累的大量數據進行了分析處理,系統雖然實現了將基于K均值算法的數據挖掘技術應用于信息化系統集成平臺中,但也只是實現了部分輔助決策功能。根據企業的具體使用情況,決策者肯定不會滿足于系統中已經提供的決策支持功能,如何更近一步地發揮系統集成能力,開發更多決策支持功能,提高數據倉庫查詢速度,以滿足企業決策者更多需求,是下一階段研究的主要方向。
參考文獻:
[1]王欣,徐騰飛,唐連章,等.SQL Server2005數據挖掘實例分析[M].北京:中國水利水電出版社,2008:15.
[2]李銳,,曲亞東,等.機器學習實踐[M].北京:人民郵電出社,2013:184199.
[3]彭木根.數據倉庫技術與實現[M].北京:電子工業出版社,2002:321.
[4]陳文偉.數據倉庫與數據挖掘教程[M].第2版.北京:清華大學出版社,2011:190.
[5]孫水華,趙釗林,劉建華.數據倉庫與數據挖掘技術[M].北京:清華大學出版社,2012:122.