男女扒开双腿猛进入爽爽免费,男生下面伸进女人下面的视频,美女跪下吃男人的j8视频,一本色道在线久88在线观看片

數據分析方法模板(10篇)

時間:2024-01-10 14:58:46

導言:作為寫作愛好者,不可錯過為您精心挑選的10篇數據分析方法,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。

數據分析方法

篇1

(1)現狀分析:告訴你過去發生了什么;

(2)原因分析:告訴你為什么發生了;

(3)預測分析:告訴你將來發生什么。

明確數據分析這三大作用后,那么大家是否思考過這三大作用都要通過什么方法來實現呢?現在我們就來看看數據分析三大作用都需要用哪些數據分析方法來實現。這三大作用基本可分別對應對比、細分、預測三大基本方法,每個基本方法都有相應具體的數據分析方法,如對比基本方法下有對比分析、分組分析、結構分析、交叉分析、矩陣分析、綜合評價分析等,這些方法核心關鍵詞都是對比。下面我們就來學習這幾個常用的分析方法。

對比分析法

第一個數據分析方法就是對比分析法。它可是數據分析的基本方法之一。對比分析法,是指將兩個或兩個以上的數據進行比較,分析它們的差異,從而揭示這些數據所代表的事物發展變化情況和規律性。對比分析的特點是:可以非常直觀地看出事物某方面的變化或差距,并且可以準確、量化地表示出這種變化或差距是多少。

對比分析法可分為靜態比較和動態比較兩類。

(1)靜態比較是在同一時間條件下對不同總體指標的比較,如不同部門、不同地區、不同國家的比較,也叫橫向比較,簡稱橫比。

(2)動態比較是在同一總體條件下對不同時期指標數值的比較,也叫縱向比較,簡稱縱比。

這兩種方法既可單獨使用,也可結合使用。進行對比分析時,可以單獨使用總量指標、相對指標或平均指標,也可將它們結合起來進行對比。比較的結果可用相對數表示,如百分數、倍數等指標。

目前對比分析常用的有以下幾個維度:

(1)與目標對比。實際完成值與目標進行對比,屬于橫比。例如每個公司每年都有自己的業績目標或計劃,所以首先可將目前的業績與全年的業績目標進行對比,看是否完成目標。

(2)不同時期對比。選擇不同時期的指標數值作為對比標準,屬于縱比。與去年同期對比簡稱同比,與上個月完成情況對比簡稱環比。通過對比自身在不同時間點上的完成情況,就可知道自身是進步還是退步。

(3)同級部門、單位、地區對比。與同級部門、單位、地區進行對比,屬于橫比。這樣可了解自身某一方面或各方面的發展水平在公司、集團內部或各地區處于什么樣的位置,明確哪些指標是領先的,哪些指標是落后的,進而找出下一步發展的方向和目標。

(4)行業內對比。與行業中的標桿企業、競爭對手或行業的平均水平進行對比,屬于橫比。同樣我們也可了解自身某一方面或各方面的發展水平在行業內處于什么樣的位置,明確哪些指標是領先的,哪些指標是落后的,進而找出未來發展的方向和目標。

(5)活動效果對比。對某項營銷活動開展前后進行對比,屬于縱比。做這樣的比較可以分析營銷活動開展得是否有效果,效果是否明顯;還可對企業投放廣告的前后業務狀況進行對比分析,了解投放的廣告是否有效果,如品牌知名度是否提升、產品銷量是否有大幅增長等。

對比分析的維度不限于以上5點,這里只是列出常用的5種維度,當然還有其他維度,可根據自己的實際情況采用不同的維度進行對比分析。

進行對比分析時還要考慮以下幾點因素:

(1)指標的口徑范圍、計算方法、計量單位必須一致,即要用同一種單位或標準去衡量。如果各指標的口徑范圍不一致,必須進行調整之后才能進行對比。沒有統一的標準,就無法比較。例如600美元與3000元人民幣就無法直接比較,需要根據當期的匯率進行換算后才可進行比較,否則不具有可比性。

(2)對比的對象要有可比性。例如不能拿廣州市與華西村、美國與亞洲進行對比。總之對比對象之間相似之處越多,可比性就越強。因此,我們在選擇和確定對比對象時,一定要分析它們是否具有對比的意義。

(3)對比的指標類型必須一致。無論絕對數指標、相對數指標,還是其他不同類型的指標,在進行對比時,雙方必須統一。例如2012年廣州的GDP值與2012年深圳GDP增長率,是無法進行對比的。

分組分析法

數據分析不僅要對總體的數量特征和數量關系進行分析,還要深入總體內部進行分組分析。分組分析法是一種重要的數據分析方法,這種方法是根據數據分析對象的特征,按照一定的標志(指標),把數據分析對象劃分為不同的部分和類型來進行研究,以揭示其內在的聯系和規律性。

分組的目的就是為了進行組間對比,是把總體中具有不同性質的對象區分開,把性質相同的對象合并在一起,保持各組內對象屬性的一致性、組與組之間屬性的差異性,以便進一步運用各種數據分析方法來解構內在的數量關系,因此分組分析法必須與對比分析法結合運用。

分組分析法的關鍵在于確定組數與組距。在數據分組中,各組之間的取值界限稱為組限,一個組的最小值稱為下限,最大值稱為上限;上限與下限的差值稱為組距;上限值與下限值的平均數稱為組中值,它是一組變量值的代表值。

結構分析法

結構分析法是指研究總體內各部分與總體之間關系的分析方法,即總體內各部分占總體的比例。一般某部分的比例越大,說明其重要程度越高,對總體的影響也就越大。例如通過對國民經濟的構成分析,可以得到國民經濟在生產、流通、分配各環節占國民經濟的比重,或是各部門貢獻比重,揭示各部分之間的相互聯系及其變化規律。

結構分析法的優點是簡單實用,在實際的企業運營分析中,市場占有率就是一個非常經典的應用。

交叉分析法

交叉分析法通常用于分析兩個或兩個以上分組變量(字段)之間的關系,以交叉表形式進行變量間關系的對比分析,所以也叫交叉表分析法。交叉表當然也有二維以上的,維度越多,交叉表就越復雜,所以在選擇幾個維度的時候需要根據分析的目的決定。

交叉分析的原理就是從數據的不同維度綜合進行分組細分,以進一步了解數據的構成、分布特征。

矩陣分析法

矩陣分析法是指根據事物(如產品、服務等)的兩個重要屬性(指標)作為分析的依據,進行分類關聯分析,進而找出解決問題的一種分析方法,也稱為矩陣關聯分析法,簡稱矩陣分析法。

矩陣以屬性A為橫軸,屬性B為縱軸,組成一個坐標系,在兩坐標軸上分別按某一標準(可取平均值、經驗值、行業水平等)進行刻度劃分,構成4個象限,將要分析的每個事物對應投射至這4個象限內,進行交叉分類分析,直觀地將兩個屬性的關聯性表現出來,進而分析每一個事物在這兩個屬性上的表現,因此它也稱為象限圖分析法。

綜合評價分析法

綜合評價分析法是針對事物不同方面的數量特征,運用數學、統計等方法,得出綜合數量水平的一種分析方法。綜合評價分析法的基本思想是將多個指標轉化為一個能夠反映綜合情況的指標來進行分析評價。如不同國家的經濟實力,不同地區的社會發展水平,各企業經濟效益評價、企業內各員工績效評價等,都可以運用這種方法。進行綜合評價分析,主要有5個步驟:

步驟1:確定綜合評價指標體系,即包含哪些指標;

步驟2:收集數據并進行不同計量單位的數據標準化處理;

步驟3:確定指標體系中各指標的權重;

步驟4:對經過處理后的指標進行匯總計算綜合得分;

篇2

中圖分類號:N37 文獻標識碼:B 文章編號:1009-9166(2009)02(c)-0063-02

現代企業的決策往往是在整合大量信息資料的基礎上制定出來的,對數據的理解和應用將是企業決策的基石。與傳統的操作型應用相比,數據利用的應用建設難度更大,它是隨著管理水平而發展,同時又取決于業務人員的主觀意識,這就決定了以數據利用為核心的應用建設不可能一蹴而就,而是一個長期迭展的建設過程。從2003年起工廠開始全面推進數據分析應用工作,經歷過曲折,同時也有收獲。經過多年的努力,工廠的數據分析應用工作開始進入良性發展階段,筆者認為有必要對工廠目前數據分析應用工作作一總結和思考。

一、工廠數據分析應用工作開展現狀

工廠數據分析應用工作推進至今已有四五年的時間,從最初全面調研工廠數據量和數據分析應用狀況,將數據分析應用率指標作為方針目標定量指標來考核,到后來將數據分析應用工作的推進重心從量向質轉移,采用以項目為載體進行管理,著重體現數據分析應用的實效性,再到目前以分析應用的需求為導向,以分析應用點為載體,分層次進行策劃。經過上述三個階段,工廠數據分析應用工作推進機制得到了逐步的完善,形成了廣度深度協同發展的信息資源利用管理框架。截止到目前,工廠數據分析應用率達到96%,四個層次的分析應用點共計100多個,數據分析應用工作在生產、質量、成本、物耗、能源等條線得到廣泛開展,有效推動了工廠管理數字化和精細化。2007年,工廠開始探索細化四個應用層次的推進脈絡,進一步豐富工廠信息資源利用框架,形成層次清晰、脈絡鮮明、職責分明的信息資源利用立體化的推進思路。

1、第一層次現場監控層。第一層次現場監控層,應用主體是一線工人和三班管理干部,應用對象是生產過程實時數據,應用目標是通過加強生產過程控制,輔助一線及時發現生產過程中的異常情況,提高生產穩定性。例如制絲車間摻配工段的生產報警,通過對生產過程中葉絲配比、膨絲配比、梗絲配比、薄片配比、加香配比等信息進行判異操作,對異常情況通過語音報警方式提醒擋車工進行異常處理;例如卷包車間通過在機臺電腦上對各生產機組的工藝、設備參數、實時產量、質量、損耗數據的監控,提高對產品質量的過程控制能力。第一層次應用以上位機和機臺電腦上固化的監控模型為主,制絲車間每個工序、卷包車間每種機型的應用點都有所不同,為此我們建立了制絲車間以工序為脈絡,卷包車間以機種為脈絡的應用點列表,圍繞脈絡對第一層次應用點進行梳理,形成第一層次應用的規范化模板。制絲車間第一層次應用點模板包括工序名稱、應用點名稱、應用模型描述、應用對象、應用平臺、異常處置路徑等基本要素。卷包車間應用點模板橫向根據機種分,縱向按上班及交接班、上班生產過程中、下班及交接班三個時間段分,通過調研分別列出擋車工針對每個機種在三個時間段分別要查看的數據和進行的操作。隨著模板的擴充和完善,一線職工的知識、經驗不斷充實其中,第一層次應用點模板將成為一線工人和三班管理干部日常應用監控的標準,同時可以規避人員退休或調動帶來的經驗、知識流失的風險。2、第二層次日常管理分析層。第二層次日常管理分析層,應用主體是一般管理干部,應用對象是產質損、設備、動能等指標,應用目標是通過加強對各類考核指標的監控和分析,提高工廠整體的關鍵績效指標水平。例如制絲車間的劣質成本數據匯總和分析,通過對車間內各類廢物料、劣質成本的數據進行匯總、對比和分析,尋找其中規律及薄弱環節,并尋根溯源,采取措施,降低劣質成本。例如卷包車間的產量分析,通過對產量數據、工作日安排、計劃產量進行統計和匯總,結合車間定額計劃、作業計劃和實際產量進行分析,尋找實際生產情況與計劃間的差異,并分析原因。第二層次應用以管理人員個性化的分析為主,呈現出分析方法多樣化、應用工具多樣化的特點。但是萬變不離其中的是每個管理崗位的管理目標以及圍繞管理目標開展的分析應用是相對固定的,至少在短期內不會有太大的變化。為此我們建立了一份以重點崗位為脈絡的應用點列表,圍繞脈絡對第二層次應用點進行梳理,形成第二層次應用的規范化模板。模板包括崗位名稱、管理目標、應用點名稱、應用描述、涉及主要考核指標、應用平臺、應用頻次、分析去向等基本要素。通過構建第二層次應用點模板,明確了每個管理崗位應用信息資源支撐管理目標的內容和職責。隨著新的管理目標的不斷提出以及應用的逐步深入,模板每年都會有更新和擴充。3、第三層次針對性分析應用層。第三層次針對性分析應用層,應用主體是項目實施者,應用對象是各類項目的實施過程,例如QC項目、六西格瑪項目、質量改進項目,或針對生產中的特定事件進行的分析和研究。應用目標是通過應用數據資源和統計方法開展現狀調查、因果分析、效果驗證等工作,提高各類項目實施的嚴密性和科學性。第三層次的應用工具在使用初級統計方法的基礎上會大量應用包括方差分析、回歸分析、正交試驗、假設檢驗、流程圖等在內的中級統計方法。以QC活動為例,我們可以看出其實施過程無一不與數據應用之間有密切的聯系[1]。近年來,在質量改進項目和QC項目的評審工作中已逐步將“應用數據說話、運用用正確合理的統計方法,提高解決問題的科學性”作為項目質量考核標準之一。而六西格瑪項目實施的核心思想更是強調“以數據和事實驅動管理”,其五個階段[2]D(定義)、M(測量)、A(分析)、I(改善)、C(控制),每個階段都要求結合如FMEA(失效模式后果分析),SPC(統計流程控制),MSA(測量系統分析),ANOVE(方差分析),DOE(實驗設計)等統計方法和統計工具的應用。4、第四層次主題性應用層。第四層次主題性應用層,應用主體是中層管理者,應用對象是專業性或綜合性的分析主題,應用目標是通過專業科室設計的專題性分析模型或綜合性分析模型,為中層管理層提供決策依據。工廠在實施了業務流程“自動化”之后,產生了大量的數據和報表。如何將工廠的業務信息及時、精煉、明確地陳述給中層管理層,以此來正確地判斷工廠的生產經營狀況,是擺在我們眼前的一個突出問題。大家都有開車的經驗,司機在駕駛車輛的時候,他所掌握的車況基本上是來自汽車的儀表盤,在車輛行使的過程中,儀表盤指針的變化,告知汽車的車速、油料、水溫等的狀況,駕駛員只要有效地控制這些指標在安全范圍之內,車子就能正常地運行。我們不妨將儀表盤的理念移植于工廠,建立工廠關鍵指標及運行管理儀表盤,將工廠的關鍵信息直觀地列在上面,及時提醒各級管理人員工廠生產運營是否正常。

⑴關鍵績效指標監控系統。對分布在各處的當前及歷史數據進行統一展示,以工廠關鍵績效指標為中心,支持統計分析和挖掘,可為中層管理者提供工廠關鍵績效指標一門式的查詢服務,使各業務部門尋找、闡釋問題產生的原因,以有效監控各類關鍵績效指標,及時采取改進措施,提高生產經營目標完成質量。⑵系統運行狀態監控系統。通過數據采集、手工錄入等各種渠道收集各類系統的運行狀態,及時掌握故障情況,采取措施加以閉環,將因系統故障造成對用戶的影響減至最小,確保各類系統的穩定運行和有效應用。通過建立系統運行狀態監控系統,中層管理人員上班一打開電腦進入系統,就能了解到當天及上一天各類系統的運轉情況,發生了什么異常,哪些故障已經得到解決,哪些故障還未解決。⑶第四層次主題性分析應用。在展示關鍵績效指標和系統運行狀態的基礎上,由各專業科室思考專業條線上的分析主題,采用先進科學的理念和方法對數據進行分析和挖掘。近兩年來,工廠充分發揮專業科室的優勢和力量,相繼設計和開發了工藝質量條線的六西格瑪測評系統,設備條線的設備效能分析系統,還有質量成本核算與分析系統。通過這些分析主題的支持,工廠管理人員可以更方便快捷地了解質量、設備、成本等條線上的關鍵信息,及時采取相應措施,從而提升管理效率。

二、數據分析應用工作存在的不足及思考

工廠數據分析應用工作的推進方法從最初的采用數據分析應用率單個指標進行推進發展到目前按上文所述的四個層次進行推進,每個層次的推進脈絡已經逐步清晰和明朗,但事物發展到一定的階段總會達到一個瓶頸口,目前工廠數據分析應用工作存在的問題及措施思考如下:

1、從推進手段上要突破信息條線,充分發揮專業條線的力量。信息條線作為推進工廠數據分析應用的主管條線,其作用往往局限在技術層面上的支撐。雖然信息條線每年都會規劃形成工廠數據分析應用整體的工作思路和具體的實施計劃,但是無論從工廠層面還是從車間層面來講,單純依靠信息條線從側面加以引導和推進,使得數據分析應用工作始終在業務條線的邊緣徘徊,與產量、質量、設備、消耗、成本、動能等各個條線本身工作的結合度有一定的距離。所以工廠要進一步推進數據分析應用工作,調動起業務人員的積極性和主動性,突破現有的瓶頸,應該考慮如何調動起專業條線的力量。一是可以在年初策劃應用點的時候要加強專業條線對車間業務自上而下的指導,引導管理人員加強對缺少數據分析支撐的工序、崗位/管理目標的思考;二是建立平臺加強各車間同性質崗位之間的溝通與交流,均衡各個車間的數據分析應用水平和能力;三是對車間提交的分析報告給出專業性的指導意見。2、要加強對數據中心的應用。數據中心的建立可以使業務系統從報表制作、數據導出等功能中解放出來,專注于事務處理,將數據應用方面的功能完全交給數據中心來解決。目前,數據中心已建立了涉及產量、質量、消耗等各個條線的Universe模型,并對全廠管理干部進行了普及性的培訓。但是從目前應用情況來看,還比較局限于個別管理人員,追尋原因如下:一是業務系統開發根據用戶需求定制開發報表,業務人員通常習慣于從現成的報表中獲取信息。如果要求業務人員使用數據中心工具自行制作報表模板,甚至可能需要將其導出再作二次處理,那么業務人員一定更傾向于選擇第一種方式。二是近幾年來人員更替較多,新進管理人員不熟悉數據中心應用,導致數據中心應用面受到限制。隨著今后MES的建設,業務系統中的數據、報表、臺帳和分析功能將有可能由業務用戶自行通過集成在MES中的數據中心前端開發工具來訪問和靈活定制。因此,要盡快培養工廠業務人員數據中心的應用能力,包括數據獲取以及報表定制方面的技能。筆者認為應對方法如下:一是對于崗位人員變更做好新老人員之間一傳一的交接和培訓;二是適時針對新進管理人員開展集中培訓;三是通過采用一定的考核方法。3、提高新增應用點的質量。工廠每年都會組織各部門審視第一、第二層次應用點列表,圍繞重點工序和重點管理崗位調研有哪些應用上的空白點是需要重點思考的,以新增分析應用點的方式進行申報和實施。同時針對第三層次針對性分析應用,工廠也會要求部門以新增分析應用點的方式將需要數據支撐的項目進行申報。作為一項常規性工作,工廠每年都會組織部門進行應用點的申報,并按項目管理的思想和方法實施,事先確立各個應用點的應用層次、數據獲取方式、實現平臺,并對其實施計劃進行事先的思考和分解,確定每一個階段的活動目標、時間節點以及負責人員,每個季度對實施情況予以總結,并動態更新下一階段的實施計劃。該項工作從2005年起已經連續開展了三年,部門可供挖掘的應用點越來越少,如何調動部門的積極性,保持并提高應用點的實效性,我們有必要對新增分析應用點的質量和實施情況進行考評,考評標準為:一是新增分析應用點是否能體現數據應用開展的進取性、開拓性和創新性;二是新增分析應用點是否能切實提高管理的精細化和科學化水平;三是新增分析應用點是否能采用項目管理的思想和方法實施,按時間節點完成各項預定計劃。

三、結束語。隨著近幾年來技術平臺的相繼成熟以及管理手段的逐步推進,工廠業務人員用數據說話的意識已經越來越強,但是要真正使工廠管理達到“三分技術、七分管理、十二分數據”的水平,還有很長的路要走,這既需要我們的業務人員從自身出發提高應用數據的水平和能力,同時也需要工廠從管理手段和管理方法上不斷拓寬思路、創新手段,真正實現數據分析應用成為工廠管理的重要支撐手段。

作者單位:上海卷煙廠

篇3

中圖分類號:TP393 文獻標識碼:A 文章編號:1672-3791(2017)06(c)-0053-03

隨著云計算、大數據、物聯網和移動互聯網等新一代信息技術的發展,傳統企業級IT架構正在朝基于互聯網的分布式新架構轉型。大數據作為新一代信息技術的核心,正在使各個領域變得越來越可感知,并走向智能化。大數據將會發揮自身獨特的優勢,帶給我們更多的方便和便捷。大數據分析的方法理論有哪些、在行業、企業的活動中有哪些應用。

1 大數據分析的五個基本要素

1.1 大數據預測性分析

大數據技術的主要應用是預測性分析,如在線教學資源網站通過數據分析用戶會對推薦的教學模是否感興趣,保險公司通過數據預測被保險人是否會違規,地震監測部門通過對大數據的分析,預測某地點發生地震的大致時間,氣象部門利用數據預測天氣變化等。預測是人類本能的一部分,通過大數據預測人類才可以獲得有意義的、智能的信息。許許多多的行業應用都會涉及到大數據,大數據的豐富特征表述了快速增長的存儲數據的復雜性。大數據預測分析打破了數據預測一直是象牙塔里數據科學家和統計學家的工作,伴隨著大數據的出現,并融合到現有的MIS、MRPII、DSS 、CIMS和其他核心業務系統,大數據預測分析將起到越來越重要的作用。

1.2 數據管理和數據質量

大數據分析跟數據質量和數據管理緊密相關,而質量高的數據和有效的數據管理可以使分析結果有價值、真實并得到有力的保證。

1.3 可視化分析

普通用戶和大數據分析專家是大數據分析的直接使用者,因此他們對大數據分析的基本要求就是要可視化,因為他們想通過可視化分析獲得可觀的大數據特征,讓用戶直觀看到結果。

提高解釋信息的能力可以通過數據的可視化展示來實現,而可視化展示主要由圖形和圖表來呈現。要從大量的數據和信息中找尋相關性非常的不容易,而圖形或圖表能夠在短時間內展示數據之間的相關信息,并為用戶提供所需的信息。

1.4 語義引擎

語義引擎是把現有的數據標注語義,其實可以把它理解為結構化或者非結構化的數據集上的一個語義疊迭層。它是數據分析及語義技術最直接的應用,好的語義引擎能夠使大數據分析用戶快而準地獲得比較全面的數據。

數據分析的新挑戰及困難主要表現在非結構化數據與異構數據等的多樣性,必須配合大量的工具去分析、解析、提取數據。語義引擎的設計可以達到能夠從文檔中自動提取有用信息,使語義引擎能挖掘出大數據的特征,在此基礎上科學建模和輸入新的數據,來預測未來的可用數據。

1.5 數據挖掘算法

大數據分析的理論核心就是數據挖掘。各種數據的算法基于不同的數據類型和格式,能更加科學地呈現出數據本身的特點,能更快速地處理大數據。如果采用一個算法需要花好幾年才能得出結論,那大數據價值也就無從f起了。可視化是給人看的,數據挖掘是給機器看的。集群、分割、孤立點分析還有其他的算法可以使我們深入挖掘數據內部的價值,并且這些算法能夠處理大數據的數據量,也可以滿足處理大數據的效率要求。

2 大數據處理方法

大數據處理技術在社會的發展中占有重要的地位,現在有很多的研究者對大數據處理技術進行研究,將大數據處理技術與交互設計結合,讓交叉科學得到發展,計算機技術的進步,讓交叉技術被廣泛應用,并引起了很多人的重視,例如:計算機技術可以在藝術中被應用,進行色彩搭配,還可以將計算機技術應用到垃圾分類里,這些都是研究人員對計算機和交叉設計的結合。這種結合讓設計學與計算機技術緊急的結合在一起,將傳統的調研方式和測試方式應用到交叉科學領域,這種方法的研究可以為用戶調研和測試方法提供依據,能夠減少人工的成本。大數據處理方法其實有很多,筆者根據長時間的實踐,總結了幾種基本的大數據處理方法,如非結構數據處理法、自然語言處理法等,該文主要介紹非結構數據處理流程涉及到的主要方法和技術。非結構化數據處理流程主要以網頁處理為例來闡述,包括3個階段,分別是信息采集、網頁預處理和網頁分類。

2.1 信息采集

信息采集主要是根據相關主題由固定的專業人士來完成,其采集的數據只能用于所針對的主題和相關的模塊,出于對效率和成本的考慮完全不必對整個互聯網進行遍歷,因此,模塊信息采集時往往需要研究以哪種方式預測鏈接指向的頁面與主題的關聯性,并測算其是否值得訪問;然后研究以哪種相關策略訪問Web,以在采集到主題相關頁面的同時,盡可能地減少采集到主題無關的頁面。

預先設定好種子鏈接是信息采集的基本方法,充分使用HTTP協議下載被訪問的頁面,運用分析算法對頁面與主題的相關性進行分析,然后確定待訪問的相關鏈接,預測可能指向主題相關頁面的鏈接,最后循環迭代地運用不同的相關策略訪問網頁。

2.2 網頁預處理

網頁預處理最主要涉及到網頁去重處理,網頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內容的對比去重,它適用基于信息指紋的文本相似度算法。

網頁去重是先抽取文檔對象的特征,再對文檔內容進行分解,將文檔的特征集合表示出來,然后有目的針對特征集合的壓縮編碼,通過將哈希編碼等文本轉為數字串映射方式,為后續的特征存儲以及特征比較提供方便,這樣可以起到減少存儲空間,提高比較速度的作用,最后就是計算文檔的相似度,此步需要根據文檔特征重復比例來確定文檔內容是否重復。一般是提取網頁的某一個信息特征,通常是一組關鍵詞,或者是關鍵詞加權重的組合,調用相應的算法,轉換為一組關鍵代碼,也被稱為指紋,若兩個頁面有大數量的相似指紋,那么可以預測這兩個頁面內容具有很高的重復性。

2.3 網頁分類

網絡時代,人類所面臨的一個非常重要且具有普遍意義的問題就是網頁分類。將網絡信息正確分類,方便人們更好地使用網絡資源,使雜亂無章的網絡環境變得有條理。而網頁分類一般是先對網頁中的文本素材進行分類,通常采用文本分類來完成。文本分類主要應用于電子郵件分類、信息過濾、文獻翻譯、數據檢索等任務,文本分類的一個關鍵問題是特征詞的選擇問題及其權重分配。

在搜索引擎中,文本分類主要有以下用途:相關性排序會根據不同的網頁類型做相應的排序規則;根據網頁是索引頁面還是信息頁面,下載調度時會做不同的調度策略;在做頁面信息抽取的時候,會根據頁面分類的結果做不同的抽取策略;在做檢索意圖識別的時候,會根據用戶所點擊的URL所屬的類別來推斷檢索串的類別等。

網頁分類方法有SVM分方法和樸素貝葉斯方法,其中比較推薦的是支持向量機分類方法(SVM),該算法主要基于統計學理論及線性分類器準則之上,從線性可分入手,再擴展到線性不可分的情況。甚至有時會擴展到使用非線性函數中去,這種分類器統稱為支持向量機。近年來,支持向量機分類方法越來越多的受到網頁分類技術人員的青睞。

3 大數據分析在行業活動中的應用

非結構數據處理和數據挖掘的應用范圍較廣,它可能應用于運營商、銀行、傳統企業和電商,挑選幾個具有代表性的案例與大家分享。

3.1 電信行業

某城市電信運營商的上網日志分析系統,該系統通過收集用戶上網日志歷史記錄數據,分析出每個用戶的偏好。首先該系統通過并行統計出每個人有效歷史上網日志URL;然后從日志URL中抓取網頁內容,提取正文,并通過文本分類算法計算分類;最后通過統計出每個用戶上網關注類別總數,分析出每個用戶的偏好。

3.2 地產行業

某房地產企業的社會化品牌實時營銷系統,該系統通過社交媒體數據,進行網絡口碑監測,負面情緒被及時地發現并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監控同行及競爭對手的各方面資訊,量化評估競爭態勢;快速提升品牌知曉度和美譽度,將媒體影響力轉換為客戶量,縮短人氣聚集周期。

3.3 證券行業

某證券商戰略信息監測通過歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點,今日輿論,展示抓取的所有期貨產品相關信息的縮略,并提供全文鏈接。通過熱點事件列表可以看到歷史相似事件對趨勢的影響,通過天氣指數與趨勢對應曲線可以看到歷史相似天氣與歷史趨勢的對照。

3.4 金融行業

某大型股份制商業銀行供應商風險評估系統,該系統通過抓取供應商內部數據,如企業年報、公司變動、領導情況、財務狀況等數據,分析公司運營指數;通過計算各供應商社交數據,對其社會影響力做評估;通過同行之間的數據分析對比,對供應商進行實力評估,這些數據指數可以有效協助商業銀行進行供應商風險評估。

4 結語

大數據處理數據的基本理念是用全體代替抽樣,用效率代替絕對精確,用相關代替因果。證券、微商、地產等行業每天都會產生巨大的數據量,大數據分析與處理已成為大數據技術的最重要的應用,通過大數據技術從海量數據中提取、挖掘對業務發展有價值的、潛在的信息,找出產品或服務未來發展趨勢,為決策者提供有力依據,有益于推動企業內部的科學化、信息化管理。

參考文獻

[1] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-149.

[2] 國際電子商情2013年大數據應用與趨勢調查[Z].

[3] 大數據時代來臨:國內IT企業布局已然落后[EB/OL].新浪網,2012-06-01.

[4] 大數據時代降臨[EB/OL].半月談網,2012-09-22.

篇4

最簡單的拆分方法就是不看平均值,看數據分布。因為凡 是“總和”或者“平均”類的統計數據都會丟失掉很多重要的信息。例如李嘉誠來我們公司參觀,這一時間我們公司辦公室里的“平均資產”就會因為李嘉誠一個人 被抬高到人均幾億身家。如果有人根據這個“平均資產”數據來判定說我們辦公室的人都是豪華游艇的潛在顧客,這自然是荒謬的。

可實際上,我們每天都在做著類似的判斷,比如當我們聽到說顧客“平均在線時間”是3分34秒,就可能根據這個時間來進行業務決策,例如設置“停留時間超過3分34秒為高價值流量”,或者設置系統,在用戶停留了3分34秒還沒有下單的話就彈出在線客服服務窗口。我們設置這些時間點的根據是“平均停留時間”,在我們的想象里,我們的每個顧客都有著“平均的”表現,停留時間大致都是3分34秒,可實際上真正的顧客訪問時間有長有短,差別巨大:

在一些數據中我們可以看得出來,訪客平均停留在頁面的時間非常的短暫,具體的也就是說,問需要在淘寶數據分析上面下工夫的,那么,究竟該怎么弄才能比較好的呢?這個就看個人是怎么想的了,這里也就不多說了。

再舉一個例子,比如我們看到上個月平均訂單金額500元/單,這個月也是500元/單,可能會覺得數字沒有變化。可是實際上有可能上個月5萬單都是400~600元,而這個月5萬單則是2萬單300元,2萬單400元,5千單500元,5000單超過2500元 ——客戶購買習慣已經發生了巨大變化,一方面可能是客戶訂單在變小(可能是因為產品單價下降,采購數量減少,或者客戶選擇了比較便宜的替代品),另一方面 出現了一些相對較大的訂單(可能是中小企業采購,或者是網站擴充產品線見效了)。——看數據分布可以讓我們更容易發現這些潛在的變化,及時的做出應對。

二、拆因子

很多時候我們很難直接從數據變化中分析出具體的原因,這時可以考慮拆分因子,將問題一步步細化找尋原因。

例如網站轉化率下降,我們要找原因。因為“轉化率”=“訂單”/“流 量”,所以“轉化率”下降的原因很可能是“訂單量下降”,“流量上升”,或者兩者皆是。按照這個思路我們可能發現主要的原因是“流量上升”和“訂單量升幅 不明顯”,那么

下面我們就可以來拆解“流量”的構成,例如拆成“直接訪問流量”、“廣告訪問流量”和“搜索引擎訪問流量”再看具體是哪部分的流量發生了變 化,接下來再找原因。這時我們可能看到說是搜索引擎訪問流量上升,那就可以再進一步分析是付費關鍵詞部分上升,還是自然搜索流量上升,如果是自然流量,是 品牌(或者網站名相關)關鍵詞流量上升,還是其他詞帶來的流

量上升——假如最后發現是非品牌類關鍵詞帶來的流量上升,那么繼續尋找原因——市場變化(淡季旺季之類),競爭對手行動,還是自身改變。假如剛好在最近把產品頁面改版過,就可以查一下是不是因為改版讓搜索引擎收錄變多,權重變高。接下來再分析自己到底哪里做對了幫助網站SEO了(比如把頁面導航欄從圖片換成了文字),把經驗記下來為以后改版提供參考;另

一方面還要分析哪里沒做好(因為新增流量但是并沒有相應增加太多銷售),研究怎樣讓“產品頁面”更具吸引力——因為對很多搜索引擎流量來說,他們對網站的第一印象是產品頁面,而不是首頁。

三、拆步驟

還有些時候,我們通過拆分步驟來獲取更多信息。

舉兩個例子:

第一個例子:兩個營銷活動,帶來一樣多的流量,一樣多的銷售,是不是說明兩個營銷活動效率差不多?

如果我們把每個營銷活動的流量拆細去看每一步,就會發現不一樣的地方。營銷活動B雖然和營銷活動A帶來了等量的流量,可是這部分流量對產品更感興趣,看完著陸頁之后更多的人去看了產品頁面。可惜的是雖然看產品的人很多,最后轉化率不高,訂單數和營銷活動 A一樣。

這里面還可以再深入分析(結合之前提到的分析方法,和下一章要說的細分方法),但是光憑直覺,也可以簡單的得出一些猜測來,例如兩個營銷活動的顧客習慣不太一樣,營銷活動 B的著陸頁設計更好,營銷活動 B的顧客更符合我們的目標客戶描述、更懂產品——但是我們的價格沒有優勢等等這些猜想是我們深入進行分析,得出行動方案的起點。至少,它可以幫助我們

更快的累計經驗,下次設計營銷活動的時候會更有的放矢,而不是僅僅寫一個簡單report說這兩個營銷活動效果一樣就結案了。(注:這是個簡化的例子,實際上還可以分更多層)

第二個例子可能更常見一些,比如網站轉化率下降,我們可以拆成這樣的漏斗:

這樣拆好之后,更能清楚地看到到底是哪一步的轉化率發生了變化。有可能是訪客質量下降,都在著陸頁流失了,也可能是“購物車–>登錄”流失了(如果你把運費放到購物車中計算,很可能就看到這一步流失率飆升),這樣拆細之后更方便我們分析。

曾經有一個例子就是轉化率下降,市場部查流量質量發現沒問題,產品經理查價格競爭力也沒問題——最后發現是技術部為了防止惡意注冊,在登錄頁面加了驗證碼(而且那個驗證碼極度復雜),降低了“登錄頁面–>填寫訂單信息“這一步的轉化率。

四、細分用戶族群

篇5

中圖分類號:TP18 文獻標識碼:A文章編號:1009-3044(2007)06-11651-01

1 引言

粗糙集(Rough Set)理論[1]是波蘭數學家Z.Pawlak于1982年提出的,它建立在完善的數學基礎之上,是一種新的處理含糊性和不確定性問題的數學工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規則[2]。由于粗糙集理論不需要任何預備或額外的有關數據信息,使得粗糙集理論成為研究熱點之一,被廣泛應用與知識發現、機器學習、決策分析、模式識別、專家系統和數據挖掘等領域。

屬性約簡是粗糙集理論中核心研究內容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發式算法[4],這類算法往往不能得到系統的所有約簡.另一類是基于區分矩陣和區分函數構造的算法[5],這種算法直觀,易于理解,能夠計算出所有約簡。但在區分矩陣中會出現大量的重復元素,造成時間和空間的浪費,從而降低了屬性約簡算法的效率。

本文基于數據分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個約去冗余的屬性,直到不再有冗余的屬性,此時得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現區分矩陣中大

量的重復元素,從而提高了屬性約簡的效率。

2 粗糙集概念

定義2.1設U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個等價關系族,稱二元有序組S=(U,R)為近似空間。

定義2.2令R為等價關系族,設P?哿R,且P≠?I,則P中所有等價關系的交集稱為P上的不可分辨關系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關系。

定義2.3稱4元有序組K=(U,A,V,f)為信息系統,其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個信息函數,?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。

顯然,信息系統中的屬性與近似空間中的等價關系相對應。

定義2.4設K=(U,A,V,f)為信息系統,P?哿A且P≠?I,定義由屬性子集P導出的二元關系如下:

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

則IND(P)也是等價關系,稱其為由屬性集P導出的不可分辨關系。

定義2.5稱決策表是一致的當且僅當D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個體的條件屬性值相同時,他們的決策屬性值也相同。

定義2.6設K=(U,A)為一個信息系統。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個約簡,或稱為信息系統的一個約簡。

定義2.7設K=(U,CUD)為一個決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關于屬性集C的正域。

定義2.8數據分析方法對于信息系統K=(U,A),逐個移去A中的屬性,每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個移去C中的屬性,每移去一個屬性即刻檢其決策表,如果不出現新的不一致,則該屬性可被約去,否則該屬性不可被約去。

3 基于數據分析方法的屬性簡約算法

3.1 算法思路

利用函數的遞歸調用,逐個判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續檢查A‘中的每個屬性是否能被約去,此過程一直進行下去,直到出現某一屬性子集中的每個屬性都不可約去為止,此時該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規則,作為是否約去屬性的依據。

算法如下:

輸入:信息系統K=(U,A)。

輸出:K的屬性約簡。

Match(A') // A’=A-{a}//

begin

for i=1to|U|-1 //|U|表示U的基數//

for j=i+1to|U|

begin

r=|R|//|R|表示屬性個數//

if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))

then a不可被約去,return0

end

a可以被約去return1

end

Reduce (A)

begin

flag=1

for i=1 to |R|//|R|表示屬性個數//

begin

a=ai

A'=A-{ai}

if match(A')thenflag =0 , reduce (A’)

if (flag且A未被輸出)then

輸出A中所有元素//flag≠0,說明A中所有元素不可移去,且不會被重復輸出//

End

end

以上給出的函數是求解信息系統的屬性約簡算法;對于決策表,只要將Match(A’)函數中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個數,ag是決策屬性。Reduce (A)函數中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個移去屬性并檢查決策表是否出現新的不一致,作為約去此屬性的依據。

4 舉例

文獻[7]中決策表1,a,b,c,d,e是條件屬性,g是決策屬性,求出的約簡是{a,b,d}

應用本算法,求得的屬性約簡為{a,e}和{a,b,d},得到決策簡化表2和表3。

表1 決策表表2簡化表表3簡化表

如果將決策表表1看作一信息系統,運用本算法,求得的屬性約簡有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}

5 結束語

本文通過數據分析方法討論了屬性約簡問題。該算法是基于不可分辨關系的,具有直觀、易于理解和完備性的特點。當屬性和對象都較少時,效率較高,但當屬性和對象較多時,計算的復雜度較高。實例表明,該算法是有效的。

參考文獻:

[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.

[2]張文修,吳偉志,梁吉業等.粗糙集理論與方法[M].北京:科學出版社,2001.

[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459

[4]王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計算機學報,2002(7):760―765.

[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.

篇6

1.測試方案的制定

數字電視測試方案制定時,第一步是確定選擇多少個地點進行測試,以及它們的特定位置。被選定的地點在數學統計上必須是相關的,通常應超過100個(最好超過200個)。在給定方向上最遠的測試地點距離通常由F(50,90)曲線確定,FCC過去使用的確定NTSC頻率規劃的方法也被用于DTV的頻道分配。發射機的ERP和HAAT首先影響最遠距離的測試地點的確定。另外, 如果在數字電視發射機附近有模擬NTSC發射機且頻率接近,則測試計劃還應包括測量模擬信號,比較模擬電視的數值和數字電視的數值。

2.數字電視場強測試數據分析方法

標準的歸一化的數據采集方法對于結果的分析來說是非常重要的。盡管對一個廣播公司而言,特定的地理環境可能會有一些唯一的與其它地方不同的測試結果,但是,測試中的一些關鍵參數,是非常重要同時又是必須測試的。

例如,有不同的服務區域預測技術要考慮。舊的基于統計測量的方法所得到的F(50,50)和F(50,10)曲線,從50年代起在約50年的時間內,被用作預測場強數值(dBmV/m),這兩條預測曲線,在FCC規則的73.699節中出現(參考資料5),給出了預測的50%的地點在50%或10%的時間概率下的最小場強電平,通常使用的F(50,90)曲線是從F(50,50)和F(50,10)采用下式計算得到:

F(50,90) = F(50,50)-[F(50,10)- F(50,50)]

就是說,F(50,90)場強電平值高于F(50,50)值,F(50,10)場強值低于F(50,50)值。這些FCC的標準曲線是基于發射機的ERP和HAAT、接收裝置的天線高度、發射機與測試地點之間距離而確定。通過在每一個測試地點應用這些曲線,場強電平可以被預計并且與測量的場強電平相比較。同樣,可以計算出超過最小場強電平的被測地點的百分比,按照統計規律,這些地點能基于F(50,90) 曲線成功地接收數字電視信號。可以直接比較在最小場強電平以上的測量地點數量和成功地接收數字電視信號的地點數量。

另一種場強電平預測技術是Longley-Rice算法,在FCC的工程技術部門(OET)公告69號(參考資料7)中有詳細的描述,不僅用到發射機的ERP,HAAT和接收裝置天線高度,而且涉及到在發射機和接收裝置之間的地面的類型。應用這種算法可以預計每個測試地點的場強電平,這些預測值也應與測量的數值進行比較。對于F(50,90)曲線,基于Longley-Rice算法,可以計算出最小場強電平以上的地點的百分比,以給出能成功地收到數字電視信號的地點的百分數。這能直接與成功地接收數字電視的地點的測量數字進行比較。

兩種場強電平預測方法不僅能評估數字電視的場強分布曲線和效果,也能評估成功地進行數字電視服務的區域和效果。隨著更多的數字電視發射機投入使用,進行覆蓋狀況的試驗和分析,將會有更好的統計曲線來預測數字電視的覆蓋曲線。實際上,原有的F(50,50)曲線與實際的對于數字電視覆蓋的要求是不同的,數字電視要保證可靠接收,要求是F(90,90)。

還有幾個其它的參數被用于數字電視場強測試評估:服務有效性、系統性能指標、造成誤碼的極限電平、場強電平、C/N門限值、接收機靈敏度、地形輪廓及高度變化的統計等。并且每個參數在數字電視的系統構成上提供寶貴的信息,并且被分別描述。

服務有效性是指所有的可成功地接收數字電視信號的測試地點的百分比,包括那些場強電平較小但又可以成功解碼的所有的地點,對廣播公司來說是重要的,在測試的期間給定發射機ERP和HAAT,它是表示覆蓋區域的大小和服務有效性的主要參數。

另一方面,作為數字電視場強的測試手段,系統性能指標是其效果如何的一種表示方法。即,接收S/N在15dB(誤差極限)以上的站點的百分比。這種統計分析所確定的距離,對于那些低于接收門限的數字電視信號測試點(如嚴重的地形遮擋或天線增益過小)無效。在場強測試期間,在非白噪聲干擾情況下(如多徑反射、脈沖干擾或模擬電視與數字電視同頻干擾),系統性能指標可從本質上得到很好的反映。

對于數字電視的接收而言,接收機的靈敏度同樣影響到接收的效果,實際上是覆蓋范圍的大小。接收機的最小接收門限值越低,越容易收到數字電視節目。反過來,在許多高于接收門限電平的地點并非一定能很好地接收,還受到載噪比門限的限制,只有載噪比門限超過所要求的數值,才能可靠地對數字電視信號進行解碼。可靠接收取決于兩個條件,一是接收的場強大于接收機的最小輸入門限電平,二是接收信號的載噪比大于可靠解碼所要求的數值。

篇7

3、方法三:分組對比法。分組之后,我們就可以對數據進行匯總計算了。常見的方法是通過求和、平均值、百分比、技術等方式,把相同類別的數據,匯總成一個數據,減少數據量。

篇8

A Method of Automobile Driving Behavior and Data Analysis

ZHANG Zhi-de

(Guangzhou Automobile Group Co.,Ltd.,Automobile Engineering Institute,Guangzhou Guangdong 510640,China)

【Abstract】A car bus data collection and analysis methods of environment,expatiates the bus signal correlation between performance and corresponding working principle of the electronic control module,each over a period of time the data to carry on the comprehensive analysis,put forward several kinds of conditions associated with economic driving model,and through the working condition of model reflects in a period of time correlation between vehicle fuel consumption and driving behavior,for the analysis of driving behavior to provide the reference basis.

【Key words】Driving behavior;Oil consumption;Big Data;Eco-driving

0 引言

隨著近幾年汽車銷售和保有量的急劇增加,降低能源消耗與汽車排放的要求越來越嚴格。節能減排政策成為對應汽車領域能源問題和治理環境污染的主要措施之一。橄煊節能減排,各個汽車制造商都在積極研究新技術以對應能源與環境需求。其中車輛動力技術、道路條件以及汽車駕駛運用是目前影響汽車燃油消耗的三大主要因素。汽車的駕駛運用水平直接反應在汽車駕駛人員對于汽車燃油經濟性掌控的關鍵環節。駕駛人員以較少的汽車燃油消耗實現車輛空間位置安全轉移的駕駛行為就是目前我們所倡導的汽車節能駕駛。通過研究駕駛行為數據并進行分析提示,輔助提高駕駛技術、研究節能駕駛輔助系統有巨大的節能潛力。

狹義上的駕駛行為數據分析一般是以考慮經濟性駕駛為基礎研究對象和主要前提。通過對駕駛員控制油門、擋位和制動等相關操作,在不改變車輛動力結構前提下,計算一段時間的控制數據和車輛理想駕駛模型數據進行對比,提醒駕駛人員日常駕駛行動的統計結果,包括對操作車輛油門、擋位、制動的方式。并以此為依托進行駕駛習慣改進、駕駛操作輔助、“人―車―路”多環境協調,合理匹配車輛運動與道路條件、交通狀態、車輛性能之間的關系,以滿足節能減排的目的。

1 駕駛行為分析模型

車輛運行過程中主要存在四種行駛狀態:怠速、加速(含啟動)、減速、巡航。

圖1是城市工況的不同行駛狀態所占能耗比。由圖1可知,加速(含啟動)過程占比最大,達到38% ;其次是巡航過程,約為35%。這說明城市工況中,采用經濟性的加速和巡航策略對降低能耗具有積極意義。經濟性加速主要指以適宜的加速度、檔位、油門開度等完成加速過程,盡量避免急加速工況的出現;經濟的巡航策略主要指盡量把車速維持在經濟車速區間。

根據一般駕駛工況,按照與能耗關聯的行為可以得出以下幾種行為模式:

1)急加速

在緊急加速過程中,燃燒室中燃油多、空氣少,燃燒室內呈現缺氧狀態,燃油不能夠充分燃燒,導致油耗增加。

2)急減速

減速過程屬于動能轉換為熱能的過程,合理的預判行車減速過程進行適宜的制動強度有利于充分利用車輛慣性,減少油耗;頻繁的急減速會消耗較多的車輛動力裝置產生的動能。

3)脫檔滑行

汽車帶檔滑行,不踩油門,發動機管理系統EMS會切斷供油利用慣性來維持運轉;脫檔滑行則需要一個怠速油耗。因此長距離滑行時采用脫檔滑行會增加油耗。

4)打開車窗高速行駛

汽車以較高車速行駛時,打開車窗會增加整車的空氣阻力系數,增加空氣阻力,進而導致油耗提高。

5)換擋時的轉速(高轉換擋)

合理的控制檔位,能保證發動機在不同的車速區間里均能維持在經濟轉速區域,有利于減少發動機的油耗。

6)長時間怠速

長時間的怠速狀態會導致發動機做過多的無用功,導致油耗上升。

7)頻繁變道和曲線行車

頻繁變道超車使汽車經常加速、減速、制動,發動機工作不穩定,同時使汽車處于曲線行駛狀態。汽車曲線行駛時,如汽車轉彎,地面對輪胎將產生側向反作用力、滾動阻力大幅增加,導致油耗上升。

1.1 急加速模式

當車輛加速度n_vehicleActSpeed>X1*,油門踏板開度n_emsGasPedalActPst>X2*(排除下坡導致的無油門輸入加速),記錄為一次急加速,急加速計數器Drastic_Acc_Counter++。

X1*為設定的加速度限值,考慮到不同車速區間內車輛提供的加速能力不一致,為獲得更優的評價方法,在不同速度區間能選用不同的限值。加速度限值是車速的函數,車速越低限值越大。X2*為油門踏板開度限值可以設置為定值20%。

加速度限值函數 X1:

y=a■x+b■,x?綴(0,40]a■x+b■,x?綴(40,80]a■x+b■,x?綴(80,max)

1.2 急轉彎模式

對于急轉彎駕駛行為,為濾去低速工況下掉頭等實際狀況的影響,首先判斷車速,車速當車速n_vehicleSpeed>20km/h時,再進行急轉彎判斷,判斷方法如下:

1)當某時間區間內(如1s)車輛角速度均值n_averageSteeringAngleSpeed大于預設角速度X*時,記錄為一次急轉彎,急轉彎計數器n_turnCounter++;

2)當車輛行車速度大于50km/h且一秒內方向盤轉動角度大于 Y*時,記錄為一次急轉彎急轉彎計數器n_turnCounter++;

3)當車輛轉彎角度大于31°,且車輛行駛速度大于S時,記錄為一次急轉彎,例如:S取值范圍為51km/h至60km/h,急轉彎計數器n_turnCounter++;

注:X*為動態限制量,是一個和車速有關的函數,車速越大轉角速度極限值X*越小。

Y*為動態限制量,是一個和車速有關的函數,車速越大轉角極限值Y*越小。

如下:

X*=k■x+l■,x?綴(0,40]k■x+l■,x?綴(40,80]k■x+l■,x?綴(80,max),Y■=r■x+t■,x?綴(0,40]r■x+t■,x?綴(40,80]r■x+t■,x?綴(80,max)

其中:k1,k2,k3,l1,l2,l3,r1,r2,r3,t1,t2,t3為常數。

2 非經濟駕駛行為數據統計

根據第一章節中的描述,對行程中不利于油耗降低的駕駛行為(急駕駛、急減速、急轉彎、怠速過長等)進行記錄,并將每次行程的結果保存在存儲區中作為歷史數據。統計界面的默認界面為本次行程的駕駛行為統計(如圖2左圖);通過操作駕駛者可以進入歷史統計界面,該界面內駕駛者可以觀察本次駕駛行程中各駕駛行為發生次數與歷史行程的對比(如圖2右圖)。

3 不同平均車速下的歷史綜合油耗統計

實際駕駛過程中不同路況下的油耗差異性很大,例如:高速公路駕駛中高速行駛發動機運行在經濟區域占比較大,油耗較低;而城市道路駕駛過程中,車流量較大、交通燈數量多,車輛處于中低速區域比例較大,油耗較高。僅僅從平均油耗進行對比,有時不能正確反映駕駛者駕駛習慣。平均車速能較為有效的反應出道路工況,因此可以以行程的平均車速進行區間劃分,歷史油耗對比時僅對比同一區間內的油耗,可將平均車速劃分為低速行駛區域(0~40km/h)、中速行駛區域(40~80km/h)、高速行駛區域(V≥80km/h),加入行程平均車速的考慮因素再做燃油消耗的統計。

4 方法總結

通^統計與經濟駕駛關聯的幾種模式進行算法設計,可以將駕駛行為轉化為可以具體量化的數據結果。基于數據有限分析和樣本量,數據累計歷史等前提下,可以通過模型進行一些可視化的輸出結果。并以此作為駕駛人員輔助駕駛和行為提醒的基本數據。當然如果該模型能基于大數據后臺平臺,通過建立復雜的算法模型和自學習模型。可以更多的分析駕駛人員、同類車型、相似工況環境等。并以此為基礎逐步影響駕駛人員的駕駛習慣,建立起良好的駕駛行為。

篇9

概念的內涵就是反映在概念中的事物的本質屬性,這是概念的內容。概念的外延就是具有概念所反映的本質屬性的對象,這是概念的適用范圍。學生對于概念的掌握程度可以通過各種判斷題、選擇題的綜合檢測得到體現,概念的正確掌握能從根本上解決計算題、實驗題及綜合題等。只有學好的基本概念,深刻理解概念的內涵和外延,把握概念的本質屬性,才能扎實地掌握相關的知識內容,正確而有效地學好化學知識。

一、運用數據分析,把握化學概念的內涵

高中化學選修四《化學反應原理》一書中的一些化學基本概念比較抽象,教師應在教學中依據教材提供的數據材料或通過實驗所得數據及推理演算,引導學生在探索中得出相關概念,并進一步理解概念的本質。通過數據分析的教學,讓學生自己收集數據,應用數據分析,從而感受數據分析的實際價值,深刻理解概念的內涵。

例如,弱電解質電離平衡常數用Ki表示。弱電解質通常為弱酸或弱堿,所以在化學上,可以用Ka、Kb分別表示弱酸和弱堿的電離平衡常數。用HA表示弱酸,則其電離方程式為HA H++A-,則電離常數Ka=[H]*[A]/[HA],電離平衡常數描述了一定溫度下弱電解質的電離能力。在相同溫度和濃度時,電離度的大小也可以表示弱電解質的相對強弱。用電離度比較幾種電解質的相對強弱時,應當注意所給條件,即濃度和溫度,如不注明溫度通常指25℃。

在教學過程中,我們發現這些概念抽象難以用啟發式教學法讓學生去學習,因為學生對于課本上弱酸的電離平衡常數的理解總是基于表面,沒能真正理解化學概念的內涵。

教師在教學中應充分利用課本中的數據,分析Ka與電離度α的關系,比較Ka與電離度α的相同點與不同點。電離常數K與電離度α的關系可近似地表示為K=cα2,其中c為弱電解質溶液的濃度。教師通過設計一組具體數據,讓學生從電離常數可以算出不同濃度、不同溫度時弱電解質的電離度,比較電離常數與電離度的區別,可看出Ka是常數而α不是常數。Ka隨溫度而變化,α隨Ka而變化,因此α也隨溫度而變化,Ka不因濃度改變而變化,但α卻隨濃度而變化,Ka不因溶液中其他電解質的存在而變化,但α卻因溶液中其他電解質離子的存在而變化。

例如,在醋酸溶液中加入醋酸鈉(CH3COONa),則因同離子效應而使平衡向左移動,α將減小。在室內溫度下,醋酸的電離常數是1.8×10-5,學生對這一數據并沒有什么印象,但通過計算可以得出它的電離度α=1.3%,學生得出每1000個醋酸分子室溫條件下只有13個醋酸分子發生電離,987個醋酸分子的形式存在溶液中。通過數據的分析轉換,學生容易理解弱電解質的電離程度的大小,有利于把握化學概念的內涵。

二、運用數據分析,準確化學概念的外延

化學課本中有許多數據,教學中并不要求具體記憶這些數值,但對這些數據的統計分析,既能幫助學生理解概念本質,形成學科觀念,又有利于培養學生嚴謹的科學態度,全面提升科學素養。對這些數據的統計分析,有利于學生建立準確的數據觀念,可以發展學生的數據意識,學生從中提取相關信息,從而充分體現化學基本概念對元素化合物性質學習的指導作用。例如,關于Ka概念外延的教學,我們應該清楚該概念的適用范圍。

(1)根據Ka判斷弱酸的酸性強弱。通過Ka的學習達到指導元素化合物性質的學習。相同條件下,Ka越大,酸性越強。通過比較Ka,我們可以得出常見弱酸的酸性:CH3COOH>H2CO3>

H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。這樣,學生就很容易理解醋酸溶液與碳酸鈣的反應,還有漂白粉放置在空氣中失效、水玻璃溶液中通入二氧化碳氣體、偏鋁酸鈉溶液中通入二氧化碳氣體等一系列反應,這些反應都是高一化學課本中的重要反應,都符合“酸性強的制取酸性弱”的基本原理。

(2)以Ka來判斷鹽類物質的水解相對大小。根據鹽類水解規律“越弱越水解”,我們可以判斷出相同條件下醋酸銨溶液、氯化銨溶液、次氯酸銨溶液水解的相對大小,從而判斷出溶液的酸堿性。分析利用醋酸Ka和氨水Kb數據的特殊性可知:醋酸銨溶液接近中性,進而可以探究Mg(OH)2沉淀溶于濃銨鹽的反應原理。

(3)根據Ka1、Ka2判斷酸式鹽溶液的酸堿性。在25℃時,碳酸的電離平衡常數分別為:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亞硫酸的電離平衡常數Ka1=1.54×10-2 ,Ka2=1.02×10-7。對于酸式鹽NaHA的水溶液, NaHA 中 HA-既可電離:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式鹽溶液由于NaHCO3溶液的Ka1Kh1而顯酸性。

(4)根據Ka1、Ka2的相對大小判斷物|的性質、理解離子反應的實質。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氫氧化鋁的酸式電離Ka= 6.3×10-13 。通過對這些數據的分析,我們容易得出酸性:H2CO3>HCO3->Al(OH)3-;H2CO3>

C6H5OH>HCO3-。這樣就容易理解以下四個反應:

A.往苯酚鈉水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+

HCO3-

B.往偏鋁酸鈉水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-

C.往偏鋁酸鈉水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+

HCO3-

D. 偏鋁酸鈉水溶液與碳酸氫鈉水溶液混合: AlO2-+HCO3-+H2O

Al(OH)3+CO32-

三、運用數據分析,拓展提高學生綜合應用概念的水平

化學計算是中學化學教學的重要內容,也是中學生必須掌握的一個基本技能,學會數據分析是提高計算能力的關鍵。化學計算題中,往往題目數據多、綜合性強,但學生們因綜合分析能力差,不善于對知識準確遷移,因而覺得十分棘手。分析化學過程、融會貫通理解化學概念的內涵是正確解決化學計算題的基礎。

在學習《溶液中的離子反應》專題后,許多教師會引導學生對化學平衡常數K、酸堿電離平衡常數Ka、Kb、水的離子積Kw、難溶電解質的溶度積Ksp等一些概念進行比較歸納,分析他們的異同,但是若能進一步拓展到酸電離平衡常數Ka與鹽的水解常數Kh、與難溶電解質的溶度積Ksp、配合物的穩定系數Kw之間的聯系,就能進一步提高學生的綜合能力。

例如,在25℃下,于0.010mol?L-1

FeSO4溶液中通入H2S(g), 使其成為飽和溶液 (C(H2S)= 0.10mol?L-1) 。

篇10

中圖分類號:TP274文獻標識碼:A文章編號:1009-3044(2008)15-20ppp-

The Research Content And Data Analysis Methods On the Gene Regulatory Networks

GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1

(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)

Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.

Key words:gene regulatory networks;Self-organizing Map;machine learning

基因調控網絡是計算機科學、數學、信息學向分子生物學滲透形成的交叉點,是運用生物信息學的方法和技術通過數據采集、分析、建模、模擬和推斷等手段研究復雜的基因網絡關系。作為一種系統的、定量的研究方法建立在包括分子生物學,非線性數學和程序算法設計等知識等基礎上,運用生物信息學的方法和技術通過數據采集、分析、建模、模擬和推斷等手段,整合已有的實驗數據和知識,構建生物基因調控網絡,從整體的層次,了解細胞的功能;從整體的角度,闡述基因參與的生物調控過程,在全基因組水平上以系統的、全局的觀點研究生命現象及其本質,是后基因組時代研究的重要內容。

1 基因調控網絡概念

基因調控網絡本質上是一個連續而復雜的動態系統,即復雜的動力系統網絡。

1.1 基因調控網絡的定義

生物體任何細胞的遺傳信息、基因都是同樣的,但同一個基因在不同組織、不同細胞中的表現并不一樣。一個基因的表達既影響其它的基因,又受其它基因的影響,基因之間相互促進、相互抑制,在特定的細胞內和時間下綜合環境等因素這樣的大環境中呈現活化狀態,構成一個復雜的基因調控網絡。

1.2 基因調控網絡的特性:

基因調控網絡是連續的多層次動力系統模型,具有穩定姓、層次性、復雜性、動態性等。

1.2.1 復雜性

生物具有大量的基因,諸多基因組成各個模塊,不同的基因網絡模塊可以在不同層次上發生相互作用,同一個基因可能參與各種不同的分子機理,使得基因網絡有著高度的復雜性。

1.2.2 層次性

基因調控網絡具有一定層次結構,按照調控元件、motif、模塊和整個網絡的四層結構,將各個節點有規律的來接在一起。調控元件分為順式(cis-)和反式(trans-)兩種類型, 分別表示受調控基因的結合位點DNA 序列和結合在該序列上對基因起激活或者抑制作用的轉錄因子。Motif 和模塊都是由基因集合構成的調控模式, 是分析網絡局部特征和網絡構成以及研究調控機理的重要結構。

1.2.3 動態性

生物過程是動態的,用來理解生物過程意義的基因調控網絡自然就動態存在。基因調控網絡是隨著生物過程的動態發生而具有動態的特性,不同條件、不同時間的基因調控網絡是不同的。

1.2.4 穩定性

基因調控網絡的穩定性體現在生物體緩解突變的影響方面,功能上無關基因之間的相互作用可以抵抗系統突變;一個基因在突變中喪失的功能,有另外一個或更多具有相似功能的基因所補償,以減弱該突變對表型造成的影響,保持生物進化中的穩定性。

1.2.5 功能模塊性

基因調控相關的生物功能主要是通過網絡模塊來實現的,有適當尺度下的動力學特征和生物學功能解釋的模塊是由多個motif 構成的,實現相同功能的基因或蛋白質存在拓撲結構上是相關的。

1.3 基因調控網絡研究的目的

通過對基因調控網絡的研究,識別和推斷基因網絡的結構、特性和調控關系,認識復雜的分子調控過程,理解支配基因表達和功能的基本規則,揭示基因表達過程中的信息傳輸規律,清楚整體的框架下研究基因的功能。

2 基因調控網絡研究內容

基因調控網絡的研究是假設兩個基因列譜相似,則這兩個基因協作調控,并可能功能相近,有同樣表達模式的基因可能有同樣的表達過程。基因調控網絡主要在三個水平上進行:DNA水平、轉錄水平、翻譯水平。DNA水平主要是研究基因在空間上的關系影響基因的表達;轉錄水平主要研究代謝或者是信號轉導過程決定轉錄因子濃度的調控過程;翻譯水平主要研究蛋白質翻譯后修飾,從而影響基因產物的活性和種類的過程。基因轉錄調控信息隱藏在基因組序列中,基因表達數據代表基因轉錄調控的結果,是轉錄調控信息的實際體現。

基因調控網絡試圖從DNA微陣列等海量數據中推斷基因之間的調控關系,對某一物種或組織中全部基因的表達關系進行整體性研究。采用帶有反饋回路的基因網絡,首先是按照同步或反同步表達,以及表達強度的變化,系統地識別各基因的特點,再用聚類的方法將各基因歸類,在此基礎上構建基因調控網絡,分析相關控制參數.利用其本身或調節位點或拓撲結構進行不同的研究。

免责声明:以上文章内容均来源于本站老师原创或网友上传,不代表本站观点,与本站立场无关,仅供学习和参考。本站不是任何杂志的官方网站,直投稿件和出版请联系出版社。
主站蜘蛛池模板: 湖南省| 新宁县| 九江市| 蒙山县| 当阳市| 三亚市| 南京市| 柳江县| 汽车| 广昌县| 定边县| 彰武县| 三都| 岚皋县| 孟村| 滕州市| 焦作市| 三门县| 明溪县| 壶关县| 蚌埠市| 新余市| 东明县| 马边| 新沂市| 西乌珠穆沁旗| 枣阳市| 启东市| 南昌县| 福安市| 宁阳县| 竹溪县| 济源市| 自治县| 邻水| 凌云县| 卫辉市| 丽水市| 华阴市| 措勤县| 衡东县|