與外籍生一起跨國學習
編織美麗的大學回憶
智慧製造模擬教學
VR/AR技術融入智慧生產
美麗的校園
美麗的校園夜景
整合領域的領航者 元智工管
我們的教育理念
天工 樞機 、 智肇 元智

Data Mining

資料挖掘概述與課程介紹

資料挖掘(Data Mining)是近年相當熱門的研究領域。由於資訊科技的發達,各種企業組織機構全面電腦化,再加上網際網路的蓬勃發展,資料的產生及流通皆呈指數的成長,如何從這些龐大的資料中,找出有用的資料並加以利用,已成為企業間互相競爭的利器。而資料挖掘的主要目的,就是要從龐大的資料中,找出有意義或有用的資訊,以協助企業做好資訊管理及決策之制訂等工作。

資料挖掘可視為資料庫中知識探勘(Knowledge Discovery in Database, KDD)的一部份,而知識探勘的整個流程包括了資料選取、前置處理、轉換、資料挖掘以及評估呈現等。各種不同來源的資料必須經過清除(Cleaning)及整合(Integration)的程序以建構成資料倉儲(Data warehouse);而此資料倉儲中的資料,依其應用之主題選擇適宜的特徵屬性,並以適當的資料挖掘技術進行知識之探勘;而所得到的結果,經由可用性的評估,已決定是否符合需求;若不符合需求,可再回到前面的程序,進行參數調整或另使用適當的資料挖掘技術,反覆的進行,直到得到較佳的結果為止。

本課程之設計即針對資料挖掘過程中所必備的Know-how進行教學,並輔以電腦程式轉寫、資料倉儲建立、最新期刊探討等方式,讓學員對於資料探勘有更深的認識。

資料挖掘的技術說明

資料挖掘發展至今,已有許多技術或方法被提出,分別應用在不同領域上,這些方法包括分類、推估、預測、關聯法則、群組化、及序列型樣等。這些資料挖掘技術又根據進一步的需求而有不同的演算法。因此使用者應針對不同的問題及應用領域,選擇適合的資料挖掘技術以及進一步的演算法。

分類(classification)
屬於監督式的學習(supervised learning),亦即自資料中選取資料建立訓練組,深入分析其資料,發展一精確分類模型建立類組,再將欲分析的資料屬性, 按照事先定義好之分類模型予以分類。目前較普遍被使用的分類方法為決策樹(Decision Tree),其可轉換為IF-THEN的規則以供決策者進行決策之用。
推估(estimation)
推估是善於處理連續性的問題,藉由輸入資料,用來推估一些未知的連續性變數。類神經網路(Artificial Neural Network)在推估的作業上,能夠發揮強大的功能。
預測(prediction)
預測是去推估未來的數值以及趨勢,歷史資料可以用來建立模型以檢視近來觀察值的資料,如果利用最新資料作為輸入值,可以獲得關於未來變化的預測值。 購物籃分析、記憶基礎理解、決策樹以及類神經網路都是用來進行預測作業的技術。
關聯法則(association rule)
關聯法則主要描述在資料庫中某些資料項目間彼此之關聯性,其形式為,其中X及Y分別表示資料庫中不同之項目組。關聯規則最早應用於超市購物籃(market basket data),藉由顧客的交易記錄,找出相關商品間彼此的關聯性,做為超市商品擺設以及進貨存貨之參考。
群組化(clustering)
群組化是屬於非監督式學習(unsupervised learning),將欲分析之資料,有效地分割成一個個群組(cluster),使得每一個群組都有較高的相似度;不同得群組, 所顯示之特徵亦不盡相同,而這與分類不同的是, 群組化並沒有依靠事先明確定義的類別進行分類。
序列型樣(sequential pattern)
序列型樣技術的重點是考慮時間的因素,利用此方法分析不同時間點上各事件的關聯性。序列型樣主要分為順序性型樣與週期性型樣兩種, 順序性型樣乃考慮事件發生之時間先後關係,而週期性型樣乃考慮時間區段的變化, 分析時間區段內所發生的事情,是否其他相同時間區段內也會發生。

資料挖掘的應用

鑑於Data Mining技術在現今業界廣受重視,其應用層面也越來越寬廣,以下將針對收集到的文獻加以分析彙整成幾個應用層面,並分述如下:

行銷
Data Mining可以幫助組織瞭解顧客行為及人口統計學的剖面圖,同時了解顧客型態以及預測什麼樣的顧客會對我們行銷活動的目標有所回應。如此一來, 企業行銷的努力將更加精確與準確,幫助組織提高競爭優勢、建立商譽以及顧客對企業的長期忠誠度, 並且發覺企業潛在的客戶。
客戶關係管理
由銷售資料的價格, 風格, 樣式和尺寸的關係來決定顧客的購買行為。利用Data Mining找出顧客是誰?他們購買何種商品?在何處購買?多久採購一次?以及他們是否是為固定客戶? 企業可依Data Mining的結果制定客戶關係管理策略及其系統。
庫存預測
Data Mining可以幫助倉儲管理者準確的決定誰是最佳的顧客以及應該購買何種存貨,協助企業提供區域性的倉儲分類,了解因季節性的變化所造成的影響。
新產品開發
Data Mining可以顧客分群,因此針對每一顧客群所需,發展新產品或修改既有產品,以改善顧客的滿意程度。設計者亦可根據消費者的喜好,了解所喜歡的產品組合, 依此推出新式的產品。
財務金融管理
金融服務業能夠透過Data Mining技術來推銷他們的產品與服務,目標在於達成一對一的行銷服務。近來已將其應用在貸款騙局的預防、適時增加性用額度、 及信用卡耗損及盜刷情況的預測模式上。
醫療服務業
Data Mining技術能夠藉由產生高效率的藥物組合、有效的醫療處理以及快速的診斷來節省醫療單位提供服務的金錢與時間,而且在臨床上對整體醫療效率的改善上也獲得了證實。 Data mining在醫療方面的應用包括:1)對各種處方方式所可能產生的副作用作一番連結; 2)比較各種常見的症狀並協助醫師進行診斷; 3)根據先前處方對於病患的反應結果幫助我們決定出更加有效的藥物組合;4)決定能夠減少病患痛苦的醫療前置步驟。
製程檢測
最近Data Mining技術亦運用於製程檢測,包括半導體製程及印刷電路板製程等。在某些製造程序較長的產業中,利用實驗設計等傳統方式來得知製程參數的最佳組合將非常困難 ; 因此,近來有不少學者利用一系列Data Mining的技術來進行參數最佳化及製程管制的研究。