天才一秒記住【思兔閱讀】地址:sto.ist
維護時間窗口進行y在etl任務執行期間y
數據源默認不會發生變化y這就使得用戶不必擔憂etl任務開銷對數據源的影
響y但同時也意味著y對於商務用戶而言y數據和應用並非任何時候都是可
用的。
有多種技術可以為實時主動數據倉庫提供數據集成服務y比如腳本etl
eai和cdc但是y隻有部分技術能提供實時(連續)的數據集成x
?
3?eaieai解決方案通常和etl解決方案並存y從而增強etl的功能eai
解決方案在源係統和目標係統之間進行連續的數據分發y並且保證數據的成
功分發y同時提供高級的工作流支持和基本的數據轉換但是yeai受到數據
量的限製y因為eai的初衷是為了實現應用的集成而不是數據的集成y即它是
用來調用應用或者分發命令和消息的然而y由於eai具有在數據集成過程中
實時分發數據和維護數據一致性的特性y所以也就能夠提供實時數據獲取的
能力y而這種能力正是實時主動數據倉庫所需要的。
有多種技術可以為實時主動數據倉庫提供數據集成服務y比如腳本etl
eai和cdc但是y隻有部分技術能提供實時(連續)的提供了連續變化數據的捕捉和分
發能力y並且隻需要很低的開銷和時間延遲cdc在提交的數據事務上進行
操作y從oltp係統中捕獲變化的數據y再進行基本的轉換y最後把數據發送
到數據倉庫中雖然在體係結構上ycdc屬於異步的y但它表現出類似同步
的行為y數據延遲隻有不到1秒的時間y同時能夠維護數據事務的一致性。
etl是將業務係統的數據經過抽取?
extract?清洗轉換?
transform?
之後加載?
load?到數據倉庫的過程y目的是將企業中的分散零亂
標準不統一的數據整合到一起y為企業的決策提供分析依據
etl是指從原係統中抽取數據y並根據實際商務需求對數據進行轉換y然
後把轉換結果加載到目標數據存儲結構中源和目標通常都是數據庫和文
件y也可以是消息隊列等。
數據抽取
可以采用周期性的pull機製或者事件驅動的push機製
pull機製支持數據整合y通常以批處理的方式工作
push機製通常采用在線方式工作y可以把數據變化傳播到目標數據存儲
結構。
數據轉換
包括數據重構和整合數據內容清洗或集成
數據加載
對整個目標數據存儲結構進行刷新y或者隻是對目標數據存儲進行增量更
新。
早期的etl解決方案通常以固定的周期運行批處理工作y從平麵文件和
關係數據庫中捕捉數據y並把這些數據整合到數據倉庫中最近這幾年y
商業etl工具供應商已經對產品做了很大的改進y對產品功能進行了擴
展y具體如下x
1額外的數據源
2額外的目標
3改進的數據轉換功能
4更好的管理
5更好的性能
6改進的可用性
7增強的安全性
8支持基於數據聯邦的數據集成方法
數據抽取模塊的功能x
1確定數據源y即從哪些源係統進行數據抽取。
2定義數據接口y對每個源文件及係統的每個字段進行詳細說明。
3確定數據抽取的方式x是主動抽取還是由源係統推送y是增量抽取。
還是全量抽取y是每日抽取還是每月抽取。
數據清洗與切換
數據清洗與轉換x
數據清洗主要是對不完整數據錯誤數據重複數據進行處理
數據轉換包括如下操作
(www.101novel.com)