翻譯|大數據新聞|編輯:況魚杰|2021-01-27 11:14:43.607|閱讀 198 次
概述:本文概述了從邊緣到AI的數據之旅,以及數據在旅途中產生的商業價值。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
數字化轉型是所有市場和行業的熱門話題,因為它正在以爆炸性的增長速度帶來價值。考慮到制造業的工業物聯網(IIOT)的估值為1610億美元,增長率高達25%,到2027年,互聯汽車市場的估值將達到2250億美元,增長率為17%,或者在2020年的前三個月,零售商在短短三個月內實現了十年的數字銷售滲透。不過大部分寫的都是關于使能技術平臺(云或邊緣或數據倉庫等點式解決方案)或推動這些效益的用例(應用于預防性維護的預測性分析、金融機構的欺詐檢測或預測性健康監測為例),而不是基礎數據。缺失的一章不是關于點解決方案或用例的成熟歷程。缺失的章節是關于數據的--它始終是關于數據的--而且,最重要的是,數據編織了從邊緣到人工智能洞察的旅程。
這是六部分文章系列中的第一部分,概述了從邊緣到AI的數據之旅,以及數據在旅途中產生的商業價值。數據之旅并不是線性的,而是一個無限循環的數據生命周期--從邊緣開始,在數據平臺中穿梭,并產生應用于實際業務關鍵問題的業務必要見解,從而產生新的數據主導計劃。我們將這一歷程簡化為五個獨立的步驟,其中第六個步驟涉及數據安全和治理。這六個步驟是:
數據收集--在邊緣進行數據攝取和監測(無論邊緣是工業傳感器還是實體零售店中的人)。
數據豐富--數據管道處理、匯總和管理,為進一步完善數據做好準備。
報告----提供商業企業洞察力(銷售分析和預測、市場研究、預算編制為例)
服務 - 控制和運行基本的業務操作(ATM交易、零售結賬或生產監控)。
預測分析--基于人工智能和機器學習的預測分析(以欺詐檢測、預測性維護、基于需求的庫存優化為例)。
安全與治理--一套跨越整個數據生命周期的安全、管理和治理技術集成
為了說明數據之旅,這里選擇了一個非常相關且具有可持續發展意識的制造主題--電動汽車的制造,之所以選擇這個主題,是因為與 "老式進化"(成熟度較低)相比,制造操作通常具有革命性的特點(高度的數字成熟度,部署了最新的數據工具),而且這些汽車大多是作為 "互聯移動 "平臺制造的,這使得汽車不僅僅是交通工具,而是一個由數據驅動的知識和洞察力的平臺。這個故事將展示如何使用Cloudera數據平臺收集、豐富、存儲、服務數據,然后用于預測汽車制造過程中的事件。
本篇文章將介紹一家模擬互聯汽車的電動汽車制造公司,名為(有一個極具原創性的名字)電動汽車公司(ECC)。ECC在全球范圍內經營著多家制造工廠,是垂直一體化的,制造自己的汽車以及許多關鍵部件,包括電機、電池和輔助部件。每家工廠負責制造不同的部件,最后的組裝在幾個選定的、具有戰略意義的工廠進行。
在生產過程中,管理收集所有工廠的所有數據是一項重要的工作,帶來了一些挑戰:
難以評估物聯網數據的數量和種類。許多工廠利用來自多個供應商的現代和傳統制造資產和設備,并采用不同的協議和數據格式。雖然控制器和設備可能連接到OT系統,但它們通常沒有以一種方式連接,以便它們也能輕松地與IT系統共享數據。為了實現互聯制造和新興的物聯網用例,ECC需要一個解決方案,能夠處理來自邊緣的所有類型的不同數據結構和模式,將數據標準化,然后與包括大數據應用在內的任何類型的數據消費者共享數據。
管理實時數據的復雜性。為了使ECC能夠推動預測性分析用例,數據管理平臺需要對流式數據進行實時分析。該平臺還需要有效地實時或近乎實時地攝取、存儲和處理流數據,以便即時提供見解和行動。
將數據從獨立的孤島中解放出來:制造業價值鏈中的專業化流程(創新平臺、QMS、MES等)獎勵不同的數據源和數據管理平臺,這些平臺為獨特的孤島式解決方案量身定做。這些利基解決方案限制了企業價值,只考慮到跨企業數據所能提供的一小部分洞察力,同時分割了業務,限制了協作機會。正確的平臺必須具備攝取、存儲、管理、分析和處理來自價值鏈中所有點的流數據的能力,將其與數據歷史學家、ERP、MES和QMS來源相結合,并將其利用為可操作的洞察力。這些見解將提供儀表盤、報告和預測分析,以推動高價值的制造用例。
平衡邊緣。了解邊緣和云端數據處理之間的正確平衡是一項挑戰,這就是為什么需要考慮整個數據生命周期的原因。業界有一個令人不安的趨勢,因為公司選擇專注于其中一個或另一個,而沒有意識到他們可以,也應該兩者兼顧。云計算對于長期分析和大規模部署有它的好處,但它受限于帶寬,往往收集了大量的數據,卻只用了一小部分。邊緣的價值在于以零延遲的方式在影響最大的邊緣采取行動,然后再將最有價值的數據發送到云端進行進一步的高性能處理。
第1步:收集原始數據
ECC的生產運營數據涵蓋了眾多來源--工業機器人、白身磷化涂料工藝槽(溫度、濃度或補料)、供應鏈遠程信息或主件信息等。在這個具體的例子中,ECC的五個工廠的原始零件主數據已經被收集起來,準備輸入到Apache NiFi中(見數據流程收集圖)。
第2步:為每個工廠配置數據源
數據收集將使用Cloudera的數據流體驗(由Apache NiFi支持)來說明,以檢索這些原始數據,并將其分割成各個工廠流(由Apache Kafka管理),以更準確地類似于真實世界的場景(見圖2)。為了保持例子的簡單性,我們為工廠生成的每個零件選擇了以下數據屬性標簽。
工廠ID
機器編號
制造時間戳
部件號
序號
第3步:監控各工廠的數據吞吐量
由于現在所有的數據都流向了各個Kafka流,數據架構師正在監控來自每個工廠的數據吞吐量,以及調整所需的計算和存儲資源,以確保每個工廠有必要的吞吐量將數據發送到平臺。
第4步:從Apache Kafka流中采集數據
Kafka可以捕獲所有工廠的數據流,并將其收集到處理器中,這些數據流既可以過濾,也可以豐富,用于控制和運行由運營數據庫驅動的基本業務運營,或通過企業數據倉庫提供業務企業洞察力,或用于高級分析。
ECC最近開始生產他們的電機升級版,只在5號工廠生產,這些數據將作為數據生命周期的下一步說明。
第五步:將數據推送到存儲解決方案中
由于ECC制造和質量工程師會希望密切監控該電機的部署和現場使用情況,因此具體的制造可追溯性數據會被過濾到一個單獨的路由中,并保存到Apache Hive中自己的表中。這將允許工程師以后在Cloudera數據倉庫中針對數據運行臨時查詢,以及將其加入到企業數據倉庫中的其他相關數據中,如維修訂單或客戶反饋,以產生預先的用例,如保修、預測性維護例程或產品開發輸入。
另外,如果需要控制和運行基本的業務操作,整個數據集加上一個處理過的時間戳,將被發送到Apache HBase支持的Cloudera操作數據庫中。這些數據將作為ECC運行其庫存平臺的基礎,這將需要使用持續的讀/寫操作,因為庫存每天可以增加和刪除數千次。由于HBase被設計用于大規模處理此類數據交易,因此它是應對這一獨特挑戰的最佳解決方案。
這個簡單的例子顯示了正確獲取數據攝取的重要性,因為它是運營數據庫、企業數據倉庫或高級分析機器學習預測分析所提供的洞察力的基礎。"正確獲取 "的價值包括使用來自任何企業來源的數據,從而打破數據孤島,使用所有數據,無論它是流式的還是面向批處理的,以及將數據發送到正確的地方產生所需的下游洞察力的能力。
使用CDP,ECC數據工程師和其他業務線用戶可以開始將收集到的數據用于各種任務,從庫存管理到零件預測到機器學習。由于Cloudera Data Flow促進了來自任何企業源的實時數據攝取,因此無需具備各種編程語言和專有數據收集方法的廣泛知識,即可對其進行擴展和維護。如果遇到獨特的問題,工程師還可以創建自己的流程,進行真正的、精細的控制。
請期待下一篇文章,它將深入探討數據豐富化以及如何支持數據生命周期故事。此外,這個故事將通過數據驅動的演示來增強,展示數據生命周期每一步的數據之旅。
福利時刻!
慧都“專家1對1,助力2021企業數字決策化轉型”活動正在進行中,設備故障預測、產品質量分析等方案通通免費咨詢,歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們專業的大數據團隊,將為您提供免費大數據相關業務咨詢!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:CLOUDERA