傳感器是一條紐帶,它將數字世界和物理世界迷人地連接在一起。但是,要獲得有價值的可用數據并非易事。實際上,許多剛剛進入物聯網領域的設計人員都對傳感器數據的混亂沒有足夠的心理預期。
引導客戶相信,他們看到的大量“錯誤”數據并不是因為傳感器本身出了故障,成為物聯網運動傳感器公司MbientLab的日常工作。之所以數據錯誤,是因為集成了這些傳感器的系統設計中缺少一些進行數據清理的關鍵步驟。
必須正確理解通過機器學習訓練物聯網的難度。“多年來,工具和硬件都取得了長足進步,但是,對于數據處理的基本理解仍然沒有多少改進。
要搞清楚干凈數據和臟數據之間的區別,很重要的一點是,看看數據是如何從A點到達B點的。
概括來說,傳感器的原始數據需要進行后端處理。基礎傳感器將原始信號從一種形式的能量轉換成模擬信號或者數字信號,可能需要施加外部電源,也可能不需要。最初的原始轉換來源于現實世界的模擬信號:力、熱、光、磁、聲音。經過傳感器轉換后,沿著傳感器內部或者印刷電路板上的信號路徑繼續前行,如果有需要,模擬信號可以經過調節、放大環節轉換成數字信號。然后,將數據發送到微處理器或者其它類型的計算單元中,通過算法進一步過濾噪聲,并以應用所需要的方式提取相關信息。
計算體系架構剛剛開始著手研究怎么有效地進行這種數據處理,有些數據需要在邊緣設備上進行預處理,其它數據則發送到更強大的服務器中進行清理。
“邊緣計算將發揮巨大作用,”“基礎構建模塊都有了,我們現在需要弄清楚,怎么有效地移動任意格式的傳感器數據,數據移動過程中涉及的內存層次結構如何設計,以使得可以實現最佳計算性能。一句話,就是如何提高傳感器數據的計算效率。
一個傳感器的例子
有些操作需要基于那些用來鑒別一段時間內趨勢的數據立即進行動作,這類數據的提取非常關鍵,此外,清除已經喪失了價值的數據也很重要。考慮到存在多種類型的這種數據,而且有些情況下,需要多種數據類型來建模物理世界或判斷某人是否應該立即進行醫療急救,這種數據提取和清除工作更加艱難了。
數據也可能一開始是干凈的,但是經過更新或者病毒入侵后變臟了。
“在全球范圍內,所有組件都需要盡可能安全,因此您希望從硬件中建立信任。組件安全啟動后,通信數據本身就已經具備了某種程度的可信度。但是,有的系統也可能存在不安全的未知組件,這就需要對數據進行入侵檢測和軟件分析,以查看數據和組件是否存在任何損壞。在汽車中,我們希望檢測出那些給出異常或奇怪數據的部件,這不僅是組件安全問題,還涉及到人身安全。”
臟數據肯定要清理掉,但是它在哪里變臟的以及是如何變臟的,決定了下一步采取的行動。是不是傳感器本身產生了臟數據,設計人員需要一開始就考慮到這一點。“解決傳感器問題需要大量的專業知識,” “它需要設計人員在硬件層面了解傳感器,理解從傳感器中提取的數據,具備軟件(算法)開發的經驗。”