什么是結構化、半結構化和非結構化數據?
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
01什么是結構化、半結構化和非結構化數據?①結構化數據:指關系模型數據,即以關系數據庫表形式管理的數據,結合到典型場景中更容易理解,比如企業ERP、OA、HR里的數據。 ②非結構化數據:指數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。如word、pdf、ppt及各種格式的圖片、視頻等。 ③半結構化數據:指非關系模型的、有基本固定結構模式的數據,例如日志文件、XML文檔、JSON文檔、E-mail等;
①表結構不同,需要做到不同類型的字段映射 ②假如要新增表字段的時候,需要新增列 ③若有表字段需要進行二次處理規范,需要支持字段轉換,比如公式或其他 ④新增表設計時,需要保證三大范式,這里就不展開講了,可參考:數據庫三大范式 ⑤數據同步的時效性,例如實時同步、半小時一次、或者一天一次、或者說是需要實時同步融合,這個要根據具體業務場景來確認。
目前有兩種方式來處理半結構、非結構化數據: ①提取半結構、非結構化數據中的關鍵信息,到結構化數據中進行二次利用,比較好處理的是半結構化(json、xml)、excel、csv,因為這種數據的結構比較統一。 ②向word、PDF這種文件提取關鍵信息,假如是單個文本的話,市面上有些工具可能可以實現,但假如是大批量的話,可能就需要通過程序,去自定義一些正則表達式,去進行關鍵信息的提取。這種一般來說,因為格式不一致,以及用途不一致,所以程序自定義的比較多。 針對這種的話,會綜合考慮數據價值和投入產出比,因為這部分的數據處理較為復雜。 若想提高投入產出比,可以使用例如FineDataLink這類專業工具,去支持結構化/半結構化數據的融合集成,面向ETL數據處理場景,也可以讓數據編排更簡單一些,提高數據的使用價值。 另外,如若這部分歷史文件需要做到備份的話,會通過FTP或者SFTP將文件進行備份存儲到文件服務器,進行文件業務分類、文件名、路徑的統一管理,提供統一入口,通過權限管理的方式給到大家下載使用。 該文章在 2024/11/11 10:19:04 編輯過 |
關鍵字查詢
相關文章
正在查詢... |