開源php erp管理系統(tǒng)剛哥談架構（十三）大數據軟件開源版圖(圖)php開源 erp

2021-12-30

上一篇，剛談架構（十三）大數據軟件開源布局由于篇幅問題，沒有詳細介紹大數據開源布局各部分的內容。今天我們繼續(xù)上一個話題，具體看看大數據開源圖的各個部分。

我們?yōu)槊總€領域挑選了三個典型的選項，并為您做一個簡單的介紹。

數據攝取和轉換 Data & ETL

大數據系統(tǒng)的數據來源多種多樣，主要包括以下幾類：

事務數據庫中存儲的業(yè)務數據（）業(yè)務應用系統(tǒng)（SAP ERP/）應用事件應用日志第三方系統(tǒng)開放API文件和對象存儲

大數據系統(tǒng)的第一個重要子系統(tǒng)是攝取和轉換數據源。傳統(tǒng)的定義叫做ETL(,,Load)?，F代數據系統(tǒng)逐漸從ETL轉換到ELT，轉換工作會交給后續(xù)的數據處理子系統(tǒng)。我們也可以稱這部分為大數據管道。

是一個由開源社區(qū)創(chuàng)建的平臺，用于以編程方式創(chuàng)作、調度和監(jiān)控工作流。用戶可以使用其預先構建或自定義的連接器來自動化和控制數據管道。支持以您喜歡的語言構建您自己的管道和連接器。連接器作為容器運行，開箱即可使用。用戶可以使用其 UI 和 API 進行監(jiān)控、調度和編排。由于使用單個開源存儲庫進行標準化和集成，這些連接器的質量更高。它呈指數級增長，并圍繞它建立了一個充滿活力的支持社區(qū)。然而，這項技術仍然是新的，還沒有完全成熟。今年5月，它完成了2600萬美元的A輪融資。

它是一種高性能的可觀察性數據管道，允許組織控制其可觀察性數據。收集、轉換所有日志、指標和跟蹤，并將它們路由到您需要的任何地方。

Rust 開發(fā)的數據管道速度快且內存高效。它旨在處理最苛刻的環(huán)境。端到端旨在成為從 A 到 B 獲取數據所需的唯一工具，部署為守護進程、邊車或服務。支持日志、指標和事件網站開發(fā)，可以輕松收集和處理所有可觀察的數據。不支持任何存儲、可編程轉換（T），提供可編程運行時的所有功能。無限處理復雜用例。使用自主研發(fā)的數據管道定義和轉換DSL，實現數據變形功能。

.io 背后的公司成立于 2016 年。這是一個與供應商無關的高性能可觀察數據管道，允許客戶在本地和云環(huán)境中收集、豐富和轉換日志和其他可觀察數據。它是在今年 2 月收購的。在收購之前，它已從投資者和其他投資者那里籌集了 580 萬美元的風險投資基金。

是一個由社區(qū)創(chuàng)建的平臺，用于以編程方式創(chuàng)作、調度和監(jiān)控工作流。嚴格來說，它不是專業(yè)的ETL工具，它是一個更通用的工作流平臺。但它可以用于大數據數據管道，提供定制的 ETL 功能。

使用將工作流創(chuàng)作為任務的有向無環(huán)圖 (DAG)。調度程序在遵循指定的依賴項的同時在一組工作人員上執(zhí)行您的任務。豐富的命令行實用程序可以輕松地在 DAG 上執(zhí)行復雜的操作。豐富的用戶界面使生產中運行的管道可視化、監(jiān)控進度和在需要時解決問題變得容易。當工作流被定義為代碼（作為代碼）時，它們變得更加可維護、可版本化、可測試和協作。

數據倉庫OLAP

在計算機領域，數據倉庫是用于報告和數據分析的系統(tǒng)，被認為是商業(yè)智能的核心組件。數據倉庫是來自一個或多個不同來源的集成數據的中央存儲庫。數據倉庫將當前數據和歷史數據存儲在一起，用于為整個企業(yè)的員工創(chuàng)建分析報告。存儲在倉庫中的數據是從操作系統(tǒng)上傳的。

它是一個開源分析數據庫，專為高維高基數數據的亞秒級 OLAP 查詢而設計。它是由一家廣告分析公司創(chuàng)建的，已被許多公司使用，包括、、、、易趣、和。它結合了 OLAP 數據庫、時間序列數據庫和搜索系統(tǒng)的思想，創(chuàng)建了一個適用于廣泛用例的統(tǒng)一系統(tǒng)。最初于2012年獲得GPL許可，成為騰云網絡，2015年變更為2許可，2018年作為孵化項目加入

俄羅斯搜索巨頭開發(fā)的面向列的關系型數據庫是近兩年OLAP領域最火爆的，2016年開源，典型用戶包括字節(jié)跳動、新浪、騰訊等知名公司。

它是一個基于 MPP 架構的分布式（關系型 OLAP）分析引擎。每個節(jié)點都有相同的職責，負責部分數據處理（不共享任何內容）。是一個真正的柱狀數據庫管理系統(tǒng)（DBMS）。在，數據總是存儲在列中，包括向量執(zhí)行的過程（向量或列塊）。只要有可能，操作都是基于向量而不是單個值來調度的。它開發(fā)了矢量化執(zhí)行引擎，利用日志合并樹、稀疏索引和CPU功能（如SIMD單指令多數據）充分發(fā)揮硬件優(yōu)勢，可以實現高效計算。因此，當面對大量數據的計算方案時，通常可以達到CPU性能的極限。

它是一個分布式大數據分析引擎，提供SQL接口和多維分析（OLAP），可以堆棧使用。它最初由易趣中國研發(fā)中心開發(fā)。它于 2014 年開源并為此做出了貢獻。具有亞秒級查詢功能和超高并發(fā)查詢功能。由美團、滴滴、攜程、殼牌、騰訊等多家大廠商制造。商業(yè)。商業(yè)采用。

是基于（多維OLAP）技術的。核心技術是OLAP Cube；與傳統(tǒng)技術不同，它運行在強大且可擴展的平臺上，可以支持大量數據（TB 到 PB）。將預先計算（或執(zhí)行）的多維立方體導入低延遲分布式數據庫，實現亞秒級查詢響應。最近4開始用+代替，進一步簡化架構。由于離線任務（多維數據集構建）期間已經完成了大量的聚合計算，因此在執(zhí)行SQL查詢時不需要訪問原始數據，而是直接使用索引將聚合結果組合起來，重新進行計算。性能高于原始數據。一百甚至數千次；由于CPU使用率低，可以支持更高的并發(fā)，

數據湖

數據湖是指以自然格式存儲數據的系統(tǒng)，例如大型二進制對象或文件。它通常以統(tǒng)一的方式存儲所有企業(yè)數據，包括源系統(tǒng)中的原始副本和轉換后的數據，例如用于報告、可視化、數據分析和機器學習的數據。數據湖可以包括關系數據庫的結構化數據、半結構化數據、非結構化數據和二進制數據。

Lake 是一個開源的存儲層，可以為數據湖帶來可靠性。Data Lake 是一個集中式存儲庫，可以存儲任何大小的數據。通常，這些數據將采用原始格式。捕獲數據時未定義數據或架構的結構。這意味著無需精心設計或了解未來可能需要回答的問題，即可存儲所有數據。數據湖存在的問題之一是缺乏可靠性，數據湖中可能存在不良數據。Lake是Data Lake之上的存儲層。Lake 會查看來自 Data Lake 的數據，并確保數據符合指定的架構。這樣，進入Lake的數據才會正確可靠。Lake 可以處理批處理數據和流數據。與Data相比，性能也可以優(yōu)化。

Hudi是一個快速迭代的數據湖存儲系統(tǒng)，可以幫助企業(yè)構建和管理PB級數據湖。Hudi 通過引入諸如增量查詢之類的原語，將流式處理功能引入到批處理中。這些特性使統(tǒng)一服務層能夠提供更快、更新鮮的數據。Hudi 表可以存儲在兼容的分布式文件系統(tǒng)或云對象存儲中，并且與 Hive 和. Hudi 開創(chuàng)了一種新模型（數據組織形式），將文件寫入一個更受管理的存儲層，該存儲層可以與主流查詢引擎互操作，并具有項目演化的一些有趣方面。經驗。

Hudi等數據湖相當于現有OLTP和OLAP技術之間的橋梁。它們可以將數據存儲在OLTP現有的數據結構中，支持CRUD，并提供與現有OLAP框架（如Hive）的集成，實現OLAP分析Kudu，需要單獨部署集群。Hudi不需要它?？梢允褂肏DFS等現有的大數據集群進行數據文件存儲，再使用Hive進行數據分析，相對更適合資源受限的環(huán)境。

它是一種用于跟蹤超大規(guī)模表的新格式。專為對象存儲（如S3）. 開發(fā)開源，2018年11月16日進入孵化器。為公司數據）倉庫基礎。功能與Lake或Hudi類似，但各有優(yōu)缺點。

目標包括：

開源php erp管理系統(tǒng)剛哥談架構（十三）大數據軟件開源版圖(圖)php開源 erp(圖1)

成為靜態(tài)數據交換的開放規(guī)范，保持清晰的格式規(guī)范，支持多語言，支持跨項目需求等。提高可擴展性和可靠性。它可以在節(jié)點或集群上運行。所有修改都是原子的、序列化的和隔離的。原生支持云對象存儲，支持多并發(fā)寫入修復持續(xù)可用性問題，如模型進化、分區(qū)隱藏、支持時間旅行、回滾等機器學習和運維ML&

開源的機器學習和深度學習工具有很多，其中常用的算法工具有、、、、ONNX、-、等，這些工具都非常成熟。隨著/的興起，我們更加關注一些解決大規(guī)模機器學習運維功能的平臺化開源工具。

當前機器學習面臨的挑戰(zhàn)：

總和是解決這些問題的答案。

，顧名思義就是+，是一個開源平臺，開發(fā)出來支持自己的部署。當然，它也支持其他基于它的機器學習引擎。與其他產品相比，因為它建立在強大的基礎上，所以未來和生態(tài)系統(tǒng)更有前景。

它是一個用于管理端到端機器學習生命周期的開源平臺。它分為四個部分：跟蹤、項目、模型和模型注冊。您可以單獨使用這些組件中的每一個 — 例如，您可能希望以模型格式導出模型而無需跟蹤或項目 — 但它們也可以很好地協同工作。

核心理念是對工作流施加盡可能少的限制：它旨在與任何機器學習庫一起使用開源php erp管理系統(tǒng)，習慣上確定有關代碼的大部分內容，并且可以將其集成到現有代碼庫中中間變化最小。同時，它旨在采用以其格式編寫的任何代碼庫，并使其可被多個數據科學家復制和重用。

是華為開源的、端側云全場景按需AI計算框架，為全場景提供統(tǒng)一的API，為全場景AI的模型開發(fā)、模型運營、模型部署提供端到端的能力.

即席查詢（Ad hoc）

它是一個適用于大數據的分布式SQL查詢引擎，使SQL能夠訪問任何數據源。您可以使用具有水平擴展的查詢處理來查詢非常大的數據集。它用于對大小從 GB 到 PB 的各種數據源運行交互式分析查詢。它是專門為交互式分析而設計和編寫的，在擴展到這樣一個組織的規(guī)模的同時，可以達到商業(yè)數據倉庫的速度。雖然它理解并能有效地執(zhí)行 SQL，但它不是一個數據庫，因為它不包含自己的數據存儲系統(tǒng)。它并不意味著是一個通用的關系數據庫。它不是為處理 OLTP 場景而設計的。

SQL 查詢可以在不同的數據源上執(zhí)行。它是一個用于大數據集的低延遲分布式查詢引擎，包括結構化和半結構化數據/嵌套。受谷歌啟發(fā)，設計規(guī)模為數千個節(jié)點，可與BI或分析環(huán)境交互。與此類似，SQL 查詢可以在不同的數據源上執(zhí)行。它是一個用于大數據集的低延遲分布式查詢引擎，包括結構化和半結構化數據/嵌套。受谷歌啟發(fā)，設計規(guī)模為數千個節(jié)點，可與BI或分析環(huán)境交互。在大型數據集上，它還可以用于簡短的交互式臨時查詢?？捎糜谇短撞樵儯?JSON 格式、格式和動態(tài)執(zhí)行查詢。不需要集中的元數據倉庫。

“”的核心服務是“”，她負責接受來自客戶端的請求，處理請求，并將結果返回給客戶端。服務可以在集群上安裝和運行。當在集群中的每個數據節(jié)點上運行時，它可以最大限度地執(zhí)行查詢，而無需網絡或在節(jié)點之間移動數據。用于維護集群的健康。雖然它工作在集群環(huán)境中，但它不依賴，可以運行在任何分布式集群環(huán)境中。唯一的前提是需要。

它是一個開源的集群計算框架，最初由加州大學伯克利分校開發(fā)。相比之下，中間數據會在工作完成后存儲在磁盤中，采用內存中的算法技術，可以在數據寫入硬盤之前在內存中進行分析和計算。它是一個大家都非常熟悉的計算引擎，這里就不再贅述了。值得注意的是，企業(yè)軟件公司是由原作者創(chuàng)建的。該公司還創(chuàng)建了 Lake，這是一個流行的開源項目，涵蓋數據工程、數據科學和機器學習。2021年2月1日，宣布完成10億美元G輪融資。

實時流媒體分析

它是一個框架和分布式處理引擎，用于對無邊界和有邊界的數據流進行有狀態(tài)計算。它可以在所有常見的集群環(huán)境中運行，并且可以以內存速度和任何規(guī)模執(zhí)行計算。擅長處理無界和有界數據集，精確的時間控制和狀態(tài)性使()能夠運行任何處理無界流的應用程序。有界流由一些專門為固定大小的數據集設計的算法和數據結構在內部進行處理，從而產生出色的性能。

是一個用于在其上構建流處理應用程序的數據庫。它是分布式的、可擴展的、可靠的和實時的。通過熟悉的輕量級 SQL 語法，將實時流處理的強大功能與關系數據庫的平易近人的感覺相結合。

是一個流處理庫，它的思想是從移植來的。

這背后的公司正在使用它來構建每天處理數十億個事件的高性能分布式系統(tǒng)和實時數據管道。

提供流處理和事件處理，類似///等工具。

提供的算力比較簡單，適用于比較輕量、簡單的流式計算場景。

數據可視化和商業(yè)智能數據和BI

數據展示和數據可視化是所有數據用戶都喜歡使用的功能，也是傳統(tǒng)BI的標準配置。在這一領域的是騰云網絡。

它是一個開源的 BI 和數據可視化工具箱?？焖?、輕量、直觀，并提供多種選項，所有技能的用戶都可以輕松瀏覽和可視化他們的數據，從簡單的線圖到高度詳細的地理空間圖。

目前已在多家公司大規(guī)模運營。例如，它運行在內部生產環(huán)境中，每天為超過 600 個活躍用戶提供服務，每天查看超過 100,000 個圖表。

旨在使任何人，無論技術水平如何，都能使用數據的力量。SQL 用戶可以使用它來探索、查詢、可視化和共享來自任何數據源的數據。他們的工作反過來使組織中的任何人都可以使用數據。每天，全球數以千計的組織中的數百萬用戶使用它來獲得洞察力并做出數據驅動的決策。

其背后的公司成立于2015年，2020年將被所有公司收購。

2014年成立于美國硅谷，其產品理念是一種簡單、開源的方式，公司中的每個人都可以提出問題，從數據中學習。

支持中文，支持三種不同方式解決查詢問題。

支持常見的可視化類型。

以可視化的方式支持自定義查詢，避免編寫SQL。當然，它也支持SQL編輯。

大數據搜索

是一個基于開源的搜索服務。它基于 Web 界面提供具有分布式多用戶功能的全文搜索引擎。它是用 Java 開發(fā)的，并根據許可條款作為開源發(fā)布。它是一個流行的企業(yè)搜索引擎。專為在云計算中使用而設計，可實現實時搜索，穩(wěn)定可靠，速度快seo優(yōu)化，安裝使用方便。

ELK 是 ELK 的縮寫，分別提供搜索、數據訪問和可視化功能，形成應用棧。

ELK 基本上可以說是開源搜索的事實標準。有非常強大的社區(qū)支持。

.ai 是用于對大型數據集進行低延遲計算的引擎。它存儲和索引數據，以便在服務期間可以查詢、選擇和處理數據。您可以使用托管應用程序組件來自定義和擴展功能。

支持以下功能

它是一個開源的向量數據庫，支持對TB級向量的增刪改操作和近實時查詢。具有高度靈活、穩(wěn)定可靠、查詢速度快等特點。它集成了廣泛使用的矢量索引庫，并提供了一套簡單直觀的API，讓您可以針對不同的場景選擇不同的索引類型。此外，可以過濾標量數據，進一步提高召回率，增強搜索的靈活性。

圖數據庫

關系數據庫具有分類帳式結構。可以通過大多數人都熟悉的SQL查詢。每個條目由表中的一行組成。表通過外鍵約束相關聯，外鍵約束是將信息從一個表連接到另一個表（例如主鍵）的方式。在查詢關系型數據庫時，通常會涉及到慢速的多級連接。

對于圖形（尤其是散點圖），將元素視為節(jié)點或點。線圖的元素類似地由頂點表示。每個節(jié)點都有鍵值對和標簽。節(jié)點通過關系或邊連接。關系具有類型和方向，并且可以具有屬性。圖數據庫僅由點和線組成。當意義在于數據之間的關系時，這種類型的數據庫更簡單，功能更強大。關系數據庫可以輕松處理直接關系，但在關系數據庫中間接關系更難處理。

它是最古老的圖形數據庫。成立于2007年，被評為全球第一的圖數據庫。它是開源的，支持多種編程語言，包括：.Net,,,,,,,,,,,,, Java,, Perl, PHP, Ruby, and。服務器操作系統(tǒng)是OS X，并且。

它是一個開源的分布式圖數據庫，擅長處理千億頂點和萬億邊的超大數據集。提供高吞吐量、低延遲的讀寫能力，內置ACL機制和用戶認證，為用戶提供安全的數據庫訪問方式。

作為高性能、高可靠的圖數據庫，提供線性擴展能力，支持快照實現數據恢復。在查詢語言方面，開發(fā)團隊完全自主研發(fā)了查詢語言-nGQL。

它是一個分布式的、事務支持的、使用構造構建的快速圖數據庫。目標是提供的生產級規(guī)模和吞吐量，以及足夠低的延遲，以提供超過數 TB 結構化數據的實時用戶查詢。組件支持的查詢語法、響應 JSON 和協議緩沖區(qū)超過 GRPC 和 HTTP。

數據質量和元數據

企業(yè)內部運行的數據庫可能有很多種，可以分為大數據平臺、sql數據庫、數據庫、圖數據庫等，從具體的數據庫類型來看，可能是等等，不管什么類型的數據庫，都是一個目的，就是存儲數據，對于如何管理數據，每個數據庫都有一個方法，舉個例子

那么，描述數據的信息就是元數據。元數據數據庫管理有什么用？我們平時的開發(fā)中可能很少考慮這個問題。元數據管理對于保證數據庫的質量非常重要。通過元數據管理

每個業(yè)務系統(tǒng)都可以定義自己的表和視圖，數據來自哪里開源php erp管理系統(tǒng)，流向哪里，數據之間是否存在相關性，是否與其他系統(tǒng)的數據存在重復字段和矛盾字段。這些都是元數據管理要解決的問題。

它是托管在其保護傘下的元數據管理和治理產品。提供API和一系列插件，方便導入數據庫元數據信息進行分析。它還提供了一個 Web 界面來管理元數據。通過這種方式，企業(yè)可以為數據庫元數據建立資產目錄，對這些資產進行分類和管理，為數據分析和數據治理提供高質量的元數據信息。

面對海量且不斷增加的數據對象種類，必須考慮數據管理的實際情況。元數據和數據治理已經成為企業(yè)級數據湖的重要組成部分。為了尋求數據治理的開源解決方案，公司于2015年聯合其他廠商和用戶發(fā)起了數據治理倡議，包括數據分類、集中策略引擎、數據血緣關系、安全和生命周期管理。該項目是這一舉措的結果，社區(qū)合作伙伴繼續(xù)為該項目提供新的功能和特性。該項目用于管理共享元數據、數據分類、審計、安全和數據保護。它為數據訪問控制策略而努力和集成。

CKAN 是一個開源的數據管理系統(tǒng)。它是用于制作開放數據網站的工具。它可以幫助管理和發(fā)布數據集合。它被收集大量數據的國家和地區(qū)、研究機構和其他組織使用。

數據發(fā)布后，用戶可以使用其分面搜索功能瀏覽和查找自己需要的數據，并使用地圖、圖表和表格進行預覽。

加拿大使用 CKAN 來管理數據。作為用戶，說實話，我覺得他的系統(tǒng)真的不好用。

.io 是一個數據發(fā)現和元數據引擎，用于提高數據分析師、數據科學家和工程師在與數據交互時的工作效率。今天，它通過索引數據資源（表、儀表板、流等）和支持基于使用模式的頁面排名樣式搜索（例如，高查詢表比低查詢表更早顯示）來實現這一點。將其視為搜索數據。該項目以挪威探險家羅爾德·阿蒙森 ( ) 的名字命名，他是第一個發(fā)現南極洲的人。