HOME > 解決方案

DevOps 我們在 Splunk Enterprise 中提供了可觀測性

2021/12/30

對您而言,以下一或多項敘述 (和/或挑戰) 可能適用於您和您工作的組織。您聽過或說過其中哪一個?
    我們正移轉到可觀測性
    我們正對 IT 營運進行現代化改造
    我們正從大型應用程式轉向微服務
    我們正在加速數位轉型

Splunk 可以透過多種方式幫助您解決這些問題。今天,我將重點介紹一個可以解決其中許多挑戰的方法,特別是使用 Splunk Observability Cloud 內容套件。
我們將同時使用 Splunk Synthetic MonitoringInfrastructure MonitoringApplication Performance Monitoring,將它們整合在一個 Splunk IT Essential Work (ITE Work) 的介面上,而 IT Service Intelligence (ITSI) 則讓您只需點擊幾下即可深入了解結果,並在內容中取得指向 Splunk Observability Cloud 的深層連結。 

這個內容套件提供:1 個服務分析器 (Service Analyzer)、25 個以上的服務、70 個以上的關鍵績效指標 (KPI)、15 個以上的儀表板、5 個透視儀表板和 2 個技術附加元件 (TA)。因此,您可以在幾分鐘內就取得結果 (而不是幾天),並能提供可觀測性資料的檢視,讓 IT 營運、開發營運、業務和 IT 主管可以瞭解情況並採取行動。 

它對 ITE Work 和 ITSI 都是免費的,我還曾經在部落格中介紹 Microsoft ExchangeMicrosoft 365第三方 APM 的內容套件。

 
圖 1-1 可觀測性內容套件:高階主管透視儀表板

如何在內容中從 ITSI 深層連結到 Splunk Observability Cloud
Splunk Observability Cloud 內容套件的一大優勢是能夠在 5 秒內,從 ITSI 深層連結到 Splunk Observability Cloud 的完整內容。 

為了簡單起見,我將透過 4 個簡單的步驟說明如何做到這一點,並提供對應的螢幕擷取畫面。 

第 1 步:
只需在 Service Analyzer 中單擊 2 次,您就可以找到想要的特定實體。在這個範例中,我們將深入研究 APM 中的 "checkoutservice",並檢視持續時間這一項指標,如下面的螢幕擷取畫面所示。
 



第 2 步:
點擊所需的實體後,就會進入實體詳細資訊檢視,「Splunk APM 概觀」中會顯示該實體的結果,特別是 RED 指標。



 
第 3 步:
接下來,按一下打開實體資訊面板圖示。右側是附加詳細資訊,可提供大量資訊和相關內容,包括深層連結等。按一下 [Splunk APM 標記重點 ─ 錯誤] 連結。



 
第 4 步:
最後,我們會在「Splunk APM 標記重點 ─ 錯誤」中看到 Splunk Observability Cloud 相關內容,並顯示 "checkoutservice" 的詳細資訊。


 
Splunk Observability Cloud 內容套件中的透視儀表板
透視儀表板 (Glass Table) 讓您能夠看見和監控 IT 和業務服務之間的關係和依存性。您可以使用透視儀表板建立 IT 拓撲或業務流程的動態內容檢視,並即時監控它們。您可以新增如 KPI、臨時搜尋和服務健康評分等指標,這些指標會根據您設計的背景即時更新。透視儀表板可顯示由 KPI 和服務產生的即時資料。

Splunk Observability Cloud 內容套件包括 5 個預設定的透視儀表板,您可以使用它們來深入了解關鍵服務、KPI 和實體。與此相關的角色有很多,以下我們將重點介紹一些,以及為什麼這對他們很重要。
1.    IT 營運:作為 IT 營運團隊的成員 (或負責人),我需要瞭解應用程式和基礎架構的效能和可用性,以快速修復或回報需要修復的問題,以確保我可以持續向所有客戶提供服務,無需中斷。
2.    資訊長/技術長:作為資訊長 (CIO) 和技術長 (CTO) 或這些辦公室的成員,我需要確保關鍵系統和應用程式的完全可見度並保持警戒,讓業務主管能夠在不中斷或不發生事故的情況下營運公司的業務。
3.    業務負責人:作為業務負責人或業務團隊的成員,我需要瞭解使用者操作以及應用程式和基礎架構的效能,以便能夠有效地營運業務,並快速且高效率地為客戶服務。
4.    支援分析人員:作為客戶或營運支援團隊的成員 (或主管),我想立即瞭解業務中所有關鍵服務的狀態,讓我們的團隊能夠以準確的資訊快速地為用戶提供最好的服務。
5.    開發營運人員 (DevOps)/網站可靠性工程師 (SRE):作為工程團隊的成員 (或主管),我需要確保能不間斷地向所有客戶提供服務,並為相關人員提供瞭解應用程式和基礎架構的效能和可用性的可見度,以便他們能夠完全瞭解情況。
6.    開發安全營運人員 (DevSecOps):作為開發安全營運團隊或實務的成員 (或主管),我需要深入瞭解較低層和生產的環境,以提高安全問責能力,進而更快地提供安全服務,同時降低業務和客戶風險。

在 Splunk Observability Cloud 內容套件中,我們提供了 5 個透視儀表板:[請記住,複製這些範例並套用在您的環境中很簡單,通常只需幾分鐘]
1.    高階主管透視儀表板
2.    概觀 [列]
3.    概觀 [包含指針型儀表層]
4.    NOC 透明儀表板 [層]
5.    DevOps SRE 詳細檢視

透明儀表板:高階主管透明儀表板
高階主管透明儀表板提供 3 個主要可觀測性領域的彙整資訊:綜合監控、基礎架構監控和應用程式效能監控。 
在單一檢視中,您可以快速且即時地瞭解所有環境中發生的情況,並能單擊取得其他詳細資訊。
這可回答發生什麼和為什麼會發生,並在內容中提供連線到 Splunk Observability Cloud 中來源系統的深層連結。這種作法可簡化「大海撈針」的程序並快速解決根本原因問題,顯著提高平均調查時間 (MTTI)/平均偵測時間 (MTTD)/平均解決時間 (MTTR)。
在左下角,您還可以看到以下主要趨勢:整體、綜合、基礎架構監控和應用程式效能監控。藉此,您可以快速瞭解應用程式和基礎架構的歷史記錄以及客戶的操作。

您現在是如何獲得這些深入資訊的?
 

圖 1-2 可觀測性:高階主管透視儀表板

透明儀表板:概觀 [列]
此透明儀表板提供以下 3 個主要元素的快速概觀:綜合監控、應用程式效能監控和基礎架構監控。

只需按一下詳細資訊,即可立即深入瞭解所有環境中所有的技術堆疊。 

接著再按一次,您就能進入 Splunk Observability Cloud,觀看包含深層連結的完整結果。只需點擊 2 次和幾秒鐘的時間,就能讓您找到根本原因。

 
圖 1-3 可觀測性:概觀 [列]

透明儀表板:概觀 [包含指針型儀表層]
這個透視儀表板可從遠距提供即時深入資訊和結果,左側的指針型儀表可讓您輕鬆瞭解整個環境的綜合監控、應用程式效能監控和基礎架構監控結果。

這些深入資訊可為各種團隊和相關人士提供立即的價值。按一下任何一個 KPI,即可取得詳細資訊。再按一下,就可取得 Splunk Observability Cloud 中的完整原始結果。
透過檢視這個透視儀表板,我可以很快瞭解綜合監控的結果,也可以在基礎架構監控的健康狀況摘要中看到 AWS 發生了一些事情…… 這可能是根本原因,我知道或許應該從那邊開始查起。

您現在可以做到這樣嗎?
 

圖 1-4 可觀測性:概觀 [包含指針型儀表層]

透明儀表板:NOC 透明儀表板 [層]
現代網路營運中心 (NOC) 正在轉型到具備可觀測性,以更加瞭解使用者、基礎架構、關鍵業務流和應用程式的所有堆疊中正在發生的事情。
互動式的透明儀表板使他們能夠即時取得這些結果,並在情況/事件發生時主動管理,以便快速找到並解決問題。
這種簡化的檢視專為 40 呎高的顯示器牆或大廳監視器而設計,可實現可見度和警覺能力,顯示現在所有出現的關鍵 KPI,以及它們的趨勢和歷史。
 

圖 1-5 可觀測性:NOC 透明儀表板 [層]

透明儀表板:DevOps SRE 詳細檢視
這當然是我最喜歡的透明儀表板。它對組織非常有價值!
在這裡,您可以深入瞭解 Splunk 綜合監控、應用程式效能管理和基礎架構監控;除了摘要層外還有兩個深入層,只要按一下即可取得每一層的其他詳細資訊。 
在綜合監控瀏覽器中,我可以看到健康狀況是 20 且為紅色,並且有 1 個「500+ 代碼」的報告。我按一下「500+ 代碼」以準確瞭解是哪一個瀏覽器/網站產生這一個代碼,以及原因為何。只要再按一次,您就可以瀏覽 Splunk Observability Cloud 中完整的內容資訊。沒錯,在這裡您只需點擊 2 次,2 秒鐘即可取得原始結果。

 
圖 1-6 可觀測性:DevOps SRE 詳細檢視

如需透明儀表板的詳細資訊,請參閱《ITSI 中透明儀表板編輯器概觀》和影片「Splunk ITSI 透明儀表板入門」

Splunk Observability Cloud 內容套件中的服務分析器、服務和 KPI 
可觀測性內容套件包括 1 個服務分析器、25 多個服務和 70 多個 KPI,我們在此處將重點介紹每一類中的一個。

服務分析器:
服務分析器 (Service Analyzer) 是 Splunk IT Service Intelligence (ITSI) 的首頁,是您監控 IT 營運的起點。服務分析器使您能夠一目了然地查看 IT 環境的即時執行狀況。
服務分析器提供 ITSI 服務執行狀況評分和 KPI 搜尋結果的概觀,這些結果目前顯示最高嚴重性等級。使用服務分析器快速查看 IT 營運的狀態,並識別執行結果超出預期的服務和 KPI。按一下服務分析器中的任何圖塊即可深入瞭解資訊,以進一步分析和比較一段時間內的搜尋結果。
服務分析器檢視有兩種:並排檢視和樹狀檢視。您可以從每個檢視深入查看更詳細的資訊,以調查健康評分較差的服務。
在這個服務分析器中,我們從樹狀檢視中可以清楚看到 3 個主要服務中的每一個,以及來自底層 KPI 回報的狀態

 
圖 1-7 可觀測性:服務分析器 ─ 樹狀檢視

服務:
服務是對應業務目標的 IT 物件。服務的定義相當廣泛。針對環境中的對象建立業務和技術服務。某些服務可能會依賴其他服務。服務包含 KPI,以監控服務執行狀況、執行根本原因分析、接收警報並確保您的 IT 營運符合業務服務等級協議 (SLA)。
以下是 Observability Cloud 內容套件中服務分析器的並排檢視。如您所見,您可以取得 25 種以上服務的深入資訊,以及它們在給定時間範圍內的狀態,並可以單擊查看任何服務的 KPI、實體和其他資訊。

 
圖 1-8 可觀測性:服務分析器 ─ 並排檢視

關鍵績效指標 (KPI):
KPI 是一個週期性儲存的搜尋,可回傳 IT 效能指標的值,例如 CPU 負載百分比、記憶體使用百分比、回應時間等。KPI 可用於監控服務的執行狀況。
您會針對特定服務建立 KPI。它定義了建立搜尋以瞭解基礎資料所需的一切,包括如何存取、彙總和設定閾值。您可以使用搜尋結果的值來監控服務執行狀況、檢查 IT 元件的狀態,以及對可能表明 IT 系統存在問題的趨勢進行故障排除。
在 Splunk Observability Cloud 內容套件中,我們包含了 70 多個 KPI,藉此您可以深入瞭解可觀測性的結果。正如您在下方畫面中看到的,只需按一下即可取得結果。您還可以快速查看底層的實體以及每個實體的回報方式。
 

圖 1-9 可觀測性:服務分析器 ─ KPI ─ 實體

Splunk Observability Cloud 內容套件中的實體類型和重要指標 

實體類型和重要指標
Splunk Observability Cloud 內容套件包括自訂實體類型。您可以使用關聯視覺化各種實體和進行故障排除。例如,此內容套件隨附「AWS EC2」的實體類型,可將您的 AWS EC2 服務匯入成實體。您可以在「基礎架構概觀」中依照實體類型進行分組,並視覺化與 AWS EC2 實體健康相關的關鍵指標 (服務)。 
該內容套件包括 15 種自訂實體類型,一種用於 Splunk 基礎架構監控附加元件中的每個指標,一種用於 Splunk APM,一種用於 Splunk 綜合監控附加元件中的每個指標。
1.AWS EC2
2.AWS Lambda
3.Azure 功能
4.Azure 虛擬機器
5.GCP 雲端功能
6.GCP 運算引擎
7.Kubernetes Pod
8.作業系統主機
9.Splunk 基礎架構監控
10.Splunk APM
11.綜合 API
12.綜合基準
13.綜合內容
14.綜合 HTTP
15.綜合真實瀏覽器

 
圖 1-10 可觀測性:基礎架構概觀 ─ 實體類型

重要指標
在 Splunk Observability Cloud 內容套件中,您將取得 34 個立即即用的重要指標。這些指標可顯示實體類型中的關鍵摘要,描述實體的整體健康狀況,包括以下內容:CPU 利用率、網路輸入、網路輸出、磁碟讀取操作、磁碟寫入操作等。您可以在實體健康狀況頁面上觀看這些指標,並進一步深入檢視各個 Exchange 實體。 

 
圖 1-11 可觀測性:基礎架構概觀 ─ 重要指標

您可以選擇新增、修改或刪除預設的實體類型。如需建立和編輯實體類型的說明,請參閱《在 ITSI 中建立自訂實體類型》。 

Splunk Observability Cloud 內容套件中的透視儀表板
透視儀表板可用於表示與某些業務相關的表格或圖表。它是透過面板完成的。透視儀表板中的面板可以視覺方式保存圖表或彙總資料。我們可以新增多個面板,然後將多個報告和圖表加入到同一個透視儀表板。
我們在 Splunk Observability Cloud 內容套件中提供了 13 個透視儀表板,讓您可以快速且輕鬆地取得有價值的資訊。
1.    SIM ─ 基礎架構指標和日誌記錄 (SIM - Infrastructure Metrics and Logging)
2.    Splunk APM 概觀 (Splunk APM Overview)
3.    Splunk 基礎架構監控命令健康檢查 (Splunk Infrastructure Monitoring Command Health Check)
4.    Splunk 基礎架構監控模組化輸入健康檢查 (Splunk Infrastructure Monitoring Modular Input Health Check)
5.    綜合 API 檢查詳細資訊 (Synthetic API Check Detail)
6.    綜合基準檢查詳細資訊 (Synthetic Benchmark Check Detail)
7.    綜合內容檢查詳細資訊 (Synthetic Content Check Detail)
8.    綜合 HTTP 檢查詳細資訊 (Synthetic HTTP Check Detail)
9.    綜合監控 KPI 瀏覽器 (Synthetic Monitoring KPI Browser)
10.    綜合監控 KPI 比較 (Synthetic Monitoring KPI Comparison)
11.    綜合真實瀏覽器檢查詳細資訊 (Synthetic Real Browser Check Detail)
12.    歡迎使用 Splunk Synthetic Monitoring 附加元件 (Welcome to Splunk Synthetic Monitoring Add-on)
13.    SIM 導覽 (SIM Navigation)
以下是 Splunk APM 概觀透視儀表板,可根據需要提供 RED 指標 (速率、錯誤、持續時間) 摘要。在此範例中,我們正在查看「結帳」服務。
 

圖 1-12 可觀測性:Splunk APM 概觀透視儀表板 

下一步
我最想要的就是詳細資訊,而您現在已經有了。感謝您的閱讀,我希望您喜歡以上的內容。如果您想觀看教學影片或是更多資訊,請瀏覽 Splunk Observability Cloud 內容套件詳細介紹影片。 
現在您已經瞭解了什麼是第三方 APM 內容套件,是時候安裝並讓它發揮價值了!
如需詳細的安裝步驟,請參閱《安裝和設定 Splunk Observability Cloud 內容套件》。
________________________________________
這篇部落格文章是由 Splunk IT 和可觀測性現場解決方案工程師 Todd DeCapua 在以下人員的協助下撰寫的:Splunk 的 Tom Martin、Marie Duran、Adam Schalock、Jeremy Hicks 和 Joel Schoenberg。
 
作者
Todd DeCapua
Todd DeCapua 是一位充滿熱情的軟體主管、技術宣傳大使和商業領袖,擁有豐富的實務專業知識。
他身兼多種工作/職務,包括:Splunk 顧問工程師,美國德拉瓦州 Splunk 本地使用者群組負責人,摩根大通全球技術執行董事、CSC 資訊部門資訊長兼技術和產品創新資深總監, Hewlett-Packard Enterprise 首席技術傳播者、PS and Tech Integrations 主管、Shunra Software 合作夥伴、TechBeacon.com 聯合創辦人、Vivit Worldwide 創新和戰略副總裁、Apposite Technologies 獨立董事和 TEDx Wilmington 的技術與創新主持人。
他還是一名線上作者和撰稿人、著名的演講者/傳播者,並合著了 O'Reilly 出版的《有效的效能工程》一書。