tracepoint event tracing 實踐

tracepoint 是一種 linux kernel 提供的一種觀測內(nèi)核事件的機制靶庙,其原理是內(nèi)核開發(fā)者在代碼中設置了靜態(tài)的 hook 點,使得用戶可以把自己的程序 attach 到任一 hook 點,這樣內(nèi)核每次執(zhí)行到 tracepoint 對應的代碼時就可以觸發(fā)用戶提供的程序執(zhí)行韵吨。

基于 tracepoint 機制主慰,linux 實現(xiàn)了一套 event based tracing 基礎設施,方便對整個系統(tǒng)進行一個觀測基括。

并不是所有的 tracepoint 都可以用來做 event tracing颜懊,僅當內(nèi)核代碼中把 trace 信息保存到 tracing buffer,并且定義了如何打印 trace 信息风皿,tracepoint 才能用來做 event tracing河爹。

本文分析一下使用 ebpf 庫創(chuàng)建 tracepoint 的大致原理和流程。loader ebpf 和 maps 的過程不再介紹桐款,主要分析和 perf event 相關的代碼實現(xiàn)咸这。

bpf 代碼直接使用的 bcc 的 execsnoop-bpf.c

我們的 main.go 核心代碼如下

package main

import (
  ...
)

// we want to skip args filed when use binary.Read
type event struct {
    Pid       int32
    Ppid      int32
    Uid       uint32
    Retval    int32
    ArgsCount int32
    ArgsSize  uint32
    Comm      [16]int8
}

//go:generate go run github.com/cilium/ebpf/cmd/bpf2go -cc clang -cflags "-O2 -g -Wall -Werror" kern kern.c -- -I../../include -I/usr/include/x86_64-linux-gnu
func main() {
    fmt.Println("Hello eBPF!")
    if err := rlimit.RemoveMemlock(); err != nil {
        log.Fatal(err)
    }
    objs := kernObjects{}
    if err := loadKernObjects(&objs, nil); err != nil {
        log.Fatalf("loading objects: %s", err)
    }
    defer objs.Close()
    fmt.Println("load ebpf program finish")

    kpEnter, err := link.Tracepoint("syscalls", "sys_enter_execve", objs.TracepointSyscallsSysEnterExecve, nil)
    if err != nil {
        log.Fatalf("opening tracepoint: %s", err)
    }
    defer kpEnter.Close()
    kpExit, err := link.Tracepoint("syscalls", "sys_exit_execve", objs.TracepointSyscallsSysExitExecve, nil)
    if err != nil {
        log.Fatalf("opening tracepoint: %s", err)
    }
    defer kpExit.Close()

    rd, err := perf.NewReader(objs.Events, os.Getpagesize())
    if err != nil {
        log.Fatalf("opening perf reader: %s", err)
    }
    defer rd.Close()

    stopper := make(chan os.Signal, 1)
    signal.Notify(stopper, os.Interrupt, syscall.SIGTERM)
    go func() {
        <-stopper

        if err := rd.Close(); err != nil {
            log.Fatalf("closing ringbuf reader: %s", err)
        }
    }()

    log.Println("Waiting for events..")
    var event event
    fmt.Printf("%-10s%-10s%-16s%s\n", "Pid", "Ppid", "Comm", "Args")
    for {
        record, err := rd.Read()
        if err != nil {
            if errors.Is(err, ringbuf.ErrClosed) {
                log.Println("Received signal, exiting..")
                return
            }
            log.Printf("reading from reader: %s", err)
            continue
        }
        if record.LostSamples != 0 {
            log.Printf("perf event ring buffer full, dropped %d samples", record.LostSamples)
            continue
        }
        r := bytes.NewReader(record.RawSample)
        err = binary.Read(r, binary.LittleEndian, &event)
        if err != nil {
            log.Fatal("read err", err)
        }
        args, err := io.ReadAll(r)
        if err != nil {
            log.Fatalf("read err: %v", err)
        }
        argsz := string(bytes.ReplaceAll(args, []byte{0}, []byte{' '}))
        comm_ := make([]byte, 0, len(event.Comm))
        for _, c := range event.Comm {
            comm_ = append(comm_, byte(c))
        }
        comm := unix.ByteSliceToString(comm_)
        fmt.Printf("%-10d%-10d%-16s%s\n", event.Pid, event.Ppid, comm, argsz)
    }
}

main 程序中直接調(diào)用了 link.Tracepoint函數(shù)來創(chuàng)建對應的 Link魔眨。
Tracepoint函數(shù)主要做了以下操作

  1. 獲取一個對應 trace event 的 fd媳维,這個 trace event 由一個 id 唯一確定。獲取 trace event fd 核心原理是執(zhí)行了系統(tǒng)調(diào)用 perf_event_open遏暴。此時 pid 設置為 -1, 侄刽,perf event 的類型是 tracepoint, attr 的 config 設置為 trace event id。
  2. 將 ebpf 程序 attach 到 perf event 上朋凉。在支持 perf_event link 的服務器上州丹,直接把 ebpf 對應的 fd link 到 perf event 對應的 fd 上,這樣就實現(xiàn)了 attach。
    在不支持 perf_event link 的服務器上墓毒,使用傳統(tǒng)的 attach 的方法吓揪。bpftool feature list_builtins link_types可以用來查看支持的 link type。

perf.NewReader 使用 maps 的 fd 創(chuàng)建 reader 的流程

  1. 創(chuàng)建 epoll 實例所计。原理是調(diào)用 syscall epoll_create柠辞,得到一個 epoll_fd
  2. 獲取一個 event fd 用于接收內(nèi)核事件通知
  3. 調(diào)用 epoll_ctl 將 event fd 添加 epoll 實例上,相當于向內(nèi)核注冊
  4. 對于每個 CPU主胧,創(chuàng)建一個對應的 perf event ring叭首。其原理也是調(diào)用 perf event open,不過這次調(diào)用 perf event open 時設置了 cpu 號讥裤,并且設置了 type 類型為 PERF_TYPE_SOFTWARE放棒。創(chuàng)建的 perf event ring 添加到 Reader 結構體的 rings 中,用于后續(xù)讀取

perf.Reader 原理

創(chuàng)建 reader 的時候己英,為每個 CPU 創(chuàng)建了一個 perf event ring间螟,并把 ring 添加 epoll 實例的 fd 列表中。reader 的時候就是在 epoll 實例上 wait损肛,每次 wait 可能會有多個 CPU 上有 event 發(fā)生做个,此時我們能知道有哪些 CPU 上有 event 讀粉楚,把這些 CPU 對應的 ring 放到 epollRings 列表中。只要 epollRings 列表中有未處理的數(shù)據(jù),就不會執(zhí)行 epoll wait寞射。

readRecord 的原理

先讀取固定 size 的 perf event header旁瘫,根據(jù) header.type 判斷是 record lost 還是 record sample绰咽。

如果是 record sample, 先讀取一個 uint32粹污,可以知道這個 record 的大小,然后為 record 分配內(nèi)存并從 reader 中讀取數(shù)據(jù)

查看系統(tǒng)中支持的 tracepoint 列表

cat /sys/kernel/debug/tracing/available_events
當前系統(tǒng)上共有 1853 個tracepoint
等同于 perf list tracepoint | cat

相關系統(tǒng)調(diào)用

perf_event_open
創(chuàng)建一個文件描述符用戶測量性能信息捏检,可后續(xù)用于其它系統(tǒng)調(diào)用荞驴,比如 mmap, read, fnctl

int syscall(SYS_perf_event_open, struct perf_event_attr *attr, pid_t pid, int cpu, int group_fd, unsigned long flags);

pid > 0 && cpu == -1
measures the specified process/thread on any CPU
pid = 0 && cpu >= 0
measures the calling process/thread only when running on the specified CPU
pid == -1 and cpu >= 0
This measures all processes/threads on the specified CPU.

event_fd
創(chuàng)建一個文件描述符用于接收內(nèi)核事件通知,后續(xù)可用于 read, write, pull, select

int eventfd(unsigned int initval, int flags);

epoll_ctl
用于把 fd add/modity/remove 到 epfd 對應的 epoll 實例中

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

epoll_wait
等待 epoll 實例上的 IO 事件贯城。返回值為 io ready 的 fd 的數(shù)量

int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);
int epoll_pwait(int epfd, struct epoll_event *events, int maxevents, int timeout, const sigset_t *sigmask);
int epoll_pwait2(int epfd, struct epoll_event *events, int maxevents, const struct timespec *timeout, const sigset_t *sigmask);
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末熊楼,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子能犯,更是在濱河造成了極大的恐慌鲫骗,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件踩晶,死亡現(xiàn)場離奇詭異执泰,居然都是意外死亡,警方通過查閱死者的電腦和手機渡蜻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進店門坦胶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事顿苇。” “怎么了税弃?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵纪岁,是天一觀的道長。 經(jīng)常有香客問我则果,道長幔翰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任西壮,我火速辦了婚禮遗增,結果婚禮上,老公的妹妹穿的比我還像新娘款青。我一直安慰自己做修,他們只是感情好,可當我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布抡草。 她就那樣靜靜地躺著饰及,像睡著了一般。 火紅的嫁衣襯著肌膚如雪康震。 梳的紋絲不亂的頭發(fā)上燎含,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天,我揣著相機與錄音腿短,去河邊找鬼屏箍。 笑死,一個胖子當著我的面吹牛橘忱,可吹牛的內(nèi)容都是我干的赴魁。 我是一名探鬼主播,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鹦付,長吁一口氣:“原來是場噩夢啊……” “哼尚粘!你這毒婦竟也來了?” 一聲冷哼從身側響起敲长,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤郎嫁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后祈噪,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泽铛,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年辑鲤,在試婚紗的時候發(fā)現(xiàn)自己被綠了盔腔。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖弛随,靈堂內(nèi)的尸體忽然破棺而出瓢喉,到底是詐尸還是另有隱情,我是刑警寧澤舀透,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布栓票,位于F島的核電站,受9級特大地震影響愕够,放射性物質發(fā)生泄漏走贪。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一惑芭、第九天 我趴在偏房一處隱蔽的房頂上張望坠狡。 院中可真熱鬧,春花似錦遂跟、人聲如沸逃沿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽感挥。三九已至,卻和暖如春越败,著一層夾襖步出監(jiān)牢的瞬間触幼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工究飞, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留置谦,地道東北人。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓亿傅,卻偏偏與公主長得像媒峡,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子葵擎,可洞房花燭夜當晚...
    茶點故事閱讀 44,960評論 2 355