eBPF 结合 MapReduce 实现大规模主机集群的离线行为审计架构

架构设计

文章字数: 3.2k

阅读时长: 14 分

我们面临的技术问题是在一个包含超过50,000台服务器的混合云环境中，实现对所有主机执行的系统调用进行深度、可追溯的离线审计。这些服务器承载着大量遗留应用，操作系统版本从 CentOS 6 到各类定制化的 Linux 发行版不一而足。核心约束条件是：不允许对任何现有应用程序进行代码插桩，必须将对主机CPU和内存的性能损耗降至无法感知的水平，并且整体方案的运营成本必须严格受控。

方案A：基于流式处理的现代可观测性方案

业界主流的方案，如基于 Elastic Agent/Beats、Falco 或商业APM工具，通常遵循一个共同的模式：在每台主机上部署一个功能强大的 Agent，实时采集系统事件，对数据进行初步处理和富化，然后通过网络将结构化数据流实时发送到中央数据平台（如 Elasticsearch、Kafka 集群或SaaS供应商的后端）。

优势分析

实时性： 这是该方案最显著的优点。事件在发生后的秒级内即可被分析和告警，对于实时入侵检测（Real-time Intrusion Detection）场景至关重要。
生态成熟： 围绕 Kafka、Flink、Elasticsearch 等技术栈，有大量成熟的工具、UI和社区支持，能够快速搭建起数据可视化和分析面板。
数据富化： Agent 可以在数据源头关联上下文信息，例如容器元数据、云厂商实例信息等，简化了后续的分析工作。

劣势与否决原因

在我们的特定场景下，该方案的劣势是致命的：

性能开销与兼容性： 在我们那些资源紧张、内核版本老旧的“功勋”服务器上，功能复杂的现代 Agent 本身就是不可忽视的性能负担。高频的系统调用捕获和序列化操作会显著抢占应用CPU时间片。更糟糕的是，部分Agent对低版本内核的支持非常有限，要在50,000台异构主机上保证其稳定运行，维护成本极高。
网络成本与拥塞： 假设平均每台服务器每秒产生10KB的审计数据（这是一个非常保守的估计），整个集群每秒将产生 50,000 * 10KB/s = 500MB/s 的流量。这意味着每天会产生约40TB的数据。支撑如此规模的实时数据摄入所需的网络带宽、Kafka/Elasticsearch集群规模以及随之而来的公有云流量费用，完全超出了项目的预算范围。
需求错配： 我们的核心需求是离线审计与事后追溯，而非实时告警。为非实时需求付出实时架构的巨大成本，在工程上是不合理的。在真实项目中，为不存在的需求进行过度设计是技术债务的主要来源之一。

方案B：eBPF + 本地日志 + 离线 MapReduce

这个方案彻底颠覆了实时流式处理的思路，回归到一种更经典、更具成本效益的批处理架构。其核心思想是解耦“数据采集”和“数据分析”两个阶段，将性能敏感的采集阶段做到极致轻量，而将资源消耗大的分析阶段转移到专门的离线大数据平台。

graph TD
    subgraph "50,000+ Production Hosts"
        direction LR
        A[eBPF Program Kernel Space] -->|Syscall Events| B(Userspace Collector)
        B --> |Append-only| C[Local Log File /var/log/syscall_audit.log]
        D(Puppet Agent) -- Manages --> B
        D -- Manages --> E(Logrotate Cron)
    end

    subgraph "Offline Data Platform (Hadoop)"
        direction TB
        F[MapReduce Job Scheduler e.g., Oozie] -- Triggers Daily --> G{MapReduce Job}
        G -- Reads --> C
        G -- Processes --> H[HDFS]
        H --> I[Audit Reports / Hive Tables]
    end

    F -.-> D
    style F fill:#f9f,stroke:#333,stroke-width:2px

    linkStyle 0 stroke-width:2px,fill:none,stroke:green;
    linkStyle 1 stroke-width:2px,fill:none,stroke:green;
    linkStyle 2 stroke-width:1px,fill:none,stroke:blue;
    linkStyle 3 stroke-width:1px,fill:none,stroke:blue;
    linkStyle 5 stroke-width:2px,fill:none,stroke:orange;
    linkStyle 6 stroke-width:2px,fill:none,stroke:orange;
    linkStyle 7 stroke-width:2px,fill:none,stroke:orange;

优势分析

极致的低开销： eBPF 程序直接在内核中运行，无需上下文切换，效率极高。我们设计的用户空间收集器也极其简单，只负责从eBPF的 perf buffer 中读取数据并以最高效的方式（例如，简单的TSV格式）直接写入本地磁盘，几乎不消耗CPU。这种模式下，对业务应用的影响可以忽略不计。
成本效益： 该方案规避了昂贵的实时数据传输网络费用和庞大的流处理集群。它复用了公司已有的Hadoop大数据平台，将计算成本控制在夜间的闲时资源。本地日志存储也只是临时性的，数据被MapReduce任务消费后即可清理。
强大的可伸缩性与可靠性： Puppet保证了eBPF采集器在整个集群中的一致性部署和版本管理。MapReduce模型天生就是为处理PB级数据而设计的，分析作业的规模可以随Hadoop集群的资源线性扩展。每个节点都是独立采集，网络抖动或中央平台故障不会影响任何数据的采集过程。

劣势与权衡

非实时： 数据的分析结果有24小时的延迟。这是一个明确的、经过业务方确认可以接受的权衡。对于需要T+1生成报告的审计和合规场景，这完全满足要求。
数据丢失风险： 在两次MapReduce作业之间，如果某台主机发生永久性故障（例如硬盘损坏），那么这台主机上尚未被收集的日志将会丢失。在我们的实践中，通过配置Puppet将日志写入有RAID保护的磁盘，并将故障主机的比例控制在极低的水平，我们将这一风险降低到了可接受的范围内。

最终选择与理由

我们最终选择了方案B。决策的关键在于对业务需求的精准理解和对成本的务实考量。方案A是一个技术上更“性感”的现代方案，但它为我们不需要的“实时性”支付了过高的性能、网络和基础设施成本。方案B虽然看起来有些“复古”，但它用一种极其优雅和高效的方式，完美地匹配了我们的核心约束：低侵入、低成本和大规模离线分析。它体现了工程的核心——用最合适的工具，以最低的成本，解决最核心的问题。

核心实现概览

1. eBPF 采集器 (基于BCC)

我们使用BCC (BPF Compiler Collection) 框架简化eBPF程序的开发。以下是一个追踪 execve 系统调用的核心Python脚本 syscall_collector.py。这个脚本会被Puppet分发到所有主机。

#!/usr/bin/python3
# -*- coding: utf-8 -*-

from bcc import BPF
import ctypes as ct
import logging
import logging.handlers
import time
import os

# 定义输出日志格式
LOG_FILE = "/var/log/syscall_audit.log"
# 为了生产环境的稳定性，日志滚动是必须的
LOG_FORMAT = "%(message)s" 
# 配置日志记录器
handler = logging.handlers.WatchedFileHandler(LOG_FILE)
formatter = logging.Formatter(LOG_FORMAT)
handler.setFormatter(formatter)
logger = logging.getLogger(__name__)
logger.setLevel(logging.INFO)
logger.addHandler(handler)
logger.propagate = False

# 1. 定义eBPF C代码
# 这是一个核心部分。我们定义一个数据结构来在内核和用户空间之间传递信息。
# 使用 pack(1) 来确保结构体对齐，避免在不同架构上出现问题。
bpf_text = """
#include <uapi/linux/ptrace.h>
#include <linux/sched.h>
#include <linux/fs.h>

#define MAX_ARG_COUNT 10
#define MAX_ARG_SIZE 128

// The data structure passed from kernel to user space
struct data_t {
    u32 pid;
    u32 ppid;
    char comm[TASK_COMM_LEN];
    char pcomm[TASK_COMM_LEN];
    char filename[DNAME_INLINE_LEN];
    char argv[MAX_ARG_COUNT][MAX_ARG_SIZE];
    int arg_count;
};

// Perf output channel
BPF_PERF_OUTPUT(events);

// kprobe attached to the entry of the execve syscall
int trace_execve(struct pt_regs *ctx, const char __user *filename, const char __user *const __user *__argv) {
    struct data_t data = {};
    struct task_struct *task;
    
    // Get task information
    task = (struct task_struct *)bpf_get_current_task();
    data.pid = bpf_get_current_pid_tgid() >> 32;
    
    // In real projects, checking for task->real_parent is crucial for correctness
    if (task->real_parent) {
        data.ppid = task->real_parent->tgid;
        bpf_probe_read_kernel_str(&data.pcomm, sizeof(data.pcomm), task->real_parent->comm);
    } else {
        data.ppid = 0;
    }
    
    bpf_get_current_comm(&data.comm, sizeof(data.comm));
    bpf_probe_read_user_str(&data.filename, sizeof(data.filename), filename);

    // Read argv. This is tricky and can fail. Production code needs more checks.
    const char __user *argp;
    #pragma unroll
    for (int i = 0; i < MAX_ARG_COUNT; i++) {
        bpf_probe_read_user(&argp, sizeof(argp), (void *)&__argv[i]);
        if (!argp) {
            break;
        }
        bpf_probe_read_user_str(&data.argv[i], MAX_ARG_SIZE, argp);
        data.arg_count++;
    }

    events.perf_submit(ctx, &data, sizeof(data));
    return 0;
}
"""

# 2. 加载 BPF 程序
try:
    b = BPF(text=bpf_text)
    execve_fnname = b.get_syscall_fnname("execve")
    b.attach_kprobe(event=execve_fnname, fn_name="trace_execve")
except Exception as e:
    # A common mistake is not running with sufficient privileges.
    # Log the error and exit gracefully.
    logging.basicConfig()
    logging.error(f"Failed to compile or attach BPF program: {e}")
    exit(1)

# 3. 定义数据处理和输出函数
def print_event(cpu, data, size):
    """
    Callback function for processing events from perf buffer.
    This is where performance matters. Avoid complex logic here.
    """
    try:
        event = b["events"].event(data)
        
        # Format arguments into a single, space-separated string for easy parsing later.
        args = ' '.join(arg.decode('utf-8', 'replace') for arg in event.argv[:event.arg_count])
        
        # Use a tab-separated format for robustness in MapReduce jobs.
        log_line = (
            f"{int(time.time())}\t"
            f"{event.pid}\t"
            f"{event.ppid}\t"
            f"{event.comm.decode('utf-8', 'replace')}\t"
            f"{event.pcomm.decode('utf-8', 'replace')}\t"
            f"{event.filename.decode('utf-8', 'replace')}\t"
            f"\"{args}\""
        )
        logger.info(log_line)
    except Exception:
        # Don't let a single corrupted event crash the whole collector.
        # In production, you might want to log this to a separate error log.
        pass

# 4. 打开 perf buffer 并开始轮询
b["events"].open_perf_buffer(print_event)
while True:
    try:
        b.perf_buffer_poll()
    except KeyboardInterrupt:
        exit()
    except Exception as e:
        # If polling fails, log it, wait, and try again.
        # This prevents transient errors from killing the service.
        time.sleep(1)

2. Puppet 模块

下面是一个简化的 Puppet manifest audit_collector::init.pp，用于部署和管理上述脚本。

# Class: audit_collector
#
# This class manages the deployment and lifecycle of the eBPF syscall auditor.
#
class audit_collector (
  String $source_file = 'puppet:///modules/audit_collector/syscall_collector.py',
  String $install_path = '/usr/local/sbin/syscall_collector.py',
  String $service_name = 'syscall-collector',
) {

  # Prerequisite: Ensure BCC tools are installed.
  # In a real environment, this would be a more robust package resource
  # that handles different Linux distributions.
  package { 'bcc-tools':
    ensure => installed,
  }

  # 1. Deploy the collector script from Puppet master to the agent node.
  file { $install_path:
    ensure => file,
    owner  => 'root',
    group  => 'root',
    mode   => '0755',
    source => $source_file,
    notify => Service[$service_name], # Restart service if script changes
  }

  # 2. Manage the collector as a systemd service for robustness.
  file { "/etc/systemd/system/${service_name}.service":
    ensure  => file,
    owner   => 'root',
    group   => 'root',
    mode    => '0644',
    content => epp('audit_collector/systemd.service.epp', {
      'install_path' => $install_path,
    }),
    notify  => Service[$service_name],
  }

  service { $service_name:
    ensure    => running,
    enable    => true,
    subscribe => File["/etc/systemd/system/${service_name}.service"],
    require   => [Package['bcc-tools'], File[$install_path]],
  }

  # 3. Use logrotate to manage log file growth. This is critical.
  logrotate::rule { 'syscall_audit':
    path         => '/var/log/syscall_audit.log',
    copytruncate => true,
    missingok    => true,
    rotate_every => 'day',
    rotate       => 7,
    compress     => true,
    delaycompress=> true,
    su           => 'root root',
  }
}

3. MapReduce 分析作业 (Python/mrjob)

这个Python脚本使用 mrjob 库来定义一个简单的 Hadoop Streaming 作业。它会读取所有节点上的日志，并统计每个可执行文件被哪些父进程调用的频率，以发现异常行为（例如，bash 启动了 ncat）。

# suspicious_process_analyzer.py
from mrjob.job import MRJob
from mrjob.step import MRStep
import re

# A simple rule: flag commands that are often used for malicious purposes
SUSPICIOUS_COMMANDS = {'ncat', 'nc', 'wget', 'curl', 'base64', 'socat'}

class SuspiciousExecutionDetector(MRJob):

    def steps(self):
        return [
            MRStep(mapper=self.mapper_parse_log,
                   reducer=self.reducer_aggregate_calls)
        ]

    def mapper_parse_log(self, _, line):
        """
        Mapper: Parses each log line and emits a key-value pair.
        Key: (Parent Process, Executed Command)
        Value: 1
        """
        try:
            # timestamp, pid, ppid, comm, pcomm, filename, args
            parts = line.strip().split('\t')
            if len(parts) != 7:
                # Handle malformed lines gracefully
                self.increment_counter('errors', 'malformed_lines', 1)
                return

            parent_comm = parts[4]
            # filename is the command being executed
            command = os.path.basename(parts[5])

            if command in SUSPICIOUS_COMMANDS:
                # Key is a tuple of parent process and the command itself
                yield (parent_comm, command), 1
        except Exception as e:
            self.increment_counter('errors', 'mapper_exception', 1)
            # In a production job, you might log the exception details

    def reducer_aggregate_calls(self, key, values):
        """
        Reducer: Sums up the counts for each key.
        Key: (Parent Process, Executed Command)
        Value: Total count
        """
        parent_comm, command = key
        total_count = sum(values)
        
        # We are only interested in significant occurrences
        if total_count > 10:
            yield (parent_comm, command), total_count

if __name__ == '__main__':
    SuspiciousExecutionDetector.run()

这个作业可以这样在命令行中运行，从HDFS读取数据：
python suspicious_process_analyzer.py hdfs:///raw_audit_logs/2023-10-27/* > analysis_result.txt

架构的局限性与未来迭代

当前架构并非没有缺点。最明显的是T+1的数据延迟，这使得它不适用于需要即时响应的安全场景。其次，主机本地日志在被收集前存在单点故障风险，尽管概率很低。对eBPF的依赖也意味着我们需要持续关注和管理目标主机的内核版本兼容性，Puppet在这里扮演了至关重要的角色，它可以根据主机的 facter 信息（如kernel version）来决定部署哪个版本的采集器，或者干脆跳过不兼容的主机。

未来的一个迭代方向是建立混合模型：对于极少数高价值、高风险的核心服务器，可以引入一个轻量级的流式通道（例如通过 Fluentd 直接发送到 Kafka），用于实时告警。而99%的普通服务器则继续沿用这套低成本的离线批处理方案。此外，MapReduce作业可以进化得更为复杂，引入基于历史行为基线的机器学习模型，从而实现更智能的、非基于固定规则的异常检测。

eBPF Puppet MapReduce 可观测性大数据

构建以Memcached为核心特征缓存的可观测模型部署架构

2023-10-27 架构设计

架构设计 Memcached Prometheus 模型部署

构建从Zustand到Ktor的全栈可观测性整合Sentry与Pulumi实现分布式追踪

2023-10-27 可观测性

Sentry Pulumi Ktor Zustand Turbopack