用开源工具打造低成本用户洞察系统：PostHog+Metabase+Python 实战指南

2025/3/28 15:49:07 14 0 0 0

用开源工具，低成本撬动用户洞察力

1. 为什么选择这些工具？

2. 搭建流程：从0到1的用户洞察系统

2.1 数据收集：PostHog 行为追踪

2.2 数据处理：Python 脚本 + API

2.3 数据分析：Metabase 可视化

2.4 身份识别的简单实现

2.5 避坑指南

3. 总结：打造自己的用户洞察利器

用开源工具，低成本撬动用户洞察力

嘿，哥们儿，是不是也经常被“用户数据”搞得头大？想了解用户的行为，想看看数据背后的故事，但又苦于预算有限，买不起那些动辄几十万的商业分析工具？别担心，今天咱就来聊聊怎么用开源工具，搭建一个低成本、高效率的用户洞察系统。

我用过的，真好使！不用花大价钱，就能像开了天眼一样，把用户的一举一动都看得清清楚楚。咱们今天的主角有三个：

PostHog: 行为追踪，看看用户都干了啥。
Metabase: 数据可视化，把数据变成漂亮的图表。
Python: 胶水，把所有东西串起来。

准备好了吗？咱们这就开干！

1. 为什么选择这些工具？

开源免费: 告别高昂的订阅费用，省钱！
功能强大: 行为追踪、数据可视化、数据处理，一应俱全。
易于上手: 界面友好，文档齐全，上手难度低。
可定制性强: 可以根据自己的需求进行定制，灵活性高。

2. 搭建流程：从0到1的用户洞察系统

整个系统搭建的流程可以概括为：数据收集 -> 数据处理 -> 数据分析 -> 数据可视化。

2.1 数据收集：PostHog 行为追踪

PostHog 就像一个侦探，默默地记录着用户在网站或应用中的各种行为，例如：

点击了哪个按钮
浏览了哪个页面
提交了哪个表单
播放了哪个视频

（1）部署 PostHog

PostHog 提供了多种部署方式，最简单的就是使用 PostHog Cloud，注册一个账号就能直接用。当然，为了数据安全和个性化需求，也可以选择自部署，比如用 Docker。

Docker 部署：

首先，确保你的服务器上已经安装了 Docker 和 Docker Compose。然后，创建一个 docker-compose.yml 文件，内容如下（这是简化版，PostHog 官方文档有更详细的配置）：

 version: '3.8'
services:
  posthog:
    image: posthog/posthog:latest
    ports:
      - "8000:8000"
    environment:
      - POSTGRES_HOST=db
      - REDIS_HOST=redis
      - SITE_URL=http://localhost:8000  # 改成你的域名或 IP 地址
    depends_on:
      - db
      - redis
  db:
    image: postgres:14-alpine
    volumes:
      - db_data:/var/lib/postgresql/data
    environment:
      - POSTGRES_USER=posthog
      - POSTGRES_PASSWORD=password  # 换成你自己的密码
  redis:
    image: redis:latest
    ports:
      - "6379:6379"
volumes:
  db_data:

在终端中，进入 docker-compose.yml 所在的目录，然后运行：

docker-compose up -d

等待几分钟，PostHog 就部署完成了。访问 http://localhost:8000 (或者你设置的域名/IP) 就可以看到 PostHog 的界面了。

注意： 自部署需要一定的服务器和运维知识，如果对这些不熟悉，建议先用 PostHog Cloud。

（2）集成 PostHog 到你的网站或应用

PostHog 提供了各种语言的 SDK，可以方便地集成到你的网站或应用中。以 JavaScript 为例：

获取 API Key： 在 PostHog 后台，找到你的 API Key。

添加 JavaScript 代码： 在你的网站的 <head> 标签中添加以下代码（替换你的 API Key 和 PostHog 的 URL）：

 <script>
  !function(t,e,n,s){
    if(t.posthog)return;
    var o=t.posthog,p=function(){o.init.apply(o,arguments)},i=function(n){return function(){o[n].apply(o,arguments)}}
    o.people=o.people||[];
    o.init=p,o.identify=i("identify"),o.alias=i("alias"),o.group=i("group"),o.track=i("track"),o.capture=i("capture"),o.get_distinct_id=i("get_distinct_id"),o._i=[],o.push=function(n){o._i.push(n)};
    var r=e.createElement("script");r.async=!0,r.src=s,n.head.appendChild(r)
    o.init("YOUR_API_KEY", {
      api_host: 'https://app.posthog.com'  // 或者你的自部署 PostHog 的 URL
    })
  }(window,document,window.document,'https://app.posthog.com/static/posthog.js')
</script>

追踪事件： 在你的代码中，使用 posthog.track() 函数来追踪事件。例如：

 // 追踪用户点击了“注册”按钮
posthog.track('注册按钮点击', {
  button_text: '注册',
  page_url: window.location.href
});
 
// 追踪用户提交了表单
posthog.track('表单提交', {
  form_name: '注册表单',
  email: 'user@example.com'
});

'注册按钮点击' 和 '表单提交' 是事件名称，可以自定义。
后面的对象是事件的属性，可以添加任何你想要追踪的属性，比如按钮文本、页面 URL、用户邮箱等等。

（3）身份识别：用户是谁？

PostHog 需要知道谁在做这些事情。posthog.identify() 函数用于识别用户，给用户打上一个唯一的 ID。例如：

 // 识别用户
posthog.identify('user123', {
  name: '张三',
  email: 'zhangsan@example.com'
});

'user123' 是用户的 ID，可以是你自己的用户 ID，或者其他能够唯一标识用户的 ID。
后面的对象是用户的属性，可以添加用户的姓名、邮箱、注册时间等等。

2.2 数据处理：Python 脚本 + API

原始数据往往比较 raw，需要清洗、转换、整合，才能变成有用的信息。Python 就是咱们的瑞士军刀，可以用来处理数据。我们主要使用 Python 来做两件事：

从 PostHog API 获取数据： PostHog 提供了 API，可以方便地获取数据。
处理数据，并导入 Metabase： 转换数据格式，进行计算，然后将数据导入 Metabase，方便可视化。

（1）获取 PostHog 数据

使用 PostHog 的 API，你需要：

获取 API Key： 在 PostHog 后台，找到你的 API Key。
确定 API Endpoint： 比如，获取事件数据的 API Endpoint 通常是 /api/projects/{project_id}/events，在PostHog的文档中可以找到。

以下是一个使用 requests 库获取事件数据的 Python 脚本示例：

 import requests
import json
 
# 你的 PostHog API Key
API_KEY = "YOUR_API_KEY"
# 你的 PostHog 项目 ID
PROJECT_ID = "YOUR_PROJECT_ID"
# PostHog API 基础 URL，如果是自部署，修改这里的地址
BASE_URL = "https://app.posthog.com"
 
# 获取事件数据的 API Endpoint
EVENT_ENDPOINT = f"{BASE_URL}/api/projects/{PROJECT_ID}/events"
 
def get_events(api_key, endpoint):
    headers = {
        "Authorization": f"Bearer {api_key}"
    }
    try:
        response = requests.get(endpoint, headers=headers)
        response.raise_for_status()  # 检查是否有错误
        data = response.json()
        return data['results']  # 返回事件数据
    except requests.exceptions.RequestException as e:
        print(f"API 请求失败: {e}")
        return []
    except (KeyError, json.JSONDecodeError) as e:
        print(f"数据解析错误: {e}")
        return []
 
if __name__ == "__main__":
    events = get_events(API_KEY, EVENT_ENDPOINT)
    if events:
        print(f"获取到 {len(events)} 条事件数据")
        #  打印前 5 条事件，方便查看数据结构
        for event in events[:5]:
            print(json.dumps(event, indent=2))
    else:
        print("未获取到事件数据")

（2）数据处理

数据处理的步骤包括：

数据清洗： 处理缺失值、异常值，比如时间格式的转换，去除不必要的字段等。
数据转换： 将数据转换成适合分析的格式，例如，将事件属性转换成单独的列。
数据聚合： 对数据进行分组、统计，例如，计算每个用户点击了多少次按钮。

以下是一个简单的数据处理示例，将 PostHog 的事件数据转换为更易于分析的格式（CSV）：

 import csv
import json
from datetime import datetime
 
# 你的 PostHog API Key
API_KEY = "YOUR_API_KEY"
# 你的 PostHog 项目 ID
PROJECT_ID = "YOUR_PROJECT_ID"
# PostHog API 基础 URL，如果是自部署，修改这里的地址
BASE_URL = "https://app.posthog.com"
# CSV 文件名
CSV_FILE = "events.csv"
 
# 获取事件数据的 API Endpoint
EVENT_ENDPOINT = f"{BASE_URL}/api/projects/{PROJECT_ID}/events"
 
def get_events(api_key, endpoint):
    # ... （同上一个脚本）
    pass
 
def process_events(events):
    processed_events = []
    for event in events:
        try:
            # 提取关键字段
            event_name = event.get('event')
            distinct_id = event.get('distinct_id')
            timestamp = event.get('timestamp')
            properties = event.get('properties', {})
 
            # 转换时间戳
            timestamp = datetime.fromisoformat(timestamp[:-1])  # 移除 Z
 
            # 创建新的一行数据
            processed_event = {
                'event_name': event_name,
                'distinct_id': distinct_id,
                'timestamp': timestamp.strftime('%Y-%m-%d %H:%M:%S'),
                **properties  # 合并 properties
            }
            processed_events.append(processed_event)
        except Exception as e:
            print(f"处理事件时发生错误: {e}")
    return processed_events
 
def write_to_csv(data, filename):
    if not data:
        print("没有数据可以写入 CSV")
        return
 
    # 获取所有 key 作为 CSV 的 header
    fieldnames = set()
    for row in data:
        fieldnames.update(row.keys())
    fieldnames = sorted(list(fieldnames))  # 确保 header 的顺序
 
    try:
        with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
            writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
            writer.writeheader()
            writer.writerows(data)
        print(f"数据已成功写入 {filename}")
    except IOError as e:
        print(f"写入 CSV 文件时发生错误: {e}")
 
if __name__ == "__main__":
    events = get_events(API_KEY, EVENT_ENDPOINT)
    if events:
        processed_events = process_events(events)
        write_to_csv(processed_events, CSV_FILE)
    else:
        print("未获取到事件数据，无法处理")

（3）数据导入 Metabase

Metabase 可以连接到各种数据库，包括 CSV 文件。你可以：

将 CSV 文件上传到数据库： 例如，你可以创建一个 SQLite 数据库，然后将 CSV 文件导入到 SQLite 数据库中。
或者，将 CSV 文件保存在一个可访问的目录，并在 Metabase 中配置数据库连接，指向 CSV 文件。 这种方式更简单，但需要注意权限问题。

（4）编写定时任务

为了实现数据的自动化处理，你可以使用 crontab (Linux/macOS) 或 Windows 任务计划程序来定期运行 Python 脚本。

crontab (Linux/macOS): 使用 crontab -e 编辑 crontab 文件，添加一行类似这样的配置：
```
0 * * * * /usr/bin/python3 /path/to/your/script.py
```
这表示每小时的第 0 分钟运行你的 Python 脚本。
Windows 任务计划程序： 打开“任务计划程序”，创建一个新任务，配置触发器（例如，每天/小时），并设置操作来运行你的 Python 脚本。

2.3 数据分析：Metabase 可视化

Metabase 就像一个魔术师，可以将数据变成漂亮的图表，帮助你洞察数据背后的故事。

（1）部署 Metabase

Docker 部署：

创建一个 docker-compose.yml 文件：

 version: '3.8'
services:
  metabase:
    image: metabase/metabase:latest
    ports:
      - "3000:3000"
    environment:
      - MB_DB_TYPE=h2
      - MB_DB_FILE=/app/metabase.db
    volumes:
      - metabase_data:/app/metabase-data
volumes:
  metabase_data:

然后运行 docker-compose up -d。

注意： 这里使用了 H2 数据库作为 Metabase 的内部数据库。对于生产环境，建议使用 PostgreSQL 或 MySQL。

（2）连接数据源

登录 Metabase： 访问 http://localhost:3000 (或者你设置的域名/IP)，按照提示创建一个管理员账号。
添加数据源： 在 Metabase 后台，点击“添加数据源”，选择你导入数据的数据库类型 (例如，SQLite)。
配置数据库连接： 填写数据库连接信息，比如数据库文件路径、用户名、密码等。

（3）创建仪表盘

创建问题： 在 Metabase 中，你可以通过 SQL 查询或图形界面来创建问题。例如，你可以创建一个问题，统计每个用户点击“注册”按钮的次数。
选择图表类型： 选择合适的图表类型来展示你的数据，比如柱状图、折线图、饼图等。
创建仪表盘： 将多个问题添加到仪表盘中，形成一个整体的视图。

（4）常见的分析指标

用户活跃度： 每日/每周/每月活跃用户数 (DAU/WAU/MAU)。
转化率： 从一个步骤到另一个步骤的转化率，比如注册转化率、购买转化率等。
留存率： 用户在一段时间后仍然使用的比例。
事件趋势： 特定事件在一段时间内的发生次数变化趋势。
用户行为路径： 用户在网站或应用中的常见路径。

2.4 身份识别的简单实现

一个好的用户洞察系统，必须能够识别用户的身份。也就是，知道是谁在干什么。虽然 PostHog 的 identify 方法可以帮助我们，但是，当用户跨设备、跨浏览器时，如何统一识别用户的身份呢？这里介绍一种简单的实现方法，供你参考。

（1）存储用户 ID

用户 ID 需要在多个地方存储，确保跨设备和浏览器都能访问到。

Cookie： 在用户的浏览器中设置一个 Cookie，存储用户 ID。
Local Storage： 使用 Local Storage 存储用户 ID。
后端数据库： 在后端数据库中关联用户 ID 和用户信息。

（2）用户 ID 的生成和管理

生成用户 ID： 可以使用 UUID (Universally Unique Identifier) 来生成唯一的用户 ID。 Python 中可以使用 uuid 库。 JavaScript 中可以使用 crypto.randomUUID() (现代浏览器支持)。
管理用户 ID： 在用户首次访问网站时，生成一个用户 ID，并将其存储在 Cookie 和 Local Storage 中。当用户登录后，将用户 ID 和用户的真实身份信息关联起来，并存储在数据库中。当用户再次访问网站时，从 Cookie 或 Local Storage 中获取用户 ID，然后从数据库中查找用户的身份信息。

（3）代码示例

以下是一个简化的 JavaScript 示例，用于生成和存储用户 ID：

 // 获取或生成用户 ID
function getOrCreateUserId() {
  let userId = localStorage.getItem('user_id');
  if (!userId) {
    userId = crypto.randomUUID(); // 或者使用其他方式生成 UUID
    localStorage.setItem('user_id', userId);
    // 也可以设置 Cookie，这里省略
  }
  return userId;
}
 
// 初始化 PostHog，并识别用户
function initializePosthog() {
  const userId = getOrCreateUserId();
  posthog.init('YOUR_API_KEY', {
    api_host: 'https://app.posthog.com' // 或者你的自部署 PostHog 的 URL
  });
  posthog.identify(userId);
}
 
// 在页面加载时初始化
window.onload = function() {
  initializePosthog();
}

（4）用户登录后的处理

当用户登录后，需要将用户的真实身份信息（比如邮箱、用户名）和用户 ID 关联起来。可以通过 posthog.identify() 函数来设置用户的属性，例如：

 // 用户登录后
function onUserLogin(userInfo) {
  const userId = getOrCreateUserId();
  posthog.identify(userId, {
    $email: userInfo.email, // 注意，使用 $ 前缀表示是用户属性
    $name: userInfo.name
  });
}

2.5 避坑指南

数据安全： 如果处理敏感数据，务必注意数据安全。对数据进行加密，限制数据访问权限。
数据同步： 确保数据同步的准确性和及时性。定期检查数据，避免数据丢失或错误。
性能优化： 对于大型网站或应用，要注意性能优化。对数据进行索引，优化 SQL 查询，使用缓存等。
API 限制： PostHog 的 API 有调用限制，要做好应对，例如，分批次获取数据，设置重试机制等。
隐私合规： 遵守相关法律法规，例如 GDPR、CCPA 等。告知用户数据收集的目的和方式，并获得用户的同意。

3. 总结：打造自己的用户洞察利器

通过 PostHog、Metabase 和 Python，你就可以搭建一个功能强大、低成本的用户洞察系统。记住，这只是一个起点。根据你的业务需求，不断调整和优化，你就可以打造出自己的用户洞察利器，更好地了解你的用户，驱动业务增长！

现在，就动手试试吧！别忘了，边做边学，遇到问题多查阅文档，多思考，你一定可以成功的！

老码农的快乐用户行为分析开源工具数据可视化 PostHog Metabase Python

	version: '3.8'
	services:
	posthog:
	image: posthog/posthog:latest
	ports:
	- "8000:8000"
	environment:
	- POSTGRES_HOST=db
	- REDIS_HOST=redis
	- SITE_URL=http://localhost:8000 # 改成你的域名或 IP 地址
	depends_on:
	- db
	- redis
	db:
	image: postgres:14-alpine
	volumes:
	- db_data:/var/lib/postgresql/data
	environment:
	- POSTGRES_USER=posthog
	- POSTGRES_PASSWORD=password # 换成你自己的密码
	redis:
	image: redis:latest
	ports:
	- "6379:6379"
	volumes:
	db_data:

	<script>
	!function(t,e,n,s){
	if(t.posthog)return;
	var o=t.posthog,p=function(){o.init.apply(o,arguments)},i=function(n){return function(){o[n].apply(o,arguments)}}
	o.people=o.people\|\|[];
	o.init=p,o.identify=i("identify"),o.alias=i("alias"),o.group=i("group"),o.track=i("track"),o.capture=i("capture"),o.get_distinct_id=i("get_distinct_id"),o._i=[],o.push=function(n){o._i.push(n)};
	var r=e.createElement("script");r.async=!0,r.src=s,n.head.appendChild(r)
	o.init("YOUR_API_KEY", {
	api_host: 'https://app.posthog.com' // 或者你的自部署 PostHog 的 URL
	})
	}(window,document,window.document,'https://app.posthog.com/static/posthog.js')
	</script>

	// 追踪用户点击了“注册”按钮
	posthog.track('注册按钮点击', {
	button_text: '注册',
	page_url: window.location.href
	});

	// 追踪用户提交了表单
	posthog.track('表单提交', {
	form_name: '注册表单',
	email: 'user@example.com'
	});

	// 识别用户
	posthog.identify('user123', {
	name: '张三',
	email: 'zhangsan@example.com'
	});

	import requests
	import json

	# 你的 PostHog API Key
	API_KEY = "YOUR_API_KEY"
	# 你的 PostHog 项目 ID
	PROJECT_ID = "YOUR_PROJECT_ID"
	# PostHog API 基础 URL，如果是自部署，修改这里的地址
	BASE_URL = "https://app.posthog.com"

	# 获取事件数据的 API Endpoint
	EVENT_ENDPOINT = f"{BASE_URL}/api/projects/{PROJECT_ID}/events"

	def get_events(api_key, endpoint):
	headers = {
	"Authorization": f"Bearer {api_key}"
	}
	try:
	response = requests.get(endpoint, headers=headers)
	response.raise_for_status() # 检查是否有错误
	data = response.json()
	return data['results'] # 返回事件数据
	except requests.exceptions.RequestException as e:
	print(f"API 请求失败: {e}")
	return []
	except (KeyError, json.JSONDecodeError) as e:
	print(f"数据解析错误: {e}")
	return []

	if __name__ == "__main__":
	events = get_events(API_KEY, EVENT_ENDPOINT)
	if events:
	print(f"获取到 {len(events)} 条事件数据")
	# 打印前 5 条事件，方便查看数据结构
	for event in events[:5]:
	print(json.dumps(event, indent=2))
	else:
	print("未获取到事件数据")

	import csv
	import json
	from datetime import datetime

	# 你的 PostHog API Key
	API_KEY = "YOUR_API_KEY"
	# 你的 PostHog 项目 ID
	PROJECT_ID = "YOUR_PROJECT_ID"
	# PostHog API 基础 URL，如果是自部署，修改这里的地址
	BASE_URL = "https://app.posthog.com"
	# CSV 文件名
	CSV_FILE = "events.csv"

	# 获取事件数据的 API Endpoint
	EVENT_ENDPOINT = f"{BASE_URL}/api/projects/{PROJECT_ID}/events"

	def get_events(api_key, endpoint):
	# ... （同上一个脚本）
	pass

	def process_events(events):
	processed_events = []
	for event in events:
	try:
	# 提取关键字段
	event_name = event.get('event')
	distinct_id = event.get('distinct_id')
	timestamp = event.get('timestamp')
	properties = event.get('properties', {})

	# 转换时间戳
	timestamp = datetime.fromisoformat(timestamp[:-1]) # 移除 Z

	# 创建新的一行数据
	processed_event = {
	'event_name': event_name,
	'distinct_id': distinct_id,
	'timestamp': timestamp.strftime('%Y-%m-%d %H:%M:%S'),
	**properties # 合并 properties
	}
	processed_events.append(processed_event)
	except Exception as e:
	print(f"处理事件时发生错误: {e}")
	return processed_events

	def write_to_csv(data, filename):
	if not data:
	print("没有数据可以写入 CSV")
	return

	# 获取所有 key 作为 CSV 的 header
	fieldnames = set()
	for row in data:
	fieldnames.update(row.keys())
	fieldnames = sorted(list(fieldnames)) # 确保 header 的顺序

	try:
	with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
	writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
	writer.writeheader()
	writer.writerows(data)
	print(f"数据已成功写入 {filename}")
	except IOError as e:
	print(f"写入 CSV 文件时发生错误: {e}")

	if __name__ == "__main__":
	events = get_events(API_KEY, EVENT_ENDPOINT)
	if events:
	processed_events = process_events(events)
	write_to_csv(processed_events, CSV_FILE)
	else:
	print("未获取到事件数据，无法处理")

	version: '3.8'
	services:
	metabase:
	image: metabase/metabase:latest
	ports:
	- "3000:3000"
	environment:
	- MB_DB_TYPE=h2
	- MB_DB_FILE=/app/metabase.db
	volumes:
	- metabase_data:/app/metabase-data
	volumes:
	metabase_data:

	// 获取或生成用户 ID
	function getOrCreateUserId() {
	let userId = localStorage.getItem('user_id');
	if (!userId) {
	userId = crypto.randomUUID(); // 或者使用其他方式生成 UUID
	localStorage.setItem('user_id', userId);
	// 也可以设置 Cookie，这里省略
	}
	return userId;
	}

	// 初始化 PostHog，并识别用户
	function initializePosthog() {
	const userId = getOrCreateUserId();
	posthog.init('YOUR_API_KEY', {
	api_host: 'https://app.posthog.com' // 或者你的自部署 PostHog 的 URL
	});
	posthog.identify(userId);
	}

	// 在页面加载时初始化
	window.onload = function() {
	initializePosthog();
	}

	// 用户登录后
	function onUserLogin(userInfo) {
	const userId = getOrCreateUserId();
	posthog.identify(userId, {
	$email: userInfo.email, // 注意，使用 $ 前缀表示是用户属性
	$name: userInfo.name
	});
	}

用开源工具打造低成本用户洞察系统：PostHog+Metabase+Python 实战指南

用开源工具，低成本撬动用户洞察力

1. 为什么选择这些工具？

2. 搭建流程：从0到1的用户洞察系统

2.1 数据收集：PostHog 行为追踪

2.2 数据处理：Python 脚本 + API

2.3 数据分析：Metabase 可视化

2.4 身份识别的简单实现

2.5 避坑指南

3. 总结：打造自己的用户洞察利器

用开源工具，低成本撬动用户洞察力

1. 为什么选择这些工具？

2. 搭建流程：从0到1的用户洞察系统

2.1 数据收集：PostHog 行为追踪

2.2 数据处理：Python 脚本 + API

2.3 数据分析：Metabase 可视化

2.4 身份识别的简单实现

2.5 避坑指南

3. 总结：打造自己的用户洞察利器

评论点评