在线用户操作

这个例子再现了互联网公司中典型的数据科学场景。我们从包含在线用户操作的pandas DataFrame开始,例如一个在线文本编辑器:用户可以创建页面、编辑页面或删除页面。我们希望构建并可视化一个用户图,突出显示在同一页面/项目上的协作。

import igraph as ig
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

让我们从准备一些代表在线用户的玩具数据开始。每一行表示用户采取的某个操作(例如点击网站内的按钮)。实际的用户数据通常带有时间戳,但对于这个例子来说,这并不是必需的。

action_dataframe = pd.DataFrame([
    ['dsj3239asadsa3', 'createPage', 'greatProject'],
    ['2r09ej221sk2k5', 'editPage', 'greatProject'],
    ['dsj3239asadsa3', 'editPage', 'greatProject'],
    ['789dsadafj32jj', 'editPage', 'greatProject'],
    ['oi32ncwosap399', 'editPage', 'greatProject'],
    ['4r4320dkqpdokk', 'createPage', 'miniProject'],
    ['320eljl3lk3239', 'editPage', 'miniProject'],
    ['dsj3239asadsa3', 'editPage', 'miniProject'],
    ['3203ejew332323', 'createPage', 'private'],
    ['3203ejew332323', 'editPage', 'private'],
    ['40m11919332msa', 'createPage', 'private2'],
    ['40m11919332msa', 'editPage', 'private2'],
    ['dsj3239asadsa3', 'createPage', 'anotherGreatProject'],
    ['2r09ej221sk2k5', 'editPage', 'anotherGreatProject'],
    ],
    columns=['userid', 'action', 'project'],
)

这个例子的目标是检查两个用户何时在同一页面上工作。 我们选择为此使用加权邻接矩阵,即一个表格,其行和列由用户索引,每当人们协作时就有非零条目。首先,让我们获取用户并准备一个空矩阵:

users = action_dataframe['userid'].unique()
adjacency_matrix = pd.DataFrame(
    np.zeros((len(users), len(users)), np.int32),
    index=users,
    columns=users,
)

然后,让我们逐一迭代所有项目,并添加所有协作:

for _project, project_data in action_dataframe.groupby('project'):
    project_users = project_data['userid'].values
    for i1, user1 in enumerate(project_users):
        for user2 in project_users[:i1]:
            adjacency_matrix.at[user1, user2] += 1

有很多方法可以实现上述矩阵,所以如果你提出了另一种算法,不要感到惊讶 ;-) 现在是时候制作图表了:

g = ig.Graph.Weighted_Adjacency(adjacency_matrix, mode='plus')

我们可以通过绘图函数查看图表。我们可以首先创建一个布局:

layout = g.layout('circle')

然后我们可以根据顶点与其他顶点的接近程度来准备顶点大小

vertex_size = g.closeness()
vertex_size = [10 * v**2 if not np.isnan(v) else 10 for v in vertex_size]

最后,我们可以绘制图表:

fig, ax = plt.subplots()
ig.plot(
    g,
    target=ax,
    layout=layout,
    vertex_label=g.vs['name'],
    vertex_color="lightblue",
    vertex_size=vertex_size,
    edge_width=g.es["weight"],
)
plt.show()
online user actions

循环表示“自我协作”,这并没有太大意义。为了在不丢失边权重的情况下过滤掉循环,我们可以使用:

g = g.simplify(combine_edges='first')

fig, ax = plt.subplots()
ig.plot(
    g,
    target=ax,
    layout=layout,
    vertex_label=g.vs['name'],
    vertex_color="lightblue",
    vertex_size=vertex_size,
    edge_width=g.es["weight"],
)
plt.show()
online user actions

脚本的总运行时间: (0 分钟 0.914 秒)

Gallery generated by Sphinx-Gallery