表格数据科学是机器学习中最广泛使用的领域,问题范围从客户细分到流失预测。在表格数据科学工作流程的各个阶段,向利益相关者或客户传达您的工作可能会很繁琐;这阻碍了数据科学家专注于重要的事情,如数据分析和模型构建。数据科学家最终可能会花费数小时构建一个仪表板,该仪表板接收数据框并返回图表,或返回数据集中的预测或聚类图。在本指南中,我们将介绍如何使用gradio
来改进您的数据科学工作流程。我们还将讨论如何使用gradio
和skops仅用一行代码构建界面!
确保你已经安装了gradio
Python包。
我们将看看如何创建一个简单的用户界面,该界面可以根据产品信息预测故障。
import gradio as gr
import pandas as pd
import joblib
import datasets
inputs = [gr.Dataframe(row_count = (2, "dynamic"), col_count=(4,"dynamic"), label="Input Data", interactive=1)]
outputs = [gr.Dataframe(row_count = (2, "dynamic"), col_count=(1, "fixed"), label="Predictions", headers=["Failures"])]
model = joblib.load("model.pkl")
# we will give our dataframe as example
df = datasets.load_dataset("merve/supersoaker-failures")
df = df["train"].to_pandas()
def infer(input_dataframe):
return pd.DataFrame(model.predict(input_dataframe))
gr.Interface(fn = infer, inputs = inputs, outputs = outputs, examples = [[df.head(2)]]).launch()
让我们分解上面的代码。
fn
: 推理函数,接收输入数据框并返回预测结果。inputs
: 我们用来获取输入的组件。我们将输入定义为一个具有2行和4列的数据框,最初它将看起来像一个具有上述形状的空数据框。当row_count
设置为dynamic
时,您不必依赖于您输入的数据集到预定义的组件。outputs
: 存储输出的数据框组件。此UI可以接受单个或多个样本进行推断,并在一列中为每个样本返回0或1,因此我们在上面给出了row_count
为2,col_count
为1。headers
是由数据框的列名组成的列表。examples
: 您可以通过拖放CSV文件或通过examples传递pandas DataFrame来输入数据,接口将自动获取其表头。我们现在将创建一个最小数据可视化仪表板的示例。您可以在相关的Spaces中找到更全面的版本。
import gradio as gr
import pandas as pd
import datasets
import seaborn as sns
import matplotlib.pyplot as plt
df = datasets.load_dataset("merve/supersoaker-failures")
df = df["train"].to_pandas()
df.dropna(axis=0, inplace=True)
def plot(df):
plt.scatter(df.measurement_13, df.measurement_15, c = df.loading,alpha=0.5)
plt.savefig("scatter.png")
df['failure'].value_counts().plot(kind='bar')
plt.savefig("bar.png")
sns.heatmap(df.select_dtypes(include="number").corr())
plt.savefig("corr.png")
plots = ["corr.png","scatter.png", "bar.png"]
return plots
inputs = [gr.Dataframe(label="Supersoaker Production Data")]
outputs = [gr.Gallery(label="Profiling Dashboard", columns=(1,3))]
gr.Interface(plot, inputs=inputs, outputs=outputs, examples=[df.head(100)], title="Supersoaker Failures Analysis Dashboard").launch()
我们将使用用于训练模型的相同数据集,但这次我们将制作一个仪表板来可视化它。
fn
: 该函数将基于数据创建图表。inputs
: 我们使用上面用过的相同Dataframe
组件。outputs
: Gallery
组件用于保存我们的可视化内容。examples
: 我们将把数据集本身作为示例。skops
是一个建立在 huggingface_hub
和 sklearn
之上的库。随着最近 skops
的 gradio
集成,你可以用一行代码构建表格数据界面!
import gradio as gr
# title and description are optional
title = "Supersoaker Defective Product Prediction"
description = "This model predicts Supersoaker production line failures. Drag and drop any slice from dataset or edit values as you wish in below dataframe component."
gr.load("huggingface/scikit-learn/tabular-playground", title=title, description=description).launch()
sklearn
模型通过 skops
推送到 Hugging Face Hub 时,会包含一个 config.json
文件,该文件包含带有列名的示例输入以及正在解决的任务(可以是 tabular-classification
或 tabular-regression
)。根据任务类型,gradio
构建 Interface
并使用列名和示例输入来构建它。您可以参考 skops 文档中关于在 Hub 上托管模型的部分,了解如何使用 skops
将模型推送到 Hub。