Reader 类¶
- class surprise.reader.Reader(name=None, line_format='user item rating', sep=None, rating_scale=(1, 5), skip_lines=0)[source]¶
Reader 类用于解析包含评分的文件。
假设这样的文件每行只指定一个评分,并且每行需要遵循以下结构:
user ; item ; rating ; [timestamp]
其中字段的顺序和分隔符(这里是‘;’)可以任意定义(见下文)。方括号表示时间戳字段是可选的。
对于每个内置数据集,Surprise 还提供了预定义的读取器,如果您想使用与内置数据集格式相同的自定义数据集,这些读取器非常有用(请参阅
name
参数)。- Parameters:
name (
string
, 可选) – 如果指定,将返回一个内置数据集的读取器,并且忽略其他任何参数。 可接受的值有 ‘ml-100k’, ‘ml-1m’, 和 ‘jester’。默认值为None
。line_format (
string
) – 字段名称,按照它们在行中出现的顺序排列。请注意,line_format
始终是空格分隔的(使用sep
参数)。默认值为'user item rating'
。sep (char) – 字段之间的分隔符。示例:
';'
。rating_scale (
tuple
, 可选) – 用于每个评分的评分尺度。默认是(1, 5)
。skip_lines (
int
, 可选) – 文件开头要跳过的行数。默认值为0
。