from sys import version
from importlib.metadata import version as vs
requirements = ['numpy', 'pandas', 'seaborn', 'matplotlib', 'statsmodels', 'jupyter', 'scikit-surprise']
print('\n'.join([f'Python version: {version}']+[f'{package.capitalize()} ~= {vs(package)}' for package in requirements]))

Python version: 3.8.5 (default, Jan 27 2021, 15:41:15) 
[GCC 9.3.0]
Numpy ~= 1.20.1
Pandas ~= 1.2.3
Seaborn ~= 0.11.1
Matplotlib ~= 3.3.4
Statsmodels ~= 0.12.2
Jupyter ~= 1.0.0
Scikit-surprise ~= 1.1.1


import os
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline


markers = ['s', '.', '^', '*', '+', '*']
line_types = ['-.', '-', ':', '-', '--', '--']
SMALL_SIZE = 12
MEDIUM_SIZE = 15
BIGGER_SIZE = 20
plt.rc('font', size=BIGGER_SIZE)  # controls default text sizes
plt.rc('axes', titlesize=BIGGER_SIZE)  # fontsize of the axes title
plt.rc('axes', labelsize=BIGGER_SIZE)  # fontsize of the x and y labels
plt.rc('xtick', labelsize=BIGGER_SIZE)  # fontsize of the tick labels
plt.rc('ytick', labelsize=BIGGER_SIZE)  # fontsize of the tick labels
plt.rc('legend', fontsize=MEDIUM_SIZE)  # legend fontsize
plt.rc('figure', titlesize=BIGGER_SIZE)  # fontsize of the figure title


df = pd.read_table('ml-100k/u1.base', header=None)
# row rating data contains pairs of (user, item, rating, timestamp), convert it to a matrix
ratings = np.full((943,1682), np.nan)
ratings = pd.DataFrame(ratings, columns=list(range(1,1683)), index=list(range(1,944)))
ratings = ratings.add(pd.pivot_table(df, index=0, columns=1, values=2), fill_value=0)
ratings


n_user, n_item = ratings.shape
print(f'There are {n_user} users and {n_item} items in total.')
print(f'Rating missing rate is {((1-len(df)/n_user/n_item)*100):.2f}%.')
sns.heatmap(ratings, cmap=sns.color_palette("crest", as_cmap=True), mask=ratings.isna());

There are 943 users and 1682 items in total.
Rating missing rate is 94.96%.


user = pd.read_table('ml-100k/u.user', header=None, delimiter='|', index_col=0)
user = user.rename(columns={1: "age", 2: "gender", 3: "job", 4: "zip"})
user['zip'] = user['zip'].map(lambda x: x[0] if x[0].isdigit() else 9)  # only first digit, change letter to 9, since it's minority(<10)
user['gender'] = user['gender'].map(lambda x: 0 if x=='M' else 1)  # coding gender to binary
user['job'] = user['job'].astype('category').cat.codes  # coding job to integer
user = user.astype('int')
user


genre = pd.read_table('ml-100k/u.item', header=None, delimiter='|', encoding='latin-1', index_col=0).iloc[:, -19:]
genre_name = pd.read_table('ml-100k/u.genre', header=None, delimiter='|')[0].values
genre.columns = genre_name
genre  # 1 indicates the item belongs to that category


user_ave_rating = ratings.mean(axis=1).to_numpy()
user_num_rating = ratings.notna().sum(axis=1).to_numpy()
item_ave_rating = ratings.mean(axis=0).to_numpy()
item_num_rating = ratings.notna().sum(axis=0).to_numpy()

plt.figure(figsize=(12, 4))
plt.subplot(121)
sns.regplot(x=user_num_rating, y=user_ave_rating, line_kws={'color':'r'})
plt.xlabel('Number of user\'s ratings')
plt.ylabel('User\'s Averange rating')
plt.subplot(122)
sns.regplot(x=item_num_rating, y=item_ave_rating, lowess=True, line_kws={'color':'r'})
plt.xlabel('Number of item\'s ratings')
plt.ylabel('Item\'s Averange rating')

Text(0, 0.5, "Item's Averange rating")


item_sum_rating = ratings.sum(axis=0).to_numpy()
genre_ave_rating = [item_sum_rating[genre.iloc[:,i] == 1].sum()/item_num_rating[genre.iloc[:,i] == 1].sum() for i in range(19)]
sns.barplot(x=genre_ave_rating, y=genre_name)
plt.yticks(fontsize=12);


def rmse(y, y_pred):
    """RMSE for two vectors."""
    return np.sqrt(np.mean(np.square(y-y_pred)))


errors = pd.DataFrame(np.zeros(4).reshape((1, 4)), columns=['Mean', 'LR', 'rSVD', 'gSVD'], index=['RMSE'])


error = np.zeros(5)
for fold in range(1, 6):
    train = pd.read_table(f'ml-100k/u{fold}.base', header=None)
    test = pd.read_table(f'ml-100k/u{fold}.test', header=None)
    X_train, y_train = train[[0, 1]].astype('category'), train[[2]].to_numpy().astype('float')
    X_test, y = test[[0, 1]].astype('category'), test[[2]].to_numpy().astype('float')
    y_pred = np.mean(y_train)
    error[fold-1] = rmse(y, y_pred)
errors['Mean'] = error.mean()
f'RMSE for Grand Mean: {error.mean():.2f}'

'RMSE for Grand Mean: 1.13'


from surprise import SVD
from surprise import BaselineOnly
from surprise import Dataset
from surprise import Reader
from surprise import accuracy
from surprise.model_selection import PredefinedKFold
from surprise.model_selection import cross_validate


# Alternatively, if data is not downloaded yet, use this command 
# data = Dataset.load_builtin('ml-100k')

# If data is already downloaded with specific train-test split, can use codes below
# path to dataset folder
files_dir = os.path.join(os.getcwd(), 'ml-100k/')
# This time, we'll use the built-in reader.
reader = Reader('ml-100k')
# folds_files is a list of tuples containing file paths:
# [(u1.base, u1.test), (u2.base, u2.test), ... (u5.base, u5.test)]
train_file = files_dir + 'u%d.base'
test_file = files_dir + 'u%d.test'
folds_files = [(train_file % i, test_file % i) for i in (1, 2, 3, 4, 5)]

data = Dataset.load_from_folds(folds_files, reader=reader)
pkf = PredefinedKFold()


algo = BaselineOnly()
res = cross_validate(algo, data, measures=['RMSE'], cv=pkf, verbose=True)
errors['LR'] = res['test_rmse'].mean()
f'RMSE for Linear Regression: {errors["LR"][0]:.2f}'

Estimating biases using als...
Estimating biases using als...
Estimating biases using als...
Estimating biases using als...
Estimating biases using als...
Evaluating RMSE of algorithm BaselineOnly on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9599  0.9477  0.9405  0.9383  0.9423  0.9457  0.0077  
Fit time          0.04    0.07    0.06    0.07    0.06    0.06    0.01    
Test time         0.04    0.08    0.04    0.04    0.07    0.05    0.02

'RMSE for Linear Regression: 0.95'


algo = SVD()
res = cross_validate(algo, data, measures=['RMSE'], cv=pkf, verbose=True)
errors['rSVD'] = res['test_rmse'].mean()
f'RMSE for rSVD: {errors["rSVD"][0]:.2f}'

Evaluating RMSE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9505  0.9389  0.9313  0.9301  0.9385  0.9379  0.0073  
Fit time          2.21    2.24    2.22    2.23    2.24    2.23    0.01    
Test time         0.07    0.07    0.10    0.07    0.11    0.08    0.02

'RMSE for rSVD: 0.94'


res = '''    0.9435    0.9210    0.9456
    0.9287    0.9087    0.9329
    0.9245    0.9077    0.9295
    0.9309    0.9098    0.9316
    0.9323    0.9170    0.9314'''
res = np.fromstring(res, sep='\t').reshape((5,3))[:,1].reshape(-1)
errors['gSVD'] = res.mean()
f'RMSE for gSVD: {errors["gSVD"][0]:.2f}'

'RMSE for gSVD: 0.91'


errors


sns.barplot(y=errors.values.reshape(-1), x=errors.columns)

<AxesSubplot:>

	1	2	3	4	5	6	7	8	9	10	...	1673	1674	1675	1676	1677	1678	1679	1680	1681	1682
1	5.0	3.0	4.0	3.0	3.0	NaN	4.0	1.0	5.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	4.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	2.0	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
5	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
939	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	5.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
940	NaN	NaN	NaN	2.0	NaN	NaN	4.0	5.0	3.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
941	5.0	NaN	NaN	NaN	NaN	NaN	4.0	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
942	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
943	NaN	5.0	NaN	NaN	NaN	NaN	NaN	NaN	3.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

	unknown	Action	Adventure	Animation	Children's	Comedy	Crime	Documentary	Drama	Fantasy	Film-Noir	Horror	Musical	Mystery	Romance	Sci-Fi	Thriller	War	Western
0
1	0	0	0	1	1	1	0	0	0	0	0	0	0	0	0	0	0	0	0
2	0	1	1	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0
3	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0
4	0	1	0	0	0	1	0	0	1	0	0	0	0	0	0	0	0	0	0
5	0	0	0	0	0	0	1	0	1	0	0	0	0	0	0	0	1	0	0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1678	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0
1679	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	1	0	0
1680	0	0	0	0	0	0	0	0	1	0	0	0	0	0	1	0	0	0	0
1681	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0
1682	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0

Recommender system: Movielens100K example

Table of Contents

Introduction¶

Enviornments & requirements¶

Read data and an overview¶

Methods¶

Grand mean¶

Linear regression¶

SVD¶

Group SVD¶

Summary¶

References¶

	1	2	3	4	5	6	7	8	9	10	...	1673	1674	1675	1676	1677	1678	1679	1680	1681	1682
1	5.0	3.0	4.0	3.0	3.0	NaN	4.0	1.0	5.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	4.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	2.0	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
5	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
939	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	5.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
940	NaN	NaN	NaN	2.0	NaN	NaN	4.0	5.0	3.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
941	5.0	NaN	NaN	NaN	NaN	NaN	4.0	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
942	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
943	NaN	5.0	NaN	NaN	NaN	NaN	NaN	NaN	3.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

	age	gender	job	zip
0
1	24	0	19	8
2	53	1	13	9
3	23	0	20	3
4	24	0	19	4
5	33	1	13	1
...	...	...	...	...
939	26	1	18	3
940	32	0	0	0
941	20	0	18	9
942	48	1	10	7
943	22	0	18	7

	1	2	3	4	5	6	7	8	9	10	...	1673	1674	1675	1676	1677	1678	1679	1680	1681	1682
1	5.0	3.0	4.0	3.0	3.0	NaN	4.0	1.0	5.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	4.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	2.0	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
5	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
939	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	5.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
940	NaN	NaN	NaN	2.0	NaN	NaN	4.0	5.0	3.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
941	5.0	NaN	NaN	NaN	NaN	NaN	4.0	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
942	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
943	NaN	5.0	NaN	NaN	NaN	NaN	NaN	NaN	3.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

	age	gender	job	zip
0
1	24	0	19	8
2	53	1	13	9
3	23	0	20	3
4	24	0	19	4
5	33	1	13	1
...	...	...	...	...
939	26	1	18	3
940	32	0	0	0
941	20	0	18	9
942	48	1	10	7
943	22	0	18	7

	1	2	3	4	5	6	7	8	9	10	...	1673	1674	1675	1676	1677	1678	1679	1680	1681	1682
1	5.0	3.0	4.0	3.0	3.0	NaN	4.0	1.0	5.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	4.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	2.0	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
5	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
939	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	5.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
940	NaN	NaN	NaN	2.0	NaN	NaN	4.0	5.0	3.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
941	5.0	NaN	NaN	NaN	NaN	NaN	4.0	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
942	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
943	NaN	5.0	NaN	NaN	NaN	NaN	NaN	NaN	3.0	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

	age	gender	job	zip
0
1	24	0	19	8
2	53	1	13	9
3	23	0	20	3
4	24	0	19	4
5	33	1	13	1
...	...	...	...	...
939	26	1	18	3
940	32	0	0	0
941	20	0	18	9
942	48	1	10	7
943	22	0	18	7