CLIENT_ID = "XXXXXXXXXXXXXXXXXXX"
CLIENT_SECRET = "XXXXXXXXXXXXXXXXXXXXXXXXXXXX"
USER_AGENT = "your_app_name"


import praw
import os
import pickle
import csv
import random
import math
import imageio

import numpy as np
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
import seaborn as sns

from tqdm import tqdm
from tabulate import tabulate
from collections import defaultdict
from copy import deepcopy
from IPython.display import clear_output

# Import the secrets
from reddit_secrets import CLIENT_ID, CLIENT_SECRET, USER_AGENT


# Directory for raw data
DATA_DIRECTORY = 'data'
# Directory for processed data used in Cytoscape
NETWORKS_DIRECTORY = 'networks'

DATA_PATH = os.path.join(os.getcwd(), DATA_DIRECTORY)
NETWORKS_PATH = os.path.join(os.getcwd(), NETWORKS_DIRECTORY)

if not os.path.exists(DATA_PATH):
    os.mkdir(DATA_PATH)

if not os.path.exists(NETWORKS_PATH):
    os.mkdir(NETWORKS_PATH)


SCRIPT_SAVE_PATH = os.path.join(os.getcwd(), 'script_save.pkl')
script_save = None
try:
    with open(SCRIPT_SAVE_PATH, 'rb') as f:
        script_save = pickle.load(f)

    print("Loaded script save. Resuming...")
    print("NUM_POSTS_FROM_SUB:", script_save["NUM_POSTS_FROM_SUB"])
    print("NUM_POSTS_OF_USER:", script_save["NUM_POSTS_OF_USER"])
    print("MIN_TIMES_POSTED:", script_save["MIN_TIMES_POSTED"])
    print("MAX_DEPTH:", script_save["MAX_DEPTH"])
    print("Number of subreddits in queue:", len(script_save["sub_q"]))
    print("Number of posts saved so far:", script_save["num_posts_saved"])
except:
    print("No script save found. Starting from scratch...")
    

NUM_POSTS_FROM_SUB = 500 if script_save is None else script_save["NUM_POSTS_FROM_SUB"]
NUM_POSTS_OF_USER = 5 if script_save is None else script_save["NUM_POSTS_OF_USER"]
MIN_TIMES_POSTED = 2 if script_save is None else script_save["MIN_TIMES_POSTED"]
MAX_DEPTH = 5 if script_save is None else script_save["MAX_DEPTH"]

sub_q = ["programming"] if script_save is None else script_save["sub_q"]
sub_depths = {sub_q[0]: 0} if script_save is None else script_save["sub_depths"]
skipped_subs = [] if script_save is None else script_save["skipped_subs"]

reddit = praw.Reddit(client_id=CLIENT_ID, client_secret=CLIENT_SECRET, user_agent=USER_AGENT)

num_posts_saved = 0 if script_save is None else script_save["num_posts_saved"]

# BFS; take the first subreddit from the queue.
while len(sub_q) > 0 and (sub:=sub_q.pop(0)):
    print("=========================================")
    print(f"Processing '{sub}' on depth {sub_depths[sub]}")
    print(f"Queue size: {len(sub_q)}")
    print(f"Num posts saved so far: {num_posts_saved}")

    posts = None
    try:
        # Download posts from the subreddit
        posts = list(reddit.subreddit(sub).top(limit=NUM_POSTS_FROM_SUB, time_filter="all"))
    except:
        print(f"ERROR: Cannot access '{sub}'")
        skipped_subs.append(sub)

    if posts is not None:
        if len(posts) < NUM_POSTS_FROM_SUB:
            print(f"Only {len(posts)} posts found")

        data_df = pd.DataFrame(
            [[post.title, post.score, post.id, post.url, post.num_comments, post.created, post.author, post.upvote_ratio, post.permalink, post.subreddit, post.subreddit_subscribers, sub_depths[sub]] for post in posts],
            columns=["title", "score", "id", "url", "num_comments", "created", "author", "upvote_ratio", "permalink", "subreddit", "subreddit_subscribers", "depth"],
        )

        # Filter out posts made by deleted users
        data_df = data_df[data_df["author"].notna()]

        # Keep only authors that posted more then MIN_TIMES_POSTED times
        data_df["author_name"] = data_df["author"].apply(lambda x: x.name)
        data_df = data_df.groupby("author_name").filter(lambda x: len(x) >= MIN_TIMES_POSTED)
        data_df = data_df.drop(columns=["author_name"])

        authors = data_df["author"].unique()
        num_posts = len(data_df)
        num_posts_saved += num_posts
        print(f"Num posts after filtering out: {num_posts} from {len(authors)} authors")

        # Check if we reached the max depth
        if sub_depths[sub] >= MAX_DEPTH:
            print("Max depth reached")
        else:
            for author in authors:
                try:
                    # Try to get submissions of the author
                    user_submissions = list(author.submissions.top(limit=NUM_POSTS_OF_USER, time_filter="all"))

                    # Extract subreddits from top user submissions and add them to the queue
                    for submission in user_submissions:
                        sub_name = submission.subreddit.display_name
                        if sub_name not in sub_depths:
                            sub_q.append(sub_name)
                            sub_depths[sub_name] = sub_depths[sub] + 1
                except:
                    print(f"ERROR: User submissions are private for '{author}'")

        # Save dataframe to csv
        data_df.to_csv(f"{DATA_PATH}/posts_{sub}.csv", index=False)

    # Save the script state to be able to resume in case of an error
    script_save = {
        "NUM_POSTS_FROM_SUB": NUM_POSTS_FROM_SUB,
        "NUM_POSTS_OF_USER": NUM_POSTS_OF_USER,
        "MIN_TIMES_POSTED": MIN_TIMES_POSTED,
        "MAX_DEPTH": MAX_DEPTH,
        "sub_q": sub_q,
        "sub_depths": sub_depths,
        "num_posts_saved": num_posts_saved,
        "skipped_subs": skipped_subs,
    }

    with open(SCRIPT_SAVE_PATH, 'wb') as f:
        pickle.dump(script_save, f)

Loaded script save. Resuming...
NUM_POSTS_FROM_SUB: 500
NUM_POSTS_OF_USER: 5
MIN_TIMES_POSTED: 2
MAX_DEPTH: 5
Number of subreddits in queue: 7314
Number of posts saved so far: 149894


# Create the main dataframe
posts_df = pd.DataFrame()

# Load all the raw csv files into the main dataframe
for _root, _dirs, files in os.walk(DATA_PATH):
    for file in files:
        if file.endswith(".csv"):
            posts_df = pd.concat([posts_df, pd.read_csv(os.path.join(DATA_PATH, file))], ignore_index=True)

display(posts_df.info())
display(posts_df.sample(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149894 entries, 0 to 149893
Data columns (total 12 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   title                  149894 non-null  object 
 1   score                  149894 non-null  object 
 2   id                     149894 non-null  object 
 3   url                    149894 non-null  object 
 4   num_comments           149894 non-null  object 
 5   created                149894 non-null  float64
 6   author                 149894 non-null  object 
 7   upvote_ratio           149894 non-null  float64
 8   permalink              149894 non-null  object 
 9   subreddit              149894 non-null  object 
 10  subreddit_subscribers  149894 non-null  object 
 11  depth                  149894 non-null  object 
dtypes: float64(2), object(10)
memory usage: 13.7+ MB

None


posts_df["subreddit"] = posts_df["subreddit"].apply(lambda x: f"r/{x}")
posts_df["author"] = posts_df["author"].apply(lambda x: f"u/{x}")
posts_df.sample(5)


num_subredits = len(posts_df["subreddit"].unique())
num_authors = len(posts_df["author"].unique())
num_posts = len(posts_df)

print(f"Collected {num_posts} posts from {num_subredits} subreddits and {num_authors} authors")

Collected 149894 posts from 1030 subreddits and 32311 authors


num_posts_per_sub = posts_df.groupby("subreddit").size().reset_index(name="num_posts")
display(num_posts_per_sub.sample(10))

# Plot the density of the number of posts per subreddit
sns.histplot(num_posts_per_sub["num_posts"], stat="density", bins=100, kde=True)
plt.title("Density of the number of posts per subreddit")
plt.xlabel("Number of posts")
plt.ylabel("Density")
plt.show()


num_subscribers_per_sub = posts_df.groupby("subreddit").agg("subreddit_subscribers").mean().round().astype(int).reset_index(name="subscribers")
display(num_subscribers_per_sub.sample(10))


num_posts_and_subscribers_per_sub = num_posts_per_sub.merge(num_subscribers_per_sub, on="subreddit")
num_posts_and_subscribers_per_sub["subscribers"] = num_posts_and_subscribers_per_sub["subscribers"].apply(lambda x: 1 if x == 0 else x)

plt.figure(figsize=(20, 10))
sns.scatterplot(data=num_posts_and_subscribers_per_sub, x="subscribers", y="num_posts")
plt.xscale("log")
plt.title("Number of posts vs number of subscribers for each subreddit")
plt.xlabel("Number of subscribers")
plt.ylabel("Number of posts")
# Set the xticks, taking into account the trick of changing the 0 to 1
plt.xticks([10**i for i in range(9)], ["0", "10", "100", "1k", "10k", "100k", "1M", "10M", '100M'])

# Plot the line to mark the tendency of the data
plt.plot([10**i for i in range(3, 8)], [500/4*(4-i) for i in range(5)], color="red", linestyle="--")

plt.show()


sns.histplot(num_subscribers_per_sub["subscribers"], log_scale=(False, True), stat="density", bins=100)
plt.title("Distribution of the number of subscribers per subreddit")
plt.xlabel("Number of subscribers")
plt.ylabel("Density")
plt.show()


num_subs_per_user = posts_df.groupby(["author", "subreddit"]).size().groupby("author").size().sort_values(ascending=False).reset_index(name="num_subs")
display(num_subs_per_user.head(10))

# Plot the density of the number of subreddits per author in log scale
sns.histplot(num_subs_per_user["num_subs"], discrete=True, stat="density", log_scale=(False, True))
plt.xlabel("Number of subreddits")
plt.title("Density of the number of subreddits per user")
plt.show()


# Plot the distribution of the number of posts per author
num_posts_per_user = posts_df.groupby("author").size().sort_values(ascending=False).reset_index(name="num_posts")
display(num_posts_per_user.head(10))

sns.histplot(num_posts_per_user["num_posts"], stat="density", bins=100)
plt.yscale("log")
plt.title("Density of the number of posts per author")
plt.xlabel("Number of posts")
plt.ylabel("Density")
plt.show()


# Plot the number of posts of each user against the number of subreddits they posted in
num_posts_and_subs_per_user = num_posts_per_user.merge(num_subs_per_user, on="author")

plt.figure(figsize=(20, 10))
sns.scatterplot(data=num_posts_and_subs_per_user, x="num_posts", y="num_subs", alpha=0.3)
plt.xscale("log")
plt.title("Number of subreddits vs number of posts for each user")
plt.xlabel("Number of posts")
plt.ylabel("Number of subreddits")

# Plot y = 2x
x = [i for i in range(num_subs_per_user["num_subs"].max() * 2)]
plt.plot(x, [i/2 for i in x], color="red", linestyle="--")

plt.show()


num_users_per_sub = posts_df.groupby(["subreddit", "author"]).size().groupby("subreddit").size().sort_values(ascending=False).reset_index(name="num_users")
display(num_users_per_sub.head(10))

sns.histplot(num_users_per_sub["num_users"], stat="density", bins=100)
plt.title("Density of the number of users per subreddit")
plt.xlabel("Number of users")
plt.ylabel("Density")
plt.show()


# Create a dataframe with all the author-subreddit pairs
user_sub_pairs = posts_df.groupby(["author", "subreddit"]).size().reset_index(name="num_posts")
display(user_sub_pairs.head(10))

# Save the author-subreddit pairs to a csv file that could be imported to Cytoscape
user_sub_pairs.to_csv(f"{NETWORKS_PATH}/bipartite.csv", index=False)


sub_data = num_subscribers_per_sub.copy()
sub_data = sub_data.merge(num_posts_per_sub, on="subreddit")
sub_data = sub_data.merge(num_users_per_sub, on="subreddit")
sub_data = sub_data.rename(columns={"subreddit": "id"})
sub_data = sub_data.sort_values(by="subscribers", ascending=False)
# Add column `is_user` with value `False` to indicate that the nodes are subreddits
sub_data["is_user"] = False

display(sub_data.head(10))

# Save the dataframe to a csv file
sub_data.to_csv(f"{NETWORKS_PATH}/bipartite_sub_data.csv", index=False)


# Create a dataframe with author data
user_data = posts_df.groupby("author")["score"].sum().sort_values(ascending=False).reset_index()
user_data = user_data.merge(num_posts_per_user, on="author")
user_data = user_data.rename(columns={"score": "total_score", "author": "id"})

user_data["is_user"] = True
display(user_data.head(10))

# Save the dataframe to a csv file that could be imported to Cytoscape
user_data.to_csv(f"{NETWORKS_PATH}/bipartite_user_data.csv", index=False)


posts_df_filtered = posts_df[posts_df["depth"] <= 2]
print("Num of posts after 'depth <= 2':", len(posts_df_filtered))
posts_df_filtered = posts_df_filtered[posts_df_filtered["subreddit_subscribers"] >= 500000]
print("Num of posts after 'subreddit_subscribers >= 500000':", len(posts_df_filtered))

user_sub_pairs_filtered = posts_df_filtered.groupby(["author", "subreddit"]).size().reset_index(name="num_posts")
display(user_sub_pairs_filtered.head(10))

# Save the author-subreddit pairs to a csv file that could be imported to Cytoscape
user_sub_pairs_filtered.to_csv(f"{NETWORKS_PATH}/bipartite_filtered.csv", index=False)

Num of posts after 'depth <= 2': 121426
Num of posts after 'subreddit_subscribers >= 500000': 57800


G_bipartite = nx.Graph()
# Add nodes to the graph marking their partitions
for row in user_data.iterrows():
    G_bipartite.add_node(
        row[1]["id"],
        bipartite="user",
        total_score=row[1]["total_score"],
        num_posts=row[1]["num_posts"],
    )

for row in sub_data.iterrows():
    G_bipartite.add_node(
        row[1]["id"],
        bipartite="sub",
        subscribers=row[1]["subscribers"],
        num_posts=row[1]["num_posts"],
        num_users=row[1]["num_users"],
    )

# Add edges to the graph
for row in user_sub_pairs.iterrows():
    G_bipartite.add_edge(
        row[1]["author"], row[1]["subreddit"], num_posts=row[1]["num_posts"]
    )

# Add degree as a node attribute
for node in G_bipartite.nodes():
    G_bipartite.nodes[node]["degree"] = G_bipartite.degree[node]

# Check if the graph is indeed bipartite
print(nx.is_bipartite(G_bipartite))

True


# Create a projection
users_nodes = [node for node in G_bipartite.nodes() if G_bipartite.nodes[node]["bipartite"] == "user"]
G_users = nx.bipartite.weighted_projected_graph(G_bipartite, users_nodes, ratio=False)


print("Number of nodes:", G_users.number_of_nodes())
print("Number of edges:", G_users.number_of_edges())

print("\nSample node:")
print(list(G_users.nodes(data=True))[0])

print("\nSample edge:")
print(list(G_users.edges(data=True))[0])

Number of nodes: 32311
Number of edges: 870230

Sample node:
('u/My_Memes_Will_Cure_U', {'bipartite': 'user', 'total_score': 28764321, 'num_posts': 725, 'degree': 63})

Sample edge:
('u/My_Memes_Will_Cure_U', 'u/Rredite', {'weight': 1})


# Rename edge attributes 'weight' to 'common_subs'
for edge in list(G_users.edges()):
    G_users.edges[edge]["num_common_subs"] = G_users.edges[edge].pop("weight")


num_common_subs = [G_users.edges[edge]["num_common_subs"] for edge in G_users.edges()]
# Plot the distribution of the number of common subs
sns.histplot(num_common_subs, stat="density", discrete=True)
plt.yscale("log")
plt.title("Distribution of the number of common subreddits between users")
plt.xlabel("Number of common subreddits")
plt.ylabel("Density")
plt.minorticks_on()
plt.show()


# Save edgelist to csv file
with open(f"{NETWORKS_PATH}/users.csv", "w") as f:
    writer = csv.writer(f, delimiter=",", lineterminator="\n")
    writer.writerow(["source", "target", "num_common_subs"])
    for edge in G_users.edges(data=True):
        writer.writerow([edge[0], edge[1], edge[2]["num_common_subs"]])


# Count the number of connected components in the graph
users_components = list(nx.connected_components(G_users))
print("Number of connected components:", len(users_components))

Number of connected components: 51


# Identify the largest connected component
users_components_sorted = sorted(users_components, key=len, reverse=True)
G_users_lcc = G_users.subgraph(users_components_sorted[0])
G_users_2nd_lcc = G_users.subgraph(users_components_sorted[1])

num_edges_complete_graph = G_users.number_of_nodes() * (G_users.number_of_nodes() - 1) / 2

components = [G_users, G_users_lcc, G_users_2nd_lcc]
components_data = []
for component in components:
    components_data.append(
        [
            component.number_of_nodes(),
            component.number_of_edges(),
            round(component.number_of_nodes() / G_users.number_of_nodes() * 100, 4),
            round(component.number_of_edges() / G_users.number_of_edges() * 100, 4),
            round(component.number_of_edges() / num_edges_complete_graph * 100, 4),
        ]
    )

table = [
    [
        "",
        "# nodes",
        "# edges",
        f"node % of\nthe network",
        f"edge % of\nthe network",
        f"edge % of the\ncomplete graph"
    ],
    ["Network", *components_data[0]], 
    ["LC", *components_data[1]],
    ["2nd LC", *components_data[2]],
]

print(tabulate(table, headers="firstrow", tablefmt="fancy_grid"))

╒═════════╤═══════════╤═══════════╤═══════════════╤═══════════════╤══════════════════╕
│         │   # nodes │   # edges │     node % of │     edge % of │    edge % of the │
│         │           │           │   the network │   the network │   complete graph │
╞═════════╪═══════════╪═══════════╪═══════════════╪═══════════════╪══════════════════╡
│ Network │     32311 │    870230 │      100      │      100      │           0.1667 │
├─────────┼───────────┼───────────┼───────────────┼───────────────┼──────────────────┤
│ LC      │     30950 │    843076 │       95.7878 │       96.8797 │           0.1615 │
├─────────┼───────────┼───────────┼───────────────┼───────────────┼──────────────────┤
│ 2nd LC  │        76 │      2850 │        0.2352 │        0.3275 │           0.0005 │
╘═════════╧═══════════╧═══════════╧═══════════════╧═══════════════╧══════════════════╛


def calculate_degree_densities(G: nx.Graph) -> pd.DataFrame:
    degrees = [G.degree[node] for node in G.nodes()]

    # Count the number of nodes with each degree
    degree_counts = defaultdict(int)
    for degree in degrees:
        degree_counts[degree] += 1

    # Create a dataframe with the degree and the number of nodes with that degree
    df = pd.DataFrame.from_dict(degree_counts, orient="index", columns=["count"]).reset_index()
    df = df.rename(columns={"index": "degree"})

    # Calculate the density of each degree
    df["density"] = df["count"] / G.number_of_nodes()
    return df


# Calculate the average degree of the largest connected component
G_users_lcc_avg_degree = sum([G_users_lcc.degree[node] for node in G_users_lcc.nodes()]) / G_users_lcc.number_of_nodes()

G_users_lcc_degrees = calculate_degree_densities(G_users_lcc)

# Plot the degree distribution on a scatter plot
plt.figure(figsize=(15, 10))
sns.scatterplot(data=G_users_lcc_degrees, x="degree", y="density")
plt.xscale("log")
plt.yscale("log")
plt.title("Degree distribution of the largest connected component")
plt.xlabel("Degree")
plt.ylabel("Density")

# Plot the average degree as a vertical line
plt.axvline(x=G_users_lcc_avg_degree, color="red", linestyle="--", label=f"Average degree: {round(G_users_lcc_avg_degree, 2)}")
plt.legend()
plt.show()


# Plot the degree distribution on a scatter plot
plt.figure(figsize=(15, 10))
sns.scatterplot(data=G_users_lcc_degrees, x="degree", y="density")
plt.title("Degree distribution of the largest connected component")
plt.xlabel("Degree")
plt.ylabel("Density")
plt.show()


# Create Erdos-Renyi random graph with the same number of nodes and edges as the largest connected component
num_edges_complete_graph = G_users_lcc.number_of_nodes() * (G_users_lcc.number_of_nodes() - 1) / 2
G_users_lcc_ER = nx.erdos_renyi_graph(G_users_lcc.number_of_nodes(), G_users_lcc.number_of_edges() / num_edges_complete_graph, seed=42)

G_users_lcc_ER_degrees = calculate_degree_densities(G_users_lcc_ER)


# Plot both degree distributions on a scatter plot
plt.figure(figsize=(15, 10))
sns.scatterplot(data=G_users_lcc_degrees, x="degree", y="density", label="Users largest component")
sns.scatterplot(data=G_users_lcc_ER_degrees, x="degree", y="density", label="ER random graph")
plt.xscale("log")
plt.yscale("log")
plt.title("Degree distribution of users largest connected component vs Erdos-Renyi random graph")
plt.xlabel("Degree")
plt.ylabel("Density")
plt.legend()
plt.show()


# Create a Watts-Strogatz small-world graph with the same number of nodes and edges as the largest connected component
values_of_p = [0.01, 0.1, 0.5]

plt.figure(figsize=(15, 10))
sns.scatterplot(data=G_users_lcc_degrees, x="degree", y="density", label="Users largest component")
plt.xscale("log")
plt.yscale("log")
plt.title("Degree distribution of users largest connected component vs Watts-Strogatz small-world graph")
plt.xlabel("Degree")
plt.ylabel("Density")

for i, p in enumerate(values_of_p):
    G_users_lcc_WS = nx.watts_strogatz_graph(G_users_lcc.number_of_nodes(), k=round(G_users_lcc_avg_degree), p=p, seed=42)
    G_users_lcc_WS_degrees = calculate_degree_densities(G_users_lcc_WS)
    # Decided to use a line plot instead of a scatter plot to make it easier to see the difference between graphs
    sns.lineplot(data=G_users_lcc_WS_degrees, x="degree", y="density", label=f"WS random graph (p={p})", color=f"C{i+1}")

plt.legend()
plt.show()


# Create a Barabasi-Albert scale-free graph with the same number of nodes and edges as the largest connected component
G_users_lcc_BA = nx.barabasi_albert_graph(G_users_lcc.number_of_nodes(), m=round(G_users_lcc_avg_degree/2), seed=42)

G_users_lcc_BA_degrees = calculate_degree_densities(G_users_lcc_BA)

plt.figure(figsize=(15, 10))
sns.scatterplot(data=G_users_lcc_degrees, x="degree", y="density", alpha=0.5, label="Users largest component")
sns.scatterplot(data=G_users_lcc_BA_degrees, x="degree", y="density", alpha=0.7, label="BA random graph", marker="x")
plt.xscale("log")
plt.yscale("log")
plt.title("Degree distribution of users largest connected component vs Barabasi-Albert scale-free graph")
plt.xlabel("Degree")
plt.ylabel("Density")
plt.legend()
plt.show()


# Create a projection
subreddits_nodes = [node for node in G_bipartite.nodes() if G_bipartite.nodes[node]["bipartite"] == "sub"]
G_subreddits = nx.bipartite.weighted_projected_graph(G_bipartite, subreddits_nodes, ratio=False)


print(f"Number of nodes: {G_subreddits.number_of_nodes()}")
print(f"Number of edges: {G_subreddits.number_of_edges()}")

print("\nSample node:")
print(list(G_subreddits.nodes(data=True))[0])

print("\nSample edge:")
print(list(G_subreddits.edges(data=True))[0])

Number of nodes: 1030
Number of edges: 14920

Sample node:
('r/announcements', {'bipartite': 'sub', 'subscribers': 202719824, 'num_posts': 138, 'num_users': 21, 'degree': 21})

Sample edge:
('r/announcements', 'r/ModSupport', {'weight': 4})


# Rename edge attributes 'weight' to 'common_users'
for edge in G_subreddits.edges():
    G_subreddits.edges[edge]["common_users"] = G_subreddits.edges[edge].pop("weight")


num_common_users = [G_subreddits.edges[edge]["common_users"] for edge in G_subreddits.edges()]
# Plot the distribution of the number of common users
sns.histplot(num_common_users, stat="density", discrete=True)
plt.yscale("log")
plt.title("Distribution of the number of common users")
plt.xlabel("Number of common users")
plt.ylabel("Density")
plt.minorticks_on()
plt.show()


# Save edgelist to a csv file
with open(f"{NETWORKS_PATH}/subreddits.csv", "w") as f:
    writer = csv.writer(f, delimiter=",", lineterminator="\n")
    writer.writerow(["source", "target", "common_users"])
    for edge in G_subreddits.edges(data=True):
        writer.writerow([edge[0], edge[1], edge[2]["common_users"]])


sub_depths_df = pd.DataFrame.from_dict(sub_depths, orient="index", columns=["depth"]).reset_index().sort_values("depth", ascending=True)
sub_depths_df = sub_depths_df.rename(columns={"index": "id"})
# Add 'r/' to the beginning of the subreddit names
sub_depths_df["id"] = sub_depths_df["id"].apply(lambda x: f"r/{x}")
# Remove subreddits that are not nodes of G_subreddits
sub_depths_df = sub_depths_df[sub_depths_df["id"].isin(G_subreddits.nodes())]
display(sub_depths_df.head())

sub_depths_df.to_csv(f"{NETWORKS_PATH}/sub_depths.csv", index=False)


subs_components = list(nx.connected_components(G_subreddits))
subs_components.sort(key=len, reverse=True)
print(f"Number of connected components: {len(subs_components)}")

Number of connected components: 51


# Identify the largest connected component
G_subs_lcc = G_subreddits.subgraph(subs_components[0])
G_subs_2nd_lcc = G_subreddits.subgraph(subs_components[1])

num_edges_complete_graph = G_subreddits.number_of_nodes() * (G_subreddits.number_of_nodes() - 1) / 2

components = [G_subreddits, G_subs_lcc, G_subs_2nd_lcc]
components_data = []
for component in components:
    components_data.append(
        [
            component.number_of_nodes(),
            component.number_of_edges(),
            round(component.number_of_nodes() / G_subreddits.number_of_nodes() * 100, 4),
            round(component.number_of_edges() / G_subreddits.number_of_edges() * 100, 4),
            round(component.number_of_edges() / num_edges_complete_graph * 100, 4),
        ]
    )

table = [
    [
        "",
        "# nodes",
        "# edges",
        f"node % of\nthe network",
        f"edge % of\nthe network",
        f"edge % of the\ncomplete graph"
    ],
    ["Network", *components_data[0]], 
    ["LC", *components_data[1]],
    ["2nd LC", *components_data[2]],
]

print(tabulate(table, headers="firstrow", tablefmt="fancy_grid"))

╒═════════╤═══════════╤═══════════╤═══════════════╤═══════════════╤══════════════════╕
│         │   # nodes │   # edges │     node % of │     edge % of │    edge % of the │
│         │           │           │   the network │   the network │   complete graph │
╞═════════╪═══════════╪═══════════╪═══════════════╪═══════════════╪══════════════════╡
│ Network │      1030 │     14920 │      100      │      100      │           2.8154 │
├─────────┼───────────┼───────────┼───────────────┼───────────────┼──────────────────┤
│ LC      │       978 │     14918 │       94.9515 │       99.9866 │           2.8151 │
├─────────┼───────────┼───────────┼───────────────┼───────────────┼──────────────────┤
│ 2nd LC  │         2 │         1 │        0.1942 │        0.0067 │           0.0002 │
╘═════════╧═══════════╧═══════════╧═══════════════╧═══════════════╧══════════════════╛


G_subs_lcc_avg_degree = sum([G_subs_lcc.degree(node) for node in G_subs_lcc.nodes()]) / G_subs_lcc.number_of_nodes()

G_subs_lcc_degrees = calculate_degree_densities(G_subs_lcc)

plt.figure(figsize=(15, 10))
sns.scatterplot(data=G_subs_lcc_degrees, x="degree", y="density")
plt.title("Degree distribution of subreddits largest connected component")
plt.xlabel("Degree")
plt.ylabel("Density")

plt.axvline(x=G_subs_lcc_avg_degree, color="red", linestyle="--", label=f"Average degree: {round(G_subs_lcc_avg_degree, 2)}")
plt.legend()
plt.show()


plt.figure(figsize=(15, 10))
sns.scatterplot(data=G_subs_lcc_degrees, x="degree", y="density")
plt.xscale("log")
plt.yscale("log")
plt.title("Degree distribution of subreddits largest connected component")
plt.xlabel("Degree")
plt.ylabel("Density")

plt.axvline(x=G_subs_lcc_avg_degree, color="red", linestyle="--", label=f"Average degree: {round(G_subs_lcc_avg_degree, 2)}")
plt.legend()
plt.show()


G_subs_lcc_BA = nx.barabasi_albert_graph(G_subs_lcc.number_of_nodes(), m=round(G_subs_lcc_avg_degree / 2), seed=42)

G_subs_lcc_BA_degrees = calculate_degree_densities(G_subs_lcc_BA)

plt.figure(figsize=(15, 10))
sns.scatterplot(data=G_subs_lcc_degrees, x="degree", y="density", label="Subreddits largest component")
sns.scatterplot(data=G_subs_lcc_BA_degrees, x="degree", y="density", label="BA random graph", marker="x")
plt.xscale("log")
plt.yscale("log")
plt.title("Degree distribution of subreddits largest connected component vs Barabasi-Albert scale-free graph")
plt.xlabel("Degree")
plt.ylabel("Density")
plt.legend()
plt.show()


# Create remaining models
G_subs_lcc_ER = nx.erdos_renyi_graph(
        G_subs_lcc.number_of_nodes(),
        G_subs_lcc.number_of_edges() / (G_subs_lcc.number_of_nodes() * (G_subs_lcc.number_of_nodes() - 1) / 2),
        seed=42
    )

G_subs_lcc_WS_01 = nx.watts_strogatz_graph(
        G_subs_lcc.number_of_nodes(),
        round(G_subs_lcc_avg_degree),
        0.1,
        seed=42
    )

G_subs_lcc_WS_05 = nx.watts_strogatz_graph(
        G_subs_lcc.number_of_nodes(),
        round(G_subs_lcc_avg_degree),
        0.5,
        seed=42
    )


G_sub_lcc_models = {
    "Subreddits LCC": G_subs_lcc,
    "Erdos-Renyi": G_subs_lcc_ER,
    "Barabasi-Albert": G_subs_lcc_BA,
    "Watts-Strogatz (p=0.1)": G_subs_lcc_WS_01,
    "Watts-Strogatz (p=0.5)": G_subs_lcc_WS_05,
}

# Calculate clustering and average shortest path for each model
models_data = []
for model_name, model in G_sub_lcc_models.items():
    models_data.append(
        {
            "model": model_name,
            "clustering": nx.average_clustering(model),
            "avg_shortest_path": nx.average_shortest_path_length(model),
        }
    )

models_df = pd.DataFrame(models_data)
display(models_df)


# Print num edges for each model
for model_name, model in G_sub_lcc_models.items():
    print(f"{model_name}: {model.number_of_edges()}")

Subreddits LCC: 14918
Erdos-Renyi: 14794
Barabasi-Albert: 14445
Watts-Strogatz (p=0.1): 14670
Watts-Strogatz (p=0.5): 14670


# Plot clustering and average shortest path
plt.figure(figsize=(12,10))
sns.barplot(data=models_df, x="model", y="clustering")
plt.title("Clustering coefficient of the models")
plt.xlabel("Model")
plt.ylabel("Clustering coefficient")
plt.grid(axis="y", alpha=0.5)
plt.show()

plt.figure(figsize=(12,10))
sns.barplot(data=models_df, x="model", y="avg_shortest_path")
plt.title("Average shortest path of the models")
plt.xlabel("Model")
plt.ylabel("Average shortest path")
plt.grid(axis="y", alpha=0.5)
plt.show()


# Calculate node centralities
G_subs_lcc_centrality = {
    "degree": nx.degree_centrality(G_subs_lcc),
    "closeness": nx.closeness_centrality(G_subs_lcc),
    "betweenness": nx.betweenness_centrality(G_subs_lcc),
    "eigenvector": nx.eigenvector_centrality(G_subs_lcc),
}


# Convert to dataframe
G_subs_lcc_centrality_df = pd.DataFrame(G_subs_lcc_centrality)
# Add average column
G_subs_lcc_centrality_df["average"] = G_subs_lcc_centrality_df.mean(axis=1)
# Change index to column and rename to 'subreddit'
G_subs_lcc_centrality_df.reset_index(inplace=True)
G_subs_lcc_centrality_df.rename(columns={"index": "subreddit"}, inplace=True)

display(G_subs_lcc_centrality_df.head())


# Display top 5 subreddits for each centrality
for centrality in G_subs_lcc_centrality_df.columns[1:]:
    print(f"Top 5 subreddits by {centrality} centrality:")
    display(G_subs_lcc_centrality_df.sort_values(by=centrality, ascending=False).head(5))

Top 5 subreddits by degree centrality:

Top 5 subreddits by closeness centrality:

Top 5 subreddits by betweenness centrality:

Top 5 subreddits by eigenvector centrality:

Top 5 subreddits by average centrality:


G_subs_lcc_centrality_users = G_subs_lcc_centrality_df.merge(num_users_per_sub, on="subreddit")

# Calculate the mean centrality for each number of users
average_centrailties_per_num_of_users = G_subs_lcc_centrality_users.groupby("num_users").mean(numeric_only=True)

# Plot centrality vs number of users
fig, axes = plt.subplots(nrows=5, ncols=1, figsize=(12, 20))
fig.tight_layout(pad=3.0)

scatter_params = {
    "alpha": 0.3,
    "x": "num_users",
    "data": G_subs_lcc_centrality_users,
}

line_params = {
    "x": "num_users",
    "label": "Average",
    "data": average_centrailties_per_num_of_users,
    "color": "C1"
}

sns.scatterplot(y="degree", ax=axes[0], **scatter_params)
sns.lineplot(y="degree", ax=axes[0], **line_params)
axes[0].set_title("Degree centrality")
axes[0].set_ylabel("Centrality")

sns.scatterplot(y="closeness", ax=axes[1], **scatter_params)
sns.lineplot(y="closeness", ax=axes[1], **line_params)
axes[1].set_title("Closeness centrality")
axes[1].set_ylabel("Centrality")

sns.scatterplot(y="betweenness", ax=axes[2], **scatter_params)
sns.lineplot(y="betweenness", ax=axes[2], **line_params)
axes[2].set_title("Betweenness centrality")
axes[2].set_ylabel("Centrality")

sns.scatterplot(y="eigenvector", ax=axes[3], **scatter_params)
sns.lineplot(y="eigenvector", ax=axes[3], **line_params)
axes[3].set_title("Eigenvector centrality")
axes[3].set_ylabel("Centrality")

sns.scatterplot(y="average", ax=axes[4], **scatter_params)
sns.lineplot(y="average", ax=axes[4], **line_params)
axes[4].set_title("Average centrality")
axes[4].set_ylabel("Centrality")

plt.show()


# Save values of statistics of r/wholesomegifs
wholsomegifs_nums = {
    "num_users": num_users_per_sub[num_users_per_sub["subreddit"] == "r/wholesomegifs"]["num_users"].values[0],
    "num_posts": num_posts_per_sub[num_posts_per_sub["subreddit"] == "r/wholesomegifs"]["num_posts"].values[0],
    "subscribers": num_subscribers_per_sub[num_subscribers_per_sub["subreddit"] == "r/wholesomegifs"]["subscribers"].values[0]
}

# Sort values by number of users, posts, subscribers
num_users_rank = num_users_per_sub.sort_values(by="num_users", ascending=False)
num_posts_rank = num_posts_per_sub.sort_values(by="num_posts", ascending=False)
num_subscribers_rank = num_subscribers_per_sub.sort_values(by="subscribers", ascending=False)

# Keep only rows with unique number of users, posts, subscribers in order to exclude ties
num_users_rank = num_users_rank.drop_duplicates(subset="num_users").reset_index(drop=True)
num_posts_rank = num_posts_rank.drop_duplicates(subset="num_posts").reset_index(drop=True)
num_subscribers_rank = num_subscribers_rank.drop_duplicates(subset="subscribers").reset_index(drop=True)

# Find index of first rows containing the number of users, posts, subscribers of r/wholesomegifs
wholsomegifs_rank = {
    "num_users": num_users_rank[num_users_rank["num_users"] == wholsomegifs_nums["num_users"]].index[0] + 1,
    "num_posts": num_posts_rank[num_posts_rank["num_posts"] == wholsomegifs_nums["num_posts"]].index[0] + 1,
    "subscribers": num_subscribers_rank[num_subscribers_rank["subscribers"] == wholsomegifs_nums["subscribers"]].index[0] + 1,
}

# Print rank of r/wholesomegifs
print(f"r/wholesomegifs is ranked {wholsomegifs_rank['num_users']}/{len(num_users_rank)} by number of users")
print(f"r/wholesomegifs is ranked {wholsomegifs_rank['num_posts']}/{len(num_posts_rank)} by number of posts")
print(f"r/wholesomegifs is ranked {wholsomegifs_rank['subscribers']}/{len(num_subscribers_rank)} by number of subscribers")

r/wholesomegifs is ranked 35/81 by number of users
r/wholesomegifs is ranked 80/343 by number of posts
r/wholesomegifs is ranked 379/958 by number of subscribers


subs_lcc_lovain = list(nx.algorithms.community.louvain_communities(G_subs_lcc, seed=42))

print(f"Number of communities: {len(subs_lcc_lovain)}")

Number of communities: 11


def get_community_number(node, communities: list[set]) -> int:
    for i, community in enumerate(communities):
        if node in community:
            return i
    return -1


subs_lcc_data = pd.DataFrame(columns=["id", "community"])

subs_lcc_data["id"] = [node for node in G_subs_lcc.nodes()]
subs_lcc_data["community"] = subs_lcc_data["id"].apply(lambda x: get_community_number(x, subs_lcc_lovain))

display(subs_lcc_data.head(10))


subs_lcc_data = subs_lcc_data.merge(sub_data, on="id")
display(subs_lcc_data.head(10))


with open(os.path.join(NETWORKS_PATH, "subreddits_lcc.csv"), "w") as f:
    writer = csv.writer(f, delimiter=",", lineterminator="\n")
    writer.writerow(["source", "target", "common_users"])
    for edge in G_subs_lcc.edges(data=True):
        writer.writerow([edge[0], edge[1], edge[2]["common_users"]])

subs_lcc_data.to_csv(os.path.join(NETWORKS_PATH, "subreddits_lcc_data.csv"), index=False)


subs_lcc_data = subs_lcc_data.rename(columns={"id": "subreddit"})
subs_lcc_data = subs_lcc_data.merge(G_subs_lcc_centrality_df, on="subreddit")

subs_lcc_data.head()


communities = subs_lcc_data["community"].unique().tolist()
communities.sort()

# Plot the barplot with the number of subreddits in each community. Display the number of subreddits on top of each bar.
num_subreddits_per_community = {k: v for k, v in subs_lcc_data["community"].value_counts().items()}
plt.figure(figsize=(10, 5))
sns.barplot(x=communities, y=[num_subreddits_per_community[community] for community in communities], color="C0")
plt.title("Number of subreddits in each community")
plt.xlabel("Community")
plt.ylabel("Number of subreddits")

for i, community in enumerate(communities):
    plt.text(i, num_subreddits_per_community[community], num_subreddits_per_community[community], ha="center", va="bottom")

plt.show()


attributes_to_compare = ["subscribers", "num_posts", "num_users", "degree", "closeness", "betweenness", "eigenvector"]
labels = ["Number of subscribers", "Number of posts", "Number of users", "Degree centrality", "Closeness centrality", "Betweenness centrality", "Eigenvector centrality"]

for attribute, x_label in zip(attributes_to_compare, labels):
    plt.figure(figsize=(10, 5))
    sns.boxplot(x="community", y=attribute, data=subs_lcc_data, order=communities, color="C0")
    plt.title(f"{x_label} in each community")
    plt.xlabel("Community")
    plt.ylabel(x_label)
    plt.show()


num_subscribers_threshold = 10000000

plt.figure(figsize=(10, 5))
sns.boxplot(x="community", y="subscribers", data=subs_lcc_data[subs_lcc_data["subscribers"] < num_subscribers_threshold], order=communities, color="C0")
plt.title("Number of subscribers in each community")
plt.xlabel("Community")
plt.ylabel("Number of subscribers")
plt.show()


G_communities = {}

# Create the subgraphs of each community
for community in communities:
    nodes = subs_lcc_data[subs_lcc_data["community"] == community]["subreddit"].tolist()
    G_communities[community] = G_subs_lcc.subgraph(nodes)

# Calculate the node centralities in the subgraphs of each community
G_communities_centralities = {}
for community, network in G_communities.items():
    centralities = {
        "degree": nx.degree_centrality(network),
        "closeness": nx.closeness_centrality(network),
        "betweenness": nx.betweenness_centrality(network),
        "eigenvector": nx.eigenvector_centrality(network),
    }

    df = pd.DataFrame(centralities)
    df.reset_index(inplace=True)
    df = df.rename(columns={"index": "subreddit"})

    # Calculate the average centralities for each community
    G_communities_centralities[community] = {
        "df": df,
        "avg_degree": df["degree"].mean(),
        "avg_closeness": df["closeness"].mean(),
        "avg_betweenness": df["betweenness"].mean(),
        "avg_eigenvector": df["eigenvector"].mean(),
    }


# Plot the average centralities for each community
avg_centralities = ["avg_degree", "avg_closeness", "avg_betweenness", "avg_eigenvector"]
labels = ["Average degree centrality", "Average closeness centrality", "Average betweenness centrality", "Average eigenvector centrality"]

communities_by_sizes = sorted(communities, key=lambda x: num_subreddits_per_community[x], reverse=True)

for avg_centrality, label in zip(avg_centralities, labels):
    plt.figure(figsize=(10, 5))
    plt.bar(x=[f"{community}" for community in communities_by_sizes], height=[G_communities_centralities[community][avg_centrality] for community in communities_by_sizes])
    plt.title(f"{label} for each community")
    plt.xlabel("Community")
    plt.ylabel(label)
    plt.xticks(communities_by_sizes)

    # Plot sizes of the communitites
    for i, community in enumerate(communities_by_sizes):
        plt.text(i, G_communities_centralities[community][avg_centrality], f"{num_subreddits_per_community[community]} nodes", ha="center", va="bottom", fontsize=8)


for community, stats in G_communities_centralities.items():
    if num_subreddits_per_community[community] < 120:
        continue

    print("=" * 50)
    print(f"Community {community}")
    df = stats["df"]
    for centrality in df.columns[1:]:
        print(f"Top 5 subreddits by {centrality} centrality:")
        display(df.sort_values(by=centrality, ascending=False).head(5))

==================================================
Community 1
Top 5 subreddits by degree centrality:

Top 5 subreddits by closeness centrality:

Top 5 subreddits by betweenness centrality:

Top 5 subreddits by eigenvector centrality:

==================================================
Community 5
Top 5 subreddits by degree centrality:

Top 5 subreddits by closeness centrality:

Top 5 subreddits by betweenness centrality:

Top 5 subreddits by eigenvector centrality:

==================================================
Community 7
Top 5 subreddits by degree centrality:

Top 5 subreddits by closeness centrality:


NUM_TOP_SUBREDDITS = 10

top_centrality_subreddits_per_community = {}

for community in communities:
    df = G_communities_centralities[community]["df"]

    subreddit_set = set()
    for centrality in df.columns[1:]:
        top_subreddits = df.sort_values(by=centrality, ascending=False).head(10)["subreddit"].tolist()
        subreddit_set.update(top_subreddits)

    top_centrality_subreddits_per_community[community] = subreddit_set


display(communities)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


display(top_centrality_subreddits_per_community[0])

{'r/intermittentfasting', 'r/keto'}


display(top_centrality_subreddits_per_community[1])

{'r/Animemes',
 'r/Games',
 'r/Konosuba',
 'r/NintendoSwitch',
 'r/PS4',
 'r/PS5',
 'r/PoliticalCompassMemes',
 'r/ShingekiNoKyojin',
 'r/XboxSeriesX',
 'r/anime',
 'r/dankmemes',
 'r/horizon',
 'r/manga',
 'r/memes',
 'r/movies',
 'r/nintendo',
 'r/sciencememes',
 'r/television',
 'r/totalwar',
 'r/whenthe',
 'r/xboxone'}


display(top_centrality_subreddits_per_community[2])

{'r/Deltarune',
 'r/DetroitBecomeHuman',
 'r/Fallout',
 'r/SampleSize',
 'r/fo76',
 'r/personalfinance',
 'r/skyrim'}


display(top_centrality_subreddits_per_community[3])

{'r/AskHistorians',
 'r/DIY',
 'r/Imposter',
 'r/MovieDetails',
 'r/SubredditAdoption',
 'r/announcements',
 'r/blog',
 'r/changelog',
 'r/modnews',
 'r/place',
 'r/redditsecurity',
 'r/redesign',
 'r/self',
 'r/thebutton',
 'r/todayilearned',
 'r/woodworking'}


display(top_centrality_subreddits_per_community[4])

{'r/Warthunder', 'r/WorldOfWarships'}


display(top_centrality_subreddits_per_community[5])

{'r/BeAmazed',
 'r/Damnthatsinteresting',
 'r/MEOW_IRL',
 'r/MadeMeSmile',
 'r/NatureIsFuckingLit',
 'r/SweatyPalms',
 'r/Whatcouldgowrong',
 'r/WhitePeopleTwitter',
 'r/blackmagicfuckery',
 'r/holdmycosmo',
 'r/instant_regret',
 'r/maybemaybemaybe',
 'r/nextfuckinglevel',
 'r/toptalent',
 'r/trippinthroughtime',
 'r/youseeingthisshit'}


display(top_centrality_subreddits_per_community[6])

{'r/AmateurRoomPorn',
 'r/Catswhoyell',
 'r/Gameboy',
 'r/Honda',
 'r/Idiotswithguns',
 'r/JDM',
 'r/Lexus',
 'r/Mid_Century',
 'r/OneSecondBeforeDisast',
 'r/ThriftStoreHauls',
 'r/fuckcars',
 'r/funnyvideos',
 'r/gamecollecting',
 'r/gtaonline',
 'r/politecats',
 'r/rally',
 'r/tiktokcringemoment'}


display(top_centrality_subreddits_per_community[7])

{'r/BetterEveryLoop',
 'r/PraiseTheCameraMan',
 'r/WatchPeopleDieInside',
 'r/WeatherGifs',
 'r/aww',
 'r/blackpeoplegifs',
 'r/chemicalreactiongifs',
 'r/gifs',
 'r/gifsthatkeepongiving',
 'r/interestingasfuck',
 'r/lifehacks',
 'r/mechanical_gifs',
 'r/southpark',
 'r/whitepeoplegifs',
 'r/wholesomegifs',
 'r/woahdude'}


display(top_centrality_subreddits_per_community[8])

{'r/Coronavirus',
 'r/Economics',
 'r/EverythingScience',
 'r/Futurology',
 'r/UpliftingNews',
 'r/environment',
 'r/opensource',
 'r/politics',
 'r/privacy',
 'r/technews',
 'r/technology'}


display(top_centrality_subreddits_per_community[9])

{'r/ArchitecturePorn',
 'r/Breath_of_the_Wild',
 'r/CatastrophicFailure',
 'r/Cyberpunk',
 'r/Design',
 'r/DiWHY',
 'r/F1Technical',
 'r/ImaginaryLandscapes',
 'r/MacroPorn',
 'r/Outdoors',
 'r/RoomPorn',
 'r/TechnicalDeathMetal',
 'r/arduino',
 'r/astrophotography',
 'r/carporn',
 'r/europe',
 'r/nostalgia',
 'r/photography',
 'r/risa',
 'r/space',
 'r/spaceporn',
 'r/wow'}


display(top_centrality_subreddits_per_community[10])

{'r/BiggerThanYouThought', 'r/bigtiddygothgf', 'r/u_nicolebun'}


display(user_sub_pairs.shape)
display(user_sub_pairs.head())

(38054, 3)


user_sub_pairs_subs_lcc = user_sub_pairs[user_sub_pairs["subreddit"].isin(subs_lcc_data["subreddit"].tolist())]
display(user_sub_pairs_subs_lcc.shape)
display(user_sub_pairs_subs_lcc.head())

(36691, 3)


users_per_sub_subs_lcc = user_sub_pairs_subs_lcc.groupby("subreddit")["author"].apply(list).reset_index()
display(users_per_sub_subs_lcc.head())


frames = []
for i, row_1 in enumerate(users_per_sub_subs_lcc.itertuples()):
    for j, row_2 in enumerate(users_per_sub_subs_lcc[i+1:].itertuples()):
        common_users = set(row_1.author).intersection(row_2.author)
        if len(common_users) > 0:
            frames.append([row_1.subreddit, row_2.subreddit, common_users])

sub_sub_common_users_subs_lcc = pd.DataFrame(frames, columns=["subreddit_1", "subreddit_2", "common_users"])
display(sub_sub_common_users_subs_lcc.head())


num_subs_per_user_subs_lcc = num_subs_per_user[num_subs_per_user["author"].isin(user_sub_pairs_subs_lcc["author"].tolist())]
display(num_subs_per_user_subs_lcc.head())


G_subs_lcc = nx.from_pandas_edgelist(sub_sub_common_users_subs_lcc, source="subreddit_1", target="subreddit_2", edge_attr="common_users")


nx.draw(G_subs_lcc, pos=nx.spring_layout(G_subs_lcc, seed=42), node_size=10, width=0.1)


# In order to speed up the calculation, let's create a dictionary
# that maps each user to the edges that contain it
user_edges_subs_lcc = defaultdict(list)
for edge in G_subs_lcc.edges(data=True):
    for user in edge[2]["common_users"]:
        user_edges_subs_lcc[user].append((edge[0], edge[1]))


np.random.seed(42)
users_subs_lcc = num_subs_per_user_subs_lcc["author"].tolist()
users_subs_lcc = np.random.permutation(users_subs_lcc)
# We have to use deepcopy because we will modify the sets of users
G_subs_lcc_random = deepcopy(G_subs_lcc)

subs_lcc_efficiencies_random = []
subs_lcc_efficiencies_random.append(nx.global_efficiency(G_subs_lcc_random))
subs_lcc_efficiencies_random_num_edges_removed = [0]

for user_to_remove in tqdm(users_subs_lcc):
    edges_with_user = user_edges_subs_lcc[user_to_remove]
    edges_to_remove = []

    for edge_name in edges_with_user:
        edge = G_subs_lcc_random.edges[edge_name]
        edge["common_users"].remove(user_to_remove)
        if len(edge["common_users"]) == 0:
            edges_to_remove.append(edge_name)
    
    G_subs_lcc_random.remove_edges_from(edges_to_remove)
    subs_lcc_efficiencies_random_num_edges_removed.append(len(edges_to_remove))

    # To speed up the calculation, I will only calculate the global efficiency
    # if I removed at least one edge
    # otherwise, we will just append the last value
    if len(edges_to_remove) > 0:
        subs_lcc_efficiencies_random.append(nx.global_efficiency(G_subs_lcc_random))
    else:
        subs_lcc_efficiencies_random.append(subs_lcc_efficiencies_random[-1])

    if G_subs_lcc_random.number_of_edges() == 0:
        break

100%|██████████| 30950/30950 [1:02:02<00:00,  8.31it/s]


users_subs_lcc = num_subs_per_user_subs_lcc.sort_values(by="num_subs", ascending=False)["author"].tolist()
G_subs_lcc_targeted = deepcopy(G_subs_lcc)

subs_lcc_efficiencies_targeted = []
subs_lcc_efficiencies_targeted.append(nx.global_efficiency(G_subs_lcc_targeted))
subs_lcc_efficiencies_targeted_num_edges_removed = [0]

for user_to_remove in tqdm(users_subs_lcc):
    edges_with_user = user_edges_subs_lcc[user_to_remove]
    edges_to_remove = []

    for edge_name in edges_with_user:
        edge = G_subs_lcc_targeted.edges[edge_name]
        edge["common_users"].remove(user_to_remove)
        if len(edge["common_users"]) == 0:
            edges_to_remove.append(edge_name)

    G_subs_lcc_targeted.remove_edges_from(edges_to_remove)
    subs_lcc_efficiencies_targeted_num_edges_removed.append(len(edges_to_remove))

    if len(edges_to_remove) > 0:
        subs_lcc_efficiencies_targeted.append(nx.global_efficiency(G_subs_lcc_targeted))
    else:
        subs_lcc_efficiencies_targeted.append(subs_lcc_efficiencies_targeted[-1])

    if G_subs_lcc_targeted.number_of_edges() == 0:
        break

100%|██████████| 30950/30950 [1:01:32<00:00,  8.38it/s]


plt.figure(figsize=(13, 10))
plt.plot(subs_lcc_efficiencies_random, label="Random")
plt.plot(subs_lcc_efficiencies_targeted, label="Targeted")
plt.title("Global efficiency of the subreddits LCC")
plt.xlabel("Number of users removed")
plt.ylabel("Global efficiency")
plt.legend()
plt.show()


# Create the network
G_subs_lcc = nx.from_pandas_edgelist(sub_sub_common_users_subs_lcc, source="subreddit_1", target="subreddit_2", edge_attr="common_users")

# Change common_users attribute to the number of common users
for edge in G_subs_lcc.edges(data=True):
    edge[2]["common_users"] = len(edge[2]["common_users"])


node_pos = pd.read_csv(os.path.join(NETWORKS_PATH, "subreddits_lcc_communities_node_collection_from_cyto.csv"))
node_pos = node_pos.set_index("subreddit")

# Convert the dataframe to a dictionary and to a format that can be used by networkx
node_pos_dict = node_pos.to_dict(orient="index")
node_pos_dict = {k: (v["x"], v["y"]) for k, v in node_pos_dict.items()}


plt.figure(figsize=(15, 10))
plt.gca().set_aspect("equal", adjustable="box")

nx.draw(
    G_subs_lcc,
    pos=node_pos_dict,
    node_size=10,
    width=0.1,
    with_labels=False,
)

plt.show()


MAX_PROBABILITY_OF_SPREAD = 0.5
MAX_COMMON_USERS = subs_lcc_data["num_users"].max()

def probability_of_spread(num_common_users: int, time_from_post: int,):
    return MAX_PROBABILITY_OF_SPREAD * math.exp(-time_from_post / 20) * (num_common_users / MAX_COMMON_USERS)


nums_users = [1, 5, 10, 20, 50, 90]
plt.figure(figsize=(12, 8))

for num_users in nums_users:
    plt.plot(
        [probability_of_spread(num_users, time_from_post) for time_from_post in range(50)],
        label=f"Number of common users: {num_users}"
    )

plt.legend()
plt.title("Probability of spread for different number of common users")
plt.xlabel("Time from post")
plt.ylabel("Probability of spread")
plt.show()


ANIMATION_PATH = os.path.join(os.getcwd(), "diffusion_animation")


MAX_TIME_FROM_POST = 50

def get_node_color(frame, t_spread): 
    if t_spread == None:
        return "blue"
    
    time_from_post = frame - t_spread
    time_from_post = time_from_post / MAX_TIME_FROM_POST
    return plt.cm.autumn(time_from_post)

# Plot color legend
plt.figure(figsize=(7, 1))
for i in range(100):
    plt.scatter(i, 0, color=get_node_color(i, 0))
    plt.gca().axes.get_yaxis().set_visible(False)

plt.title("Node color with respect to time from the last spread to it")
plt.xlabel("Time from spread")
plt.show()


NUM_FRAMES = 1000

# None of the nodes have been infected yet
for node in G_subs_lcc.nodes():
    G_subs_lcc.nodes[node]["t_spread"] = None

# Choose a random node to start the spread
staring_node = np.random.choice(list(G_subs_lcc.nodes()))
G_subs_lcc.nodes[staring_node]["t_spread"] = 0

num_nodes_spread = []

for frame in tqdm(range(NUM_FRAMES)):
    for node in G_subs_lcc.nodes():
        t_spread = G_subs_lcc.nodes[node]["t_spread"]

        # If the node hasn't been infected, do nothing
        if t_spread is not None:
            neighbors = G_subs_lcc.neighbors(node)
            for neighbor in neighbors:
                common_users = G_subs_lcc.edges[node, neighbor]["common_users"]
                p_spread = probability_of_spread(common_users, frame - t_spread)
                if np.random.random() < p_spread:
                    # Spread the infection
                    G_subs_lcc.nodes[neighbor]["t_spread"] = frame

    # Save the number of nodes that have been infected
    num_nodes_spread.append(len([node for node in G_subs_lcc.nodes() if G_subs_lcc.nodes[node]["t_spread"] is not None]))

    # Plot the network
    plt.figure(figsize=(10, 10))
    plt.gca().set_aspect("equal", adjustable="box")
    nx.draw(
        G_subs_lcc,
        pos=node_pos_dict,
        node_size=10,
        width=0.1,
        with_labels=False,
        node_color=[get_node_color(frame, G_subs_lcc.nodes[node]["t_spread"]) for node in G_subs_lcc.nodes()],
    )

    # Save the plot
    plt.title(f"Frame {frame}")
    plt.savefig(os.path.join(ANIMATION_PATH, f"frame_{frame}.png"))

    # Show the plot every 50 frames
    if frame % 10 == 0:
        clear_output(wait=True)
        plt.show()

    plt.clf()
    plt.close()

100%|██████████| 1000/1000 [35:34<00:00,  2.13s/it]


IMG_PATH = os.path.join(os.getcwd(), "img")


filenames = []

for filename in os.listdir(ANIMATION_PATH):
    filenames.append(os.path.join(ANIMATION_PATH, filename))

filenames.sort(key=lambda x: int(x.split("_")[-1].split(".")[0]))

mp4_writer = imageio.get_writer(os.path.join(IMG_PATH, "diffusion_animation.mp4"), fps=15)
for filename in tqdm(filenames):
    mp4_writer.append_data(imageio.imread(filename))

mp4_writer.close()

  0%|          | 0/1000 [00:00<?, ?it/s]C:\Users\steci\AppData\Local\Temp\ipykernel_17996\3936832062.py:10: DeprecationWarning: Starting with ImageIO v3 the behavior of this function will switch to that of iio.v3.imread. To keep the current behavior (and make this warning disappear) use `import imageio.v2 as imageio` or call `imageio.v2.imread` directly.
  mp4_writer.append_data(imageio.imread(filename))
IMAGEIO FFMPEG_WRITER WARNING: input image is not divisible by macro_block_size=16, resizing from (1000, 1000) to (1008, 1008) to ensure video compatibility with most codecs and players. To prevent resizing, make your input image divisible by the macro_block_size or set the macro_block_size to 1 (risking incompatibility).
100%|██████████| 1000/1000 [00:54<00:00, 18.50it/s]


num_nodes_spread_np = np.array(num_nodes_spread)
num_nodes_spread_np = num_nodes_spread_np / G_subs_lcc.number_of_nodes()

plt.figure(figsize=(12, 8))
plt.plot(num_nodes_spread_np, label="Infected nodes")
plt.plot(1 - num_nodes_spread_np, label="Uninfected nodes")
plt.title("Part of the network to which the information has spread over time")
plt.xlabel("Time")
plt.ylabel("Part of the network")
plt.legend()
plt.show()

print(F"Part of the network infected after {NUM_FRAMES} frames: {round(num_nodes_spread_np[-1], 4)}")

Part of the network infected after 1000 frames: 0.9826

	title	score	id	url	num_comments	created	author	upvote_ratio	permalink	subreddit	subreddit_subscribers	depth
88318	This looks like plastic, feels like plastic, b...	117971	kg5yxj	https://v.redd.it/9oq4dntgl4661	2390	1.608376e+09	mohiemen	0.91	/r/nextfuckinglevel/comments/kg5yxj/this_looks...	nextfuckinglevel	7785630	2
38468	Three Free EE Textbooks	106	9bggew	https://www.reddit.com/r/ECE/comments/9bggew/t...	16	1.535603e+09	itstimeforanexitplan	0.99	/r/ECE/comments/9bggew/three_free_ee_textbooks/	ECE	154880	3
115676	Failed Attempt by a Security Guard to Stop a F...	61127	97jkm2	https://i.imgur.com/SLs41rI.gifv	1106	1.534350e+09	BunyipPouch	0.92	/r/sports/comments/97jkm2/failed_attempt_by_a_...	sports	20617425	2
99413	McConnell blocks House bill to reopen governme...	85236	agabcf	https://thehill.com/homenews/senate/425414-mcc...	7360	1.547570e+09	emitremmus27	0.85	/r/politics/comments/agabcf/mcconnell_blocks_h...	politics	8294111	1
96225	PsBattle: A sculpture of a woman made out of w...	42731	bueyhn	https://i.redd.it/r72ugyjao5131.jpg	501	1.559138e+09	fjordfjord	0.88	/r/photoshopbattles/comments/bueyhn/psbattle_a...	photoshopbattles	18270824	2

	title	score	id	url	num_comments	created	author	upvote_ratio	permalink	subreddit	subreddit_subscribers	depth
42861	Ferrari World looks like a virus infecting the...	21742	cqx8gj	https://i.imgur.com/bolY368.jpg	412	1.565909e+09	u/Ayo-Glam	0.92	/r/evilbuildings/comments/cqx8gj/ferrari_world...	r/evilbuildings	1084637	3
113295	Knot (by More and More)	14219	9h55p7	https://gfycat.com/DefinitiveTepidGalapagosmoc...	284	1.537364e+09	u/KevlarYarmulke	0.98	/r/Simulated/comments/9h55p7/knot_by_more_and_...	r/Simulated	1233460	2
101604	It's already been a year since Neil Peart pass...	149	ks67ex	https://youtu.be/EsBNzf5JlZA	4	1.609996e+09	u/juanp2350	0.99	/r/progrockmusic/comments/ks67ex/its_already_b...	r/progrockmusic	51318	2
73178	I spyk ze engliš very gud.	758	flqvzz	https://i.redd.it/6hdtigua5sn41.jpg	70	1.584689e+09	u/KyouHarisen	0.98	/r/lithuania/comments/flqvzz/i_spyk_ze_engliš_...	r/lithuania	90712	2
83625	Extra horsepower won't do any harm - GG	816	ic53kb	https://i.redd.it/ulkwj6btmsh51.jpg	54	1.597771e+09	u/DontKillUncleBen	0.98	/r/motogp/comments/ic53kb/extra_horsepower_won...	r/motogp	289502	2

	subreddit	num_posts
904	r/trance	181
450	r/assassinscreed	167
315	r/PornhubComments	47
728	r/netsec	129
590	r/france	128
729	r/nevertellmetheodds	84
322	r/ProgrammingLanguages	237
860	r/submechanophobia	74
910	r/trees	65
627	r/hiphopheads	114

	subreddit	subscribers
902	r/totalwar	385442
632	r/holdmyjuicebox	745395
763	r/perfectloops	667931
331	r/Repsneakers	754961
291	r/PHP	156263
838	r/skyrim	1445471
211	r/Jokes	25595814
226	r/LateStageCapitalism	837508
863	r/suspiciouslyspecific	1257476
485	r/brooklynninenine	709603

	author	num_subs
0	u/My_Memes_Will_Cure_U	63
1	u/Master1718	60
2	u/memezzer	49
3	u/KevlarYarmulke	47
4	u/5_Frog_Margin	45
5	u/GallowBoob	40
6	u/Scaulbylausis	36
7	u/kevinowdziej	33
8	u/icant-chooseone	29
9	u/AristonD	28

SNA Project - Adam Steciuk¶

Part 1¶

Data collection¶

Data processing and analysis¶

Bipartite network of subreddits and users¶

Creation¶

Cytoscape visualization¶

Users projection¶

Creation¶

Visualization¶

Analysis¶

Degree distribution¶

Subreddits projection¶

Creation¶

Visualization¶

Analysis¶

Degree distribution¶

Clustering coefficient vs average path length¶

Node centrality¶

Part 2¶

Community detection¶

Visualization¶

Analysis¶

Topic distributions in communities¶

Conclusion¶

Robustness & percolation¶

How to give sense to the question of robustness?¶

Preparation¶

Analysis¶

Diffusion¶

How to give sense to the question of diffusion?¶

Preparation¶

Simulation¶

Results¶

Further improvements¶

Conclusions¶

	author	num_posts
0	u/SrGrafo	1077
1	u/GallowBoob	1069
2	u/Andromeda321	775
3	u/Yellyvi	763
4	u/My_Memes_Will_Cure_U	725
5	u/Unicornglitteryblood	516
6	u/pdwp90	506
7	u/ZadocPaet	485
8	u/mvea	450
9	u/flovringreen	430

	subreddit	num_users
0	r/generative	93
1	r/Unity2D	92
2	r/avatartrading	81
3	r/Cinema4D	81
4	r/dalmatians	80
5	r/KTMDuke	80
6	r/ukraine	80
7	r/turning	78
8	r/animation	78
9	r/Simulated	78

	author	subreddit	num_posts
0	u/--5-	r/india	2
1	u/--CreativeUsername	r/Physics	2
2	u/--Fatal--	r/homelab	2
3	u/--MVH--	r/Netherlands	4
4	u/--Speed--	r/logodesign	2
5	u/--UNFLAIRED--	r/carscirclejerk	2
6	u/--Yami_Marik--	r/WatchPeopleDieInside	3
7	u/--Yami_Marik--	r/holdmycosmo	2
8	u/-AMARYANA-	r/Awwducational	2
9	u/-AMARYANA-	r/Buddhism	7

	id	subscribers	num_posts	num_users	is_user
442	r/announcements	202719824	138	21	False
596	r/funny	48108476	60	17	False
42	r/AskReddit	40249936	13	4	False
604	r/gaming	36492322	75	22	False
461	r/aww	33655974	112	31	False
273	r/Music	32043294	145	37	False
1020	r/worldnews	31254656	133	37	False
899	r/todayilearned	31041441	114	39	False
720	r/movies	30617572	252	35	False
772	r/pics	29880182	72	24	False

	id	total_score	num_posts	is_user
0	u/My_Memes_Will_Cure_U	28764321	725	True
1	u/beerbellybegone	24308427	260	True
2	u/mvea	20158958	450	True
3	u/GallowBoob	18798098	1069	True
4	u/SrGrafo	16470408	1077	True
5	u/Master1718	15458144	403	True
6	u/DaFunkJunkie	15101854	202	True
7	u/memezzer	11689024	283	True
8	u/unnaturalorder	10315964	158	True
9	u/kevinowdziej	9681202	187	True

		# components	# nodes	# users	# subs	# edges
Unfiltered network		51	33 341	32 311	1 030	38 054
-	Largest component	1	31 928	30 950	978	36 691
Filtered network		38	13 166	12 707	459	15 672
-	Largest component	1	12 507	12 088	419	15 050

	model	clustering	avg_shortest_path
0	Subreddits LCC	0.395263	3.057360
1	Erdos-Renyi	0.030906	2.349040
2	Barabasi-Albert	0.081325	2.317469
3	Watts-Strogatz (p=0.1)	0.533901	2.792797
4	Watts-Strogatz (p=0.5)	0.111868	2.430817

	subreddit	degree	closeness	betweenness	eigenvector	average
0	r/announcements	0.012282	0.323189	0.000304	0.000765	0.084135
1	r/funny	0.054248	0.392685	0.012252	0.026350	0.121384
2	r/AskReddit	0.002047	0.293041	0.000029	0.000286	0.073851
3	r/gaming	0.088025	0.421484	0.023730	0.048522	0.145440
4	r/aww	0.133060	0.435189	0.007469	0.078944	0.163666

	subreddit	degree	closeness	betweenness	eigenvector	average
358	r/wholesomegifs	0.216991	0.486312	0.013632	0.116376	0.208328
139	r/BetterEveryLoop	0.209826	0.480098	0.014909	0.114699	0.204883
71	r/BeAmazed	0.204708	0.475889	0.014100	0.112649	0.201837
301	r/gifsthatkeepongiving	0.201638	0.469260	0.008975	0.114427	0.198575
471	r/blackpeoplegifs	0.201638	0.469035	0.007927	0.113781	0.198095

	subreddit	degree	closeness	betweenness	eigenvector
23	r/Games	0.207101	0.414216	0.061387	0.262288
149	r/anime	0.207101	0.411192	0.066271	0.249170
13	r/PS4	0.177515	0.376392	0.049306	0.230098
47	r/NintendoSwitch	0.171598	0.376392	0.011490	0.246041
32	r/manga	0.165680	0.414216	0.069636	0.212319

	id	depth
0	r/programming	0
25	r/pics	1
26	r/gifs	1
27	r/funny	1
28	r/WeatherGifs	1

	subreddit	degree	closeness	betweenness	eigenvector	average
3	r/gaming	0.088025	0.421484	0.023730	0.048522	0.145440
43	r/technology	0.100307	0.434415	0.023059	0.022403	0.145046
14	r/memes	0.042989	0.379270	0.019108	0.013435	0.113700
460	r/technews	0.089048	0.425894	0.017507	0.021620	0.138517
846	r/redesign	0.035824	0.373043	0.015943	0.006659	0.107867

	subreddit	degree	closeness	betweenness	eigenvector
166	r/memes	0.130178	0.380631	0.122991	0.014298
6	r/whenthe	0.082840	0.359574	0.120841	0.007869
31	r/Animemes	0.112426	0.399527	0.102044	0.037119
9	r/dankmemes	0.112426	0.384966	0.087028	0.016052
122	r/sciencememes	0.065089	0.283557	0.076580	0.000511

	subreddit	degree	closeness	betweenness	eigenvector
100	r/trippinthroughtime	0.705036	0.759563	0.018687	0.127546
135	r/MadeMeSmile	0.690647	0.751351	0.048629	0.126192
30	r/youseeingthisshit	0.690647	0.751351	0.012096	0.127460
64	r/instant_regret	0.690647	0.751351	0.029476	0.119631
62	r/toptalent	0.690647	0.751351	0.025570	0.128177

	subreddit	degree	closeness	betweenness	eigenvector
79	r/Damnthatsinteresting	0.654676	0.735450	0.049689	0.120235
135	r/MadeMeSmile	0.690647	0.751351	0.048629	0.126192
108	r/holdmycosmo	0.553957	0.681373	0.038343	0.110630
55	r/nextfuckinglevel	0.525180	0.668269	0.029867	0.100198
64	r/instant_regret	0.690647	0.751351	0.029476	0.119631

	subreddit	degree	closeness	betweenness	eigenvector
108	r/blackpeoplegifs	0.731092	0.777778	0.040147	0.159521
2	r/mechanical_gifs	0.722689	0.772727	0.029777	0.162109
101	r/wholesomegifs	0.705882	0.762821	0.020877	0.161621
5	r/BetterEveryLoop	0.689076	0.753165	0.027479	0.157184
9	r/whitepeoplegifs	0.663866	0.739130	0.026280	0.153699

	subreddit	degree	closeness	betweenness	eigenvector
111	r/aww	0.445378	0.619792	0.049672	0.102025
102	r/gifs	0.495798	0.632979	0.042218	0.115448
108	r/blackpeoplegifs	0.731092	0.777778	0.040147	0.159521
26	r/interestingasfuck	0.647059	0.725610	0.036692	0.140872
32	r/PraiseTheCameraMan	0.470588	0.632979	0.031756	0.120913

	subreddit	degree	closeness	betweenness	eigenvector
181	r/technology	0.20625	0.483384	0.072949	0.210070
77	r/technews	0.20000	0.480480	0.070091	0.204190
252	r/Economics	0.19375	0.474777	0.054601	0.203605
316	r/environment	0.19375	0.471976	0.046050	0.209977
190	r/Coronavirus	0.18750	0.455840	0.050940	0.197164

	subreddit	degree	closeness	betweenness	eigenvector
181	r/technology	0.206250	0.483384	0.072949	0.210070
77	r/technews	0.200000	0.480480	0.070091	0.204190
268	r/opensource	0.159375	0.450704	0.062287	0.163320
252	r/Economics	0.193750	0.474777	0.054601	0.203605
190	r/Coronavirus	0.187500	0.455840	0.050940	0.197164

	subreddit	degree	closeness	betweenness	eigenvector
73	r/ArchitecturePorn	0.140000	0.366748	0.233477	0.373842
63	r/spaceporn	0.113333	0.352113	0.183196	0.295997
55	r/Design	0.093333	0.342466	0.172616	0.139031
79	r/space	0.086667	0.305499	0.040154	0.182302
62	r/CatastrophicFailure	0.080000	0.317797	0.059784	0.212146

	subreddit	author
0	r/13or30	[u/Balls-over-dick-man-, u/FormerFruit, u/TheS...
1	r/196	[u/1milionand6times, u/Alex9586, u/Anormalredd...
2	r/2020PoliceBrutality	[u/ApartheidReddit, u/ApartheidUSA, u/BiafraMa...
3	r/2meirl4meirl	[u/-wao, u/9w_lf9, u/ArticckK, u/BlueBerryChar...
4	r/3Dprinting	[u/3demonster, u/Antique_Steel, u/Bigbore_729,...

	subreddit_1	subreddit_2	common_users
0	r/13or30	r/AbsoluteUnits	{u/FormerFruit}
1	r/13or30	r/MrRobot	{u/FormerFruit}
2	r/13or30	r/extremelyinfuriating	{u/FormerFruit}
3	r/13or30	r/foxes	{u/FormerFruit}
4	r/13or30	r/interestingasfuck	{u/prolelol}