[add] pandas group and categorical data type

windsuzu · windsuzu · commit 6eb9ce610cd1 · 2021-03-20T22:16:56.000+08:00
diff --git a/README.md b/README.md
@@ -1658,14 +1658,29 @@ s.str.split("-").str.get(0)
 ## [Concat and Merge](pandas/concat_and_merge.ipynb)
 
 ``` py
+# Concat rows
 pd.concat([df[:3], df.iloc[7:, :2]])
 
+# Merge two DataFrame
 pd.merge(df, df2, on="name", how="right")
 ```
 
-## Grouping and Categorical
+## [Grouping and Categorical Data Type](pandas/grouping_categorical.ipynb)
 
+``` py
+# Groupby
+df.groupby("col_A").sum()
+df.groupby(["col_A", "col_B"]).max()
+
+# Categorical - discrete
+df["grade"] = df["grade"].astype("category")
+df["grade"].cat.categories = ["Bad", "Good", "Excellent"]
+df.sort_values(by="grade")
+df.groupby("grade").size()
 
+# Categorical - continuous
+df["grade-labels"] = pd.cut(df["score"], bins=range(0, 120, 20), labels=list("EDCBA"))
+```
 
 # TODOs
 
diff --git a/pandas/grouping_categorical.ipynb b/pandas/grouping_categorical.ipynb
@@ -0,0 +1,311 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Grouping and Categorical Data Type"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 40,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import numpy as np\n",
+    "import pandas as pd"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Grouping"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 41,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>A</th>\n      <th>B</th>\n      <th>C</th>\n      <th>D</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>foo</td>\n      <td>1</td>\n      <td>0.773956</td>\n      <td>0.652299</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>foo</td>\n      <td>2</td>\n      <td>0.438878</td>\n      <td>0.043775</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>foo</td>\n      <td>1</td>\n      <td>0.858598</td>\n      <td>0.020030</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>foo</td>\n      <td>2</td>\n      <td>0.697368</td>\n      <td>0.839213</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>bar</td>\n      <td>1</td>\n      <td>0.094177</td>\n      <td>0.587143</td>\n    </tr>\n    <tr>\n      <th>5</th>\n      <td>bar</td>\n      <td>2</td>\n      <td>0.975622</td>\n      <td>0.224705</td>\n    </tr>\n    <tr>\n      <th>6</th>\n      <td>bar</td>\n      <td>3</td>\n      <td>0.761140</td>\n      <td>0.751792</td>\n    </tr>\n    <tr>\n      <th>7</th>\n      <td>bar</td>\n      <td>2</td>\n      <td>0.786064</td>\n      <td>0.263692</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "     A  B         C         D\n0  foo  1  0.773956  0.652299\n1  foo  2  0.438878  0.043775\n2  foo  1  0.858598  0.020030\n3  foo  2  0.697368  0.839213\n4  bar  1  0.094177  0.587143\n5  bar  2  0.975622  0.224705\n6  bar  3  0.761140  0.751792\n7  bar  2  0.786064  0.263692"
+     },
+     "execution_count": 41,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df = pd.DataFrame(\n",
+    "    {\n",
+    "        \"A\": [\"foo\"] * 4 + [\"bar\"] * 4,\n",
+    "        \"B\": [1, 2, 1, 2, 1, 2, 3, 2],\n",
+    "        \"C\": np.random.default_rng(42).random(8),\n",
+    "        \"D\": np.random.default_rng(43).random(8),\n",
+    "    }\n",
+    ")\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 42,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>B</th>\n      <th>C</th>\n      <th>D</th>\n    </tr>\n    <tr>\n      <th>A</th>\n      <th></th>\n      <th></th>\n      <th></th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>bar</th>\n      <td>8</td>\n      <td>2.617004</td>\n      <td>1.827333</td>\n    </tr>\n    <tr>\n      <th>foo</th>\n      <td>6</td>\n      <td>2.768800</td>\n      <td>1.555317</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "     B         C         D\nA                         \nbar  8  2.617004  1.827333\nfoo  6  2.768800  1.555317"
+     },
+     "execution_count": 42,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df.groupby(\"A\").sum()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 43,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>B</th>\n      <th>C</th>\n      <th>D</th>\n    </tr>\n    <tr>\n      <th>A</th>\n      <th></th>\n      <th></th>\n      <th></th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>bar</th>\n      <td>3</td>\n      <td>0.975622</td>\n      <td>0.751792</td>\n    </tr>\n    <tr>\n      <th>foo</th>\n      <td>2</td>\n      <td>0.858598</td>\n      <td>0.839213</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "     B         C         D\nA                         \nbar  3  0.975622  0.751792\nfoo  2  0.858598  0.839213"
+     },
+     "execution_count": 43,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df.groupby(\"A\").max()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 44,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th></th>\n      <th>C</th>\n      <th>D</th>\n    </tr>\n    <tr>\n      <th>A</th>\n      <th>B</th>\n      <th></th>\n      <th></th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th rowspan=\"3\" valign=\"top\">bar</th>\n      <th>1</th>\n      <td>0.094177</td>\n      <td>0.587143</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>1.761687</td>\n      <td>0.488397</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>0.761140</td>\n      <td>0.751792</td>\n    </tr>\n    <tr>\n      <th rowspan=\"2\" valign=\"top\">foo</th>\n      <th>1</th>\n      <td>1.632554</td>\n      <td>0.672329</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>1.136246</td>\n      <td>0.882988</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "              C         D\nA   B                    \nbar 1  0.094177  0.587143\n    2  1.761687  0.488397\n    3  0.761140  0.751792\nfoo 1  1.632554  0.672329\n    2  1.136246  0.882988"
+     },
+     "execution_count": 44,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df.groupby([\"A\", \"B\"]).sum()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Categorical Data Type"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Discrete Values"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 45,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>id</th>\n      <th>grade</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>a</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>b</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>e</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>a</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>a</td>\n    </tr>\n    <tr>\n      <th>5</th>\n      <td>6</td>\n      <td>c</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "   id grade\n0   1     a\n1   2     b\n2   3     e\n3   4     a\n4   5     a\n5   6     c"
+     },
+     "execution_count": 45,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df = pd.DataFrame(\r\n",
+    "    {\"id\": [1, 2, 3, 4, 5, 6], \r\n",
+    "     \"grade\": [\"a\", \"b\", \"e\", \"a\", \"a\", \"c\"]}\r\n",
+    ")\r\n",
+    "\r\n",
+    "df[\"grade\"] = df[\"grade\"].astype(\"category\")\r\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 46,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": "0    a\n1    b\n2    e\n3    a\n4    a\n5    c\nName: grade, dtype: category\nCategories (4, object): ['a', 'b', 'c', 'e']"
+     },
+     "execution_count": 46,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df[\"grade\"]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 47,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>id</th>\n      <th>grade</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>2</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>4</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>5</th>\n      <td>6</td>\n      <td>3</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "   id grade\n0   1     1\n1   2     2\n2   3     4\n3   4     1\n4   5     1\n5   6     3"
+     },
+     "execution_count": 47,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df[\"grade\"].cat.categories = [1, 2, 3, 4]\r\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 48,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>id</th>\n      <th>grade</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>1</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>2</td>\n    </tr>\n    <tr>\n      <th>5</th>\n      <td>6</td>\n      <td>3</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>4</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "   id grade\n0   1     1\n3   4     1\n4   5     1\n1   2     2\n5   6     3\n2   3     4"
+     },
+     "execution_count": 48,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df.sort_values(by=\"grade\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 49,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": "grade\n1    3\n2    1\n3    1\n4    1\ndtype: int64"
+     },
+     "execution_count": 49,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df.groupby(\"grade\").size()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Continuous Values"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 50,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>score</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>8</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>77</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>65</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>43</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>43</td>\n    </tr>\n    <tr>\n      <th>5</th>\n      <td>85</td>\n    </tr>\n    <tr>\n      <th>6</th>\n      <td>8</td>\n    </tr>\n    <tr>\n      <th>7</th>\n      <td>69</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "   score\n0      8\n1     77\n2     65\n3     43\n4     43\n5     85\n6      8\n7     69"
+     },
+     "execution_count": 50,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df = pd.DataFrame({\r\n",
+    "    \"score\": np.random.default_rng(42).integers(0, 100, 8)\r\n",
+    "})\r\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 51,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>score</th>\n      <th>grade-nolabels</th>\n      <th>grade-labels</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>8</td>\n      <td>(0, 20]</td>\n      <td>E</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>77</td>\n      <td>(60, 80]</td>\n      <td>B</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>65</td>\n      <td>(60, 80]</td>\n      <td>B</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>43</td>\n      <td>(40, 60]</td>\n      <td>C</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>43</td>\n      <td>(40, 60]</td>\n      <td>C</td>\n    </tr>\n    <tr>\n      <th>5</th>\n      <td>85</td>\n      <td>(80, 100]</td>\n      <td>A</td>\n    </tr>\n    <tr>\n      <th>6</th>\n      <td>8</td>\n      <td>(0, 20]</td>\n      <td>E</td>\n    </tr>\n    <tr>\n      <th>7</th>\n      <td>69</td>\n      <td>(60, 80]</td>\n      <td>B</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "   score grade-nolabels grade-labels\n0      8        (0, 20]            E\n1     77       (60, 80]            B\n2     65       (60, 80]            B\n3     43       (40, 60]            C\n4     43       (40, 60]            C\n5     85      (80, 100]            A\n6      8        (0, 20]            E\n7     69       (60, 80]            B"
+     },
+     "execution_count": 51,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "labels = list(\"EDCBA\")  # divide score into five levels (0-20), (20-40), (40-60), (60-80), (80-100)\r\n",
+    "df[\"grade-nolabels\"] = pd.cut(df[\"score\"], bins=range(0, 120, 20))\r\n",
+    "df[\"grade-labels\"] = pd.cut(df[\"score\"], bins=range(0, 120, 20), labels=list(\"EDCBA\"))\r\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Reference\r\n",
+    "\r\n",
+    "- https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html#grouping\r\n",
+    "- https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html#categoricals\r\n",
+    "- https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html\r\n",
+    "- https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.8"
+  },
+  "orig_nbformat": 2
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}