365 Insider Programに参加してPython in Excelのベータ版を使えるようになったので、DF操作を中心にいろいろ触ってみる。
まずExcel上にDFを作る
[数式] > [Pythonの挿入] > [Pythonサンプルを試す]
data:image/s3,"s3://crabby-images/f696b/f696b3b8136219c5f6f0b321b427fd95f0d1119b" alt=""
「pandasで説明する」から[サンプルの挿入]
data:image/s3,"s3://crabby-images/6a17f/6a17f0e748c4475c8a844759873f3a138c3227b0" alt=""
で、Irisデータセットの表と、dfが作られた。
data:image/s3,"s3://crabby-images/83805/8380547d5771c735604cbe73412ac4ca1c8cf4a7" alt=""
data:image/s3,"s3://crabby-images/d80e4/d80e4c7f41e6e1ad20ddbdbec4e1c90117d2dada" alt=""
列のリストを取得して戻りタイプをExcel値にしたら、dfのヘッダ項目一覧を表示できる。
df.columns
data:image/s3,"s3://crabby-images/c5d52/c5d52f72232892b6e4cb3b5b2c9e823d5fb44069" alt=""
抽出
特定列を抽出して新しいdfを作る
ほしい列だけを指定してから実行して実行結果セルのdfの中身を見てみると、該当する列だけになったdfが生成される。
df_1 = df[["sepal_length","species"]]
data:image/s3,"s3://crabby-images/0ac81/0ac817674990e2ca1939f7a1c4af7b0f308253a7" alt=""
抽出条件に一致する行だけを抽出する
speciesがsetosaだけの行を抽出して新しいdfに格納する。
df_2 = df.query('species=="setosa"')
data:image/s3,"s3://crabby-images/565ba/565ba24a1cd817620c8ddce47f5d8fd895a5a982" alt=""
抽出条件を別セルにあらかじめ定義し、そのセルを参照して抽出する(★便利)
まず、別セルに抽出条件を入力する。species列で”virginica”の行だけを抽出したい。
“virginica”と入力したセルを用意し、PYモードセルにてそのセルを指定して文字列を生成する。
extkey = xl("I14")
data:image/s3,"s3://crabby-images/a5270/a52709de7f8372ef9a5c35afc4b26c50f5aad91c" alt=""
抽出を行う別セルにて、定義した文字列を抽出条件に設定し実行するとspeciesが”virginica”のみのdfが生成される。
df_3 = df.query('species == @extkey')
data:image/s3,"s3://crabby-images/04e9c/04e9c192d452d2009bcd31701b03846de136151e" alt=""
ちなみに抽出条件の参照元セルの値を変更すると、抽出条件および抽出結果dfが動的に更新される。これは便利。
data:image/s3,"s3://crabby-images/fb584/fb584103ea191f0d12fe34cb95287ec4697ff168" alt=""
複数条件をそれぞれのセルで指定して抽出する
複数条件での抽出も問題なくできる。
文字列項目と数値項目の抽出条件をそれぞれ生成して、df.queryで&を指定すれば両方の条件に合致する行だけが抽出される。
data:image/s3,"s3://crabby-images/9442d/9442d9f245f6025973d5d24bebba9a54f068a0c8" alt=""
df_4 = df.query('species == @extkey_1 & petal_width < @extval')
data:image/s3,"s3://crabby-images/0e294/0e294d53956624f57d4b876900ef3b037ad832cc" alt=""
ソート
単一条件ソート
df.sort_valuesでソートする。
df_5 = df.sort_values('petal_length')
petal_lengthでソートされている。
data:image/s3,"s3://crabby-images/969db/969dbc8927e08c7c61bc984673149613542d7eab" alt=""
列名の文字列を作成してソート
あらかじめ別セルにソートする列の文字列を作成して、そのセルを指定してソートすることもできる。
#I31セルの'sepal_width'を読み込んで、ソートキーを作成
sortkey = xl("I31")
#J31に定義した文字列を指定してソート
df_6 = df.sort_values(xl("J31"))
#文字列名を指定してもよい
df_6 = df.sort_values(sortkey)
data:image/s3,"s3://crabby-images/35f38/35f38e58d2d2441060bdfc37655dfc109b45778c" alt=""
リストを作成してソート
項目名を複数セルに列挙する。
data:image/s3,"s3://crabby-images/d7e40/d7e40c99c8170934d109a14ed354cb7aa921b983" alt=""
このセルを1つずつ指定し、ソート条件リストを作成する。
sortlist_2 = [xl("J39"),xl("J40"),xl("J41")]
このリストを指定してソートすると、リストを使用して複数ソートdfが得られる。
df_8 = df.sort_values(xl("J42"))
#リスト名指定でもOK
df_9 = df.sort_values(sortlist_2)
data:image/s3,"s3://crabby-images/33763/337638acead17af4d6c00af9a4f6d63a0b44a5f5" alt=""
置換・変換
引数で文字を直接指定して置換
置換はreplaceを使う。
df_10 = df.replace('setosa','s')
“setosa”が”s”に置換されている。
data:image/s3,"s3://crabby-images/a80a9/a80a9857d3c0b1bea7053fe17b881ad7de6b2fcb" alt=""
セルを指定して置換
置換前と後の文字列をそれぞれ別セルに準備する。
data:image/s3,"s3://crabby-images/825ce/825ce14a8bd67858e4da1648b6eb5570e0cb4a56" alt=""
このセルをそれぞれreplaceに渡す。
df_11 = df.replace(xl("J53"),xl("J54"))
置換前セルの”virginica”が、”vi”に置換された。
data:image/s3,"s3://crabby-images/4e1e9/4e1e9fecfa7450dd38866fe1cdb3ba322e068e5c" alt=""
リストで一括置換
置換前リストと置換後リストをあらかじめ定義して、対応する文字列を一括で置換する。
data:image/s3,"s3://crabby-images/90a6c/90a6c3beac1f6f87af6e358b31f070f7c6f876cc" alt=""
#置換前リスト
replist_before = [xl("J57"),xl("J58"),xl("J59")]
#置換後リスト
replist_after = [xl("L57"),xl("L58"),xl("L59")]
df_12 = df.replace(replist_before, replist_after)
speciesが短縮形に置換された。
data:image/s3,"s3://crabby-images/81890/818903c3a4a24d9efbf8675918ebf0ca7902aece" alt=""
数値項目をカテゴリ項目に変換
数値項目について、その値の範囲によってカテゴリを付与したい場合はpd.cutとdf.assignを使用する。
※ちなみに1セルにつきPythonオブジェクトは1個しか返せないように見えるので、以下の処理は1セルづつ分けて行う。
df_13 = df
s_tmp = pd.cut(df_13['petal_width'], bins=[0,1.0,2.0,3.0], labels=['narrow','middle','wide'])
df_13 = df.assign(petal_width_bin = s_tmp)
指定したpetal_widthに応じて、カテゴリ変数petal_width_binが追加されている。
data:image/s3,"s3://crabby-images/8f1be/8f1be1f51562c7287451831a8db2e20e7e05f43c" alt=""
別シートに加工結果を出力
諸々加工した表を最終的に出力する場合は、返り値のオプションで「Excelの値」を選択すればよい。
data:image/s3,"s3://crabby-images/81e59/81e59e3e531c80a46a43691764376f984111bfe2" alt=""
実行セルを1行1列目として、表の中身が展開される。
data:image/s3,"s3://crabby-images/d6fdc/d6fdca769b1f2687bc12584437a4cc2d11cae0ce" alt=""
(随時更新)