dreaife

お知らせ

welcome to my blog

Learn More

タグ

dreaife

お知らせ

welcome to my blog

Learn More

統計情報

投稿

71

カテゴリー

13

タグ

58

文字数の合計

329,725

稼働日数

0 日

最終更新

0 日前

タグ

dreaife

お知らせ

welcome to my blog

Learn More

統計情報

投稿

71

カテゴリー

13

タグ

58

文字数の合計

329,725

稼働日数

0 日

最終更新

0 日前

タグ

カテゴリー

2407 文字

6 分

Pandas基礎使用

2024-01-02

cs-base

pandas

/

python

pandas#

pandasの紹介#

Pandas は、Python プログラミング言語をベースにしたオープンソースのデータ分析・データ処理ライブラリです。

Pandas は、使いやすいデータ構造とデータ分析ツールを提供し、特に表形式データ（Excel の表に似たデータなど）の処理に適しています。

Pandas はデータサイエンスおよび分析分野で広く使われているツールの一つで、さまざまなデータソースからデータを容易に取り込み、データを効率的に操作・分析できるようにします。

Pandas は主に2つの新しいデータ構造を導入しました：DataFrame と Series

Series: 一次元配列またはリストと似ており、一組のデータとそれに関連するデータラベル（インデックス）で構成されます。Series は DataFrame の列のようにも、単独の1次元データ構造としても扱えます。
DataFrame: 二次元の表のようなもので、Pandas の中で最も重要なデータ構造です。DataFrame は複数の Series を列方向に並べてできた表で、行インデックスと列インデックスの両方を持つため、行と列の選択、フィルタ、結合などを容易に行えます。

Pandas は豊富な機能を提供します。以下を含みます：

データクリーニング：欠損データ、重複データなどの処理。
データ変換：データの形状・構造・形式を変更。
データ分析：統計分析、集計、グルーピングなど。
データの可視化：Matplotlib や Seaborn などのライブラリと統合してデータの可視化を行うことができます。

pandasのインストール#

Pythonのインストール

公式サイトからダウンロード/ Docker でのインストール
pandasのインストール

pip install pandas

動作確認：

2024-01-02 22:26:35の出力（例）

1
import pandas as pd
2
pd.__version__

pandas series#

構造#

インデックス：各 Series にはインデックスがあり、整数・文字列・日付などの型になり得ます。明示的にインデックスを指定しない場合、Pandasはデフォルトの整数インデックスを自動作成します。
データ型： Series は異なるデータ型の要素を格納できます。整数、浮動小数点数、文字列など。

1
pandas.Series( data, index, dtype, name, copy)
2

3
## data：一組のデータ（ndarray 型）。
4
## index：データのインデックスラベル。指定しなければ 0 から始まるデフォルト。
5
## dtype：データ型。デフォルトは自動判定。
6
## name：名前を設定。
7
## copy：データをコピー。デフォルトは False。

実例#

Series の使用

1
import pandas as pd
2

3
a = [1, 2, 3]
4
myvar = pd.Series(a)
5
print(myvar)
6
print(myvar[1])

出力は：

pd.Series でインデックスを設定

1
import pandas as pd
2

3
a = ["Google", "Runoob", "Wiki"]
4
myvar = pd.Series(a, index = ["x", "y", "z"])
5
print(myvar)
6
print(myvar["y"])

辞書から作成

1
import pandas as pd
2

3
sites = {1: "Google", 2: "Runoob", 3: "Wiki"}
4
myvar = pd.Series(sites)
5
print(myvar)
6

7
myvar = pd.Series(sites, index = [1, 2], name="RUNOOB-Series-TEST" )
8
print(myvar)
9

10
myvar = pd.Series(sites, index = [1, 2], name="RUNOOB-Series-TEST" )
11
print(myvar)

基本操作#

基本操作

1
## 値の取得
2
value = series[2]  ## インデックスが 2 の値を取得
3

4
## 複数の値を取得
5
subset = series[1:4]  ## インデックスが 1 から 3 の値を取得
6

7
## カスタムインデックスを使用
8
value = series_with_index['b']  ## インデックスが 'b' の値を取得
9

10
## インデックスと値の対応関係
11
for index, value in series_with_index.items():
12
    print(f"Index: {index}, Value: {value}")

基本運算

1
## 算術運算
2
result = series * 2  ## 全要素を 2 倍
3

4
## フィルタリング
5
filtered_series = series[series > 2]  ## 2 より大きい要素を選択
6

7
## 数学関数
8
import numpy as np
9
result = np.sqrt(series)  ## 各要素の平方根を取る

属性とメソッド

1
## インデックスの取得
2
index = series_with_index.index
3

4
## 値配列の取得
5
values = series_with_index.values
6

7
## 記述統計情報の取得
8
stats = series_with_index.describe()
9

10
## 最大値・最小値のインデックス取得
11
max_index = series_with_index.idxmax()
12
min_index = series_with_index.idxmin()

注意事項
- Series のデータは有序です。
- Series はインデックス付きの1次元配列と見なすことができます。
- インデックスは一意である必要はありません。
- データはスカラー、リスト、NumPy配列などで構いません。

pandas dataframe#

dataframe構造#

列と行： DataFrame は複数の列で構成され、それぞれの列には名前があり、1つの Series として見ることができます。同時に、DataFrame には行インデックスがあり、各行を識別します。
二次元構造： DataFrame は行と列を持つ二次元の表で、複数の Series オブジェクトからなる辞書のように見ることもできます。
列のデータ型：異なる列は異なるデータ型を含むことができます。例えば整数、浮動小数、文字列など。

1
pandas.DataFrame( data, index, columns, dtype, copy)
2

3
# data：一組のデータ（ndarray、series、map、lists、dict 型）。
4
# index：インデックス値、行ラベルとも呼ばれます
5
# columns：列ラベル、デフォルトは RangeIndex (0, 1, 2, …, n)
6
# dtype：データ型、デフォルトは自動判定。
7
# copy：データをコピー、デフォルトは False。

dataframeの実例#

DataFrame の使用

1
import pandas as pd
2

3
data = [['Google',10],['Runoob',12],['Wiki',13]]
4
df = pd.DataFrame(data,columns=['Site','Age'])
5
print(df)

ndarrays で作成

1
import pandas as pd
2

3
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}
4
df = pd.DataFrame(data)
5
print (df)

辞書リストから作成

1
import pandas as pd
2

3
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
4
df = pd.DataFrame(data)
5
print (df)

対応するデータがない部分は NaN。

loc を使って指定行を返す Pandas は loc 属性を用いて指定した行のデータを返します。インデックスが設定されていない場合、最初の行のインデックスは 0、次の行は 1、以下同様です。

1
import pandas as pd
2

3
data = {
4
  "calories": [420, 380, 390],
5
  "duration": [50, 40, 45]
6
}
7

8
# DataFrame へデータを読み込む
9
df = pd.DataFrame(data)
10

11
# 第1行を返す
12
print(df.loc[0])
13
# 第2行を返す
14
print(df.loc[1])
15

16
# 第1行と第2行を返す
17
print(df.loc[[0, 1]])
18

19
# 指定インデックス
20
print(df.loc["duration"])

pd.DataFrame でインデックスを指定

1
import pandas as pd
2
data = {
3
  "calories": [420, 380, 390],
4
  "duration": [50, 40, 45]
5
}
6

7
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
8
print(df)

dataframeの基本操作#

基本操作

1
# 列の取得
2
name_column = df['Name']
3

4
# 行の取得
5
first_row = df.loc[0]
6

7
# 複数列の選択
8
subset = df[['Name', 'Age']]
9

10
# 行のフィルタ
11
filtered_rows = df[df['Age'] > 30]

データ操作

1
# 新しい列の追加
2
df['Salary'] = [50000, 60000, 70000]
3

4
# 列の削除
5
df.drop('City', axis=1, inplace=True)
6

7
# ソート
8
df.sort_values(by='Age', ascending=False, inplace=True)
9

10
# 列名の変更
11
df.rename(columns={'Name': 'Full Name'}, inplace=True)

属性とメソッド

1
# 列名の取得
2
columns = df.columns
3

4
# 形状の取得（行数と列数）
5
shape = df.shape
6

7
# インデックスの取得
8
index = df.index
9

10
# 記述統計情報の取得
11
stats = df.describe()

外部データ源からの作成

1
# CSV ファイルから DataFrame を作成
2
df_csv = pd.read_csv('example.csv')
3

4
# Excel ファイルから DataFrame を作成
5
df_excel = pd.read_excel('example.xlsx')
6

7
# 辞書リストから DataFrame を作成
8
data_list = [{'Name': 'Alice', 'Age': 25}, {'Name': 'Bob', 'Age': 30}]
9
df_from_list = pd.DataFrame(data_list)

注意事項
- DataFrame は柔軟なデータ構造で、異なるデータ型の列を格納できます。
- 列名と行インデックスは文字列、整数などを含むことがあります。
- DataFrame はデータの選択、フィルタ、修正、分析を多様な方法で行えます。
- DataFrame の操作を通じて、データのクリーニング、変換、分析、可視化などを行うことができます。

pandas CSV#

紹介#

CSV（Comma-Separated Values、カンマ区切り値、時には文字区切り値とも呼ばれる。区切り文字が必ずしもカンマとは限らない）、ファイルはプレーンテキスト形式で表形式データ（数字とテキスト）を保存します。

CSV は一般的で比較的シンプルなファイル形式で、ユーザー・ビジネス・科学の分野で広く利用されています。

CSV の処理 Pandas は CSV ファイルの処理を非常に容易に行えます
```
1
import pandas as pd
2
df = pd.read_csv('site.csv')
3
print(df.to_string())
```

CSV の保存 DataFrame を CSV ファイルとして保存するには to_csv() を使用します

1
import pandas as pd
2

3
# 三つのフィールド name, site, age
4
nme = ["Google", "Runoob", "Taobao", "Wiki"]
5
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
6
ag = [90, 40, 80, 98]
7
# 辞書
8
dict = {'name': nme, 'site': st, 'age': ag}
9
df = pd.DataFrame(dict)
10

11
# DataFrame の保存
12
df.to_csv('site.csv')

データ処理#

head()#

head(n) メソッドは先頭の n 行を読み取ります。引数 n を指定しない場合はデフォルトで 5 行を返します。

1
import pandas as pd
2

3
df = pd.read_csv('nba.csv')
4
print(df.head())
5

6
print(df.head(10))

tail()#

tail(n) メソッドは末尾の n 行を読み取ります。引数を指定しない場合はデフォルトで 5 行を返します。空行の各フィールドの値は NaN となります。

1
import pandas as pd
2

3
df = pd.read_csv('nba.csv')
4
print(df.tail())
5

6
print(df.tail(10))

info()#

info() メソッドは表の基本情報を返します：

1
import pandas as pd
2

3
df = pd.read_csv('nba.csv')
4
print(df.info())

Pandas JSON#

JSON（JavaScript Object Notation、JavaScript のオブジェクト表記法）は、テキスト情報を保存・交換するための文法で、XMLに似ています。

JSON は XML より小さく、高速で、解析が容易です。JSON に関する詳細は JSON チュートリアルを参照してください。

Pandas は JSON データの処理を非常に簡単に行えます。

普通JSON処理#

1
import pandas as pd
2

3
df = pd.read_json('sites.json')
4
print(df.to_string())
5

6
URL = '<https://static.runoob.com/download/sites.json>'
7
df = pd.read_json(URL)
8
print(df)

JSON オブジェクトは Python の辞書と同じフォーマットを持つため、Python の辞書をそのまま DataFrame データに変換できます。

内嵌JSON処理#

ネストされたデータを完全に解析するには json_normalize() メソッドを使用します。

1
import pandas as pd
2
import json
3

4
# Python の JSON モジュールを使用してデータを読み込む
5
with open('nested_list.json','r') as f:
6
    data = json.loads(f.read())
7

8
# データをフラット化
9
df_nested_list = pd.json_normalize(data, record_path =['students'])
10
print(df_nested_list)

より複雑なデータ

1
import pandas as pd
2
import json
3

4
# Python の JSON モジュールを使用してデータを読み込む
5
with open('nested_mix.json','r') as f:
6
    data = json.loads(f.read())
7

8
df = pd.json_normalize(
9
    data,
10
    record_path =['students'],
11
    meta=[
12
        'class',
13
        ['info', 'president'],
14
        ['info', 'contacts', 'tel']
15
    ]
16
)
17

18
print(df)

ネストされたJSONの一部データを読む#

glom モジュールを使用してデータのネストを扱います。glom モジュールを使って、’.’ を使ってネストされたオブジェクトの属性にアクセスします。

glom のインストール
```
1
pip3 install glom
```

使用方法

1
import pandas as pd
2
from glom import glom
3

4
df = pd.read_json('nested_deep.json')
5

6
data = df['students'].apply(lambda row: glom(row, 'grade.math'))
7
print(data)

データのクリーニング#

データの使用

欠損値のクリーニング#

欠損値を含む行を削除したい場合、dropna() メソッドを使用します。書式は以下のとおりです：

1
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
2

3
# axis：デフォルトは 0。NA を含む行を削除。axis=1 を設定するとNAを含む列を削除します。
4
# how：デフォルトは 'any'。行（または列）に NA が1つでも含まれていればその行を削除。how='all' の場合、行（または列）がすべて NA のときのみ削除します。
5
# thresh：残すべき非空値の最小数を設定します。
6
# subset：チェックしたい列を設定します。複数列の場合、列名のリストを引数として使用します。
7
# inplace：True に設定すると、計算結果を元のデータに直接上書きして、None を返します。元データを変更します。

isnull() を使って、各セルが空かどうかを判定できます。

pandas.read_csv で na_values を指定して、空値を指定することができます

1
import pandas as pd
2

3
df = pd.read_csv('property-data.csv')
4

5
print(df['NUM_BEDROOMS'])
6
print(df['NUM_BEDROOMS'].isnull())
7

8
# 空データを指定
9
missing_values = ["n/a", "na", "--"]
10
df = pd.read_csv('property-data.csv', na_values = missing_values)
11

12
print (df['NUM_BEDROOMS'])
13
print (df['NUM_BEDROOMS'].isnull())
14

15
# 空データを削除
16
new_df = df.dropna()
17
print(new_df.to_string())
18

19
# 元の DataFrame を上書き
20
df.dropna(inplace = True)
21
print(df.to_string())
22

23
# 特定の空値を含む行を削除
24
df.dropna(subset=['ST_NUM'], inplace = True)
25
print(df.to_string())

fillna() を使って空値を置換します

空セルを置換する一般的な方法は、列の平均値・中央値・最頻値を計算することです。

Pandas は mean()、median()、mode() メソッドを使用して、列の平均値（全値の総和を割った値）、中央値、および最頻値（出現頻度が最も高い値）を計算します。

1
import pandas as pd
2

3
df = pd.read_csv('property-data.csv')
4

5
# 空のフィールドを 12345 で置換
6
df.fillna(12345, inplace = True)
7
print(df.to_string())
8

9
# 平均値で空値を置換
10
x = df["ST_NUM"].mean()
11
df["ST_NUM"].fillna(x, inplace = True)
12
print(df.to_string())
13

14
# 中央値で空値を置換
15
x = df["ST_NUM"].median()
16
df["ST_NUM"].fillna(x, inplace = True)
17
print(df.to_string())
18

19
# 最頻値で空値を置換
20
x = df["ST_NUM"].mode()
21
df["ST_NUM"].fillna(x, inplace = True)
22
print(df.to_string())

フォーマットエラーのクリーニング#

データ形式が正しくないセルは、データ分析を難しくし、場合によっては不可能にします。

ネストされたセルを含む行、または列内のすべてのセルを同じ形式のデータに変換することで対応できます。

1
import pandas as pd
2

3
# 3番目の日付形式が間違っています
4
data = {
5
  "Date": ['2020/12/01', '2020/12/02' , '20201226'],
6
  "duration": [50, 40, 45]
7
}
8
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
9

10
# 新しい Python 3 では、下の行はエラーになり、format='mixed' を明示して混合形式を許可する必要があります
11
# pd.to_datetime(df['Date'])
12
df['Date'] = pd.to_datetime(df['Date'], format='mixed')
13
print(df.to_string())

astype でデータ形式を変更する

1
data['語文'].dropna(how='any').astype('int')

エラーデータのクリーニング#

1
import pandas as pd
2

3
person = {
4
  "name": ['Google', 'Runoob' , 'Taobao'],
5
  "age": [50, 200, 12345]
6
}
7

8
df = pd.DataFrame(person)
9

10
# データを直接変更
11
df.loc[2, 'age'] = 30
12

13
# ループで判定
14
for x in df.index:
15
  if df.loc[x, "age"] > 120:
16
    df.loc[x, "age"] = 120
17

18
# 行を削除
19
for x in df.index:
20
  if df.loc[x, "age"] > 120:
21
    df.drop(x, inplace = True)
22

23
print(df.to_string())

重複データのクリーニング#

もし重複データをクリーニングする場合、duplicated() と drop_duplicates() メソッドを使います。

対応するデータが重複している場合、duplicated() は True を返し、そうでなければ False を返します。

1
import pandas as pd
2

3
person = {
4
  "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],
5
  "age": [50, 40, 40, 23]
6
}
7
df = pd.DataFrame(person)
8

9
# 重複データの検索
10
print(df.duplicated())
11

12
# 重複データの削除
13
df.drop_duplicates(inplace = True)
14
print(df)

この記事が役に立ったときは、ぜひ他の人に共有してください!

Pandas基礎使用

https://dreaife.tokyo/jp/posts/pandas-basics/

著者

dreaife

公開日

2024-01-02

ライセンス

CC BY-NC-SA 4.0

一部の情報は古い可能性があります

DockerでWin11上のpyspiderを動かす

pandas.to_datetimeで異なる日時形式を扱う際に発生するエラーについて

dreaife的休憩小栈

pandas#

pandasの紹介#

pandasのインストール#

pandas series#

構造#

実例#

基本操作#

pandas dataframe#

dataframe構造#

dataframeの実例#

dataframeの基本操作#

pandas CSV#

紹介#

データ処理#

head()#

tail()#

info()#

Pandas JSON#

普通JSON処理#

内嵌JSON処理#

ネストされたJSONの一部データを読む#

データのクリーニング#

欠損値のクリーニング#

フォーマットエラーのクリーニング#

エラーデータのクリーニング#

重複データのクリーニング#

目次