Data Cleaning in Python

pip install pandas

import pandas as pd

name,age,city,salary
Alice,30,Denver,70000
Bob,,Boulder,65000
Charlie,25,Denver,72000
Alice,30,Denver,70000
Dana,29,,68000

data = pd.read_csv("employees.csv")

data.head()

data.info()

data.isnull()

data.isnull().sum()

data_clean = data.dropna()

data["age"] = data["age"].fillna(0)

data["age"] = data["age"].fillna(data["age"].mean())

data.duplicated()

data = data.drop_duplicates()

data.dtypes

data["age"] = data["age"].astype(int)

data["date"] = pd.to_datetime(data["date"])

data["city"] = data["city"].str.strip()

data["city"] = data["city"].str.lower()

data["city"] = data["city"].str.title()

data = data.rename(columns={
    "salary": "annual_salary"
})

data = data[data["age"] >= 0]

data = data[data["salary"] > 30000]

data.describe()

data = data[data["salary"] < 200000]

Denver
denver
DENVER

data["city"] = data["city"].str.lower()

data["city"] = data["city"].str.title()

data["salary_k"] = data["salary"] / 1000

data.to_csv("clean_employees.csv", index=False)

data.to_excel("clean_employees.xlsx")

import pandas as pd

# load data
data = pd.read_csv("employees.csv")

# remove duplicates
data = data.drop_duplicates()

# fill missing ages
data["age"] = data["age"].fillna(data["age"].mean())

# clean city names
data["city"] = data["city"].str.strip().str.title()

# remove invalid rows
data = data[data["salary"] > 30000]

# save cleaned data
data.to_csv("employees_clean.csv", index=False)

Data Cleaning in Python

Installing Required Libraries

Example Dataset

Loading the Dataset

Identifying Missing Values

Handling Missing Values

Removing Rows With Missing Values

Filling Missing Values

Removing Duplicate Records

Fixing Data Types

Cleaning Text Data

Renaming Columns

Filtering Invalid Data

Detecting Outliers

Standardizing Values

Creating Clean Columns

Saving the Clean Dataset

Example Data Cleaning Workflow

Data Cleaning Checklist

Summary