使用 CNN 进行面部情绪识别

2023-05-18 13:44

磐创AI

关注

面部表情是人类之间交流的重要方式。

在人工智能研究中，深度学习技术已成为增强人机交互的强大工具。心理学中面部表情和情绪的分析和评估涉及评估预测个人或群体情绪的决定。

本研究旨在开发一种能够使用卷积神经网络（CNN）算法和特征提取技术预测和分类面部情绪的系统。

该过程包括三个主要阶段：数据预处理、面部特征提取和面部情绪分类。通过采用卷积神经网络（CNN）算法，系统准确预测面部表情，成功率为62.66%。

该算法的性能使用FER2013数据库进行评估，该数据库是一个公开可用的数据集，包含35，887张48x48灰度面部图像，每张图像代表一种不同的情绪。

现在让我们从编码开始。

!pip install scikit-plot

此代码使用 pip 安装 scikit-plot 包，pip 是一个 Python 包，提供了一系列有用的工具来可视化机器学习模型的性能。

具体来说，scikit-plot提供了多种函数来生成模型评估中使用的常见图，例如ROC曲线，精度召回率曲线，混淆矩阵等。

在Python环境中执行命令“！pip install scikit-plot”后，你应该能够在代码中导入和使用scikit-plot函数。

import pandas as pd

import numpy as np

import scikitplot

import random

import seaborn as sns

import keras

import os

from matplotlib import pyplot

import matplotlib.pyplot as plt

import tensorflow as tf

from tensorflow.keras.utils import to_categorical

import warnings

from tensorflow.keras.models import Sequential

from keras.callbacks import EarlyStopping

from keras import regularizers

from keras.callbacks import ModelCheckpoint,EarlyStopping

from tensorflow.keras.optimizers import Adam,RMSprop,SGD,Adamax

from keras.preprocessing.image import ImageDataGenerator,load_img

from keras.utils.vis_utils import plot_model

from keras.layers import Conv2D, MaxPool2D, Flatten,Dense,Dropout,BatchNormalization,MaxPooling2D,Activation,Input

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

warnings.simplefilter("ignore")

from keras.models import Model

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

from keras.regularizers import l1, l2

import plotly.express as px

from matplotlib import pyplot as plt

from sklearn.metrics import confusion_matrix

from sklearn.metrics import classification_report

该代码导入机器学习和深度学习任务中常用的各种 Python 库和模块。

这些库包括pandas，numpy，scikit-plot，random，seaborn，keras，os，matplotlib，tensorflow和scikit-learn。

每个 import 语句导入一组执行机器学习或深度学习任务所需的特定工具或函数，例如数据操作、数据可视化、模型构建和性能评估。

总体而言，此代码准备了执行各种机器学习和深度学习任务（如数据预处理、模型训练和模型评估）所需的必要工具和模块。

从这里下载代码：http://onepagecode.s3-website-us-east-1.amazonaws.com/

加载数据集data = pd.read_csv("/input/fer2013/fer2013.csv")

data.shape

此代码使用 pandas 的read_csv()函数读取名为“fer2013.csv”的 CSV 文件，该文件位于“/input/fer2013/“ 目录，并将生成的数据帧分配给名为data的变量。

然后，在数据帧上调用shape属性以检索其维度，这将返回表单的元组。这行代码将输出数据帧data中的行数和列数(rows, columns)。

data.isnull().sum()

此代码将返回数据帧data的每一列中所有缺失值的总和。

数据帧的isnull()方法返回一个布尔数据帧，该帧指示原始数据帧中的每个元素是否丢失。然后将sum()方法应用于此布尔数据帧，该帧返回每列中缺失值的总和。

这是检查数据帧中是否存在任何缺失值的快速方法。如果存在缺失值，则可能需要在将数据用于建模之前插补或删除这些值。

data.head()

此代码将返回数据帧data的前 5 行。

数据帧的head()方法返回数据帧的前n行（默认情况下为n=5 ）。这是快速浏览数据帧中的数据的有用方法，尤其是在处理大型数据集时。

输出将显示数据帧data的前 5 行，其中可能包括列名称和前几行数据，具体取决于数据帧的结构。

数据头的输出

数据预处理CLASS_LABELS = ['Anger', 'Disgust', 'Fear', 'Happy', 'Neutral', 'Sadness', "Surprise"]

fig = px.bar(x = CLASS_LABELS,

y = [list(data['emotion']).count(i) for i in np.unique(data['emotion'])] ,

color = np.unique(data['emotion']) ,

color_continuous_scale="Emrld")

fig.update_xaxes(title="Emotions")

fig.update_yaxes(title = "Number of Images")

fig.update_layout(showlegend = True,

title = {

'text': 'Train Data Distribution ',

'y':0.95,

'x':0.5,

'xanchor': 'center',

'yanchor': 'top'})

fig.show()

此代码使用 Plotly Express 库创建条形图，该条形图显示数据帧data中情绪的分布。

首先，在CLASS_LABELS中定义一个类标签列表，它对应于数据集中的不同情绪。

然后，调用px.bar()函数，其中 x 轴表示类标签，y 轴表示每个情绪的图像数量。颜色参数设置为不同的情感类，color_continuous_scale参数设置为“Emrld”，这是 Plotly Express 中预定义的色阶。

接下来，调用各种update_方法来修改绘图的布局和外观。例如，update_xaxes()和update_yaxes()用于分别设置 x 轴和 y 轴标题。 update_layout()用于设置打印标题及其位置。

最后，在图形对象上调用show()方法以显示绘图。

输出将显示一个条形图，该条形图显示数据帧data中每个情绪的图像数，每个情绪根据指定的色阶进行颜色编码。

随机打乱数据data = data.sample(frac=1)

DataFrame 的sample()方法用于随机采样数据帧中行的一小部分，并指定frac要返回的行部分（在本例中为 frac=1，这意味着将返回所有行）。当frac=1时，sample()方法有效地对数据帧中的行进行洗牌。

这是机器学习和深度学习任务中的常见操作，随机打乱数据以防止在数据具有任何固有顺序或结构时可能引入的任何偏差非常重要。

One Hot编码labels = to_categorical(data[['emotion']], num_classes=7)

输出是一个形状为(n_samples, n_classes)的 numpy 数组，其中：

n_samples是数据帧中的样本数n_classes是数据中唯一类的数量（在本例中为 7）数组data的每一行表示数据帧中单个样本的One Hot编码标签。train_pixels = data["pixels"].astype(str).str.split(" ").tolist()

train_pixels = np.uint8(train_pixels)

此代码对数据DataFrame的像素列中的像素值进行预处理。

首先，astype()方法用于将pixels列转换为字符串数据类型，这允许在列的每一行上调用split()方法。

接下来，对pixels列的每一行调用split()方法，以将像素值拆分为字符串列表。然后使用tolist()将生成的列表转换为 numpy 数组。

最后，对 numpy 数组调用np.uint8()，将像素值从字符串转换为无符号 8 位整数，这是通常用于表示图像像素值的数据类型。

输出是一个形状为(n_samples, n_pixels)的 numpy 数组，其中n_samples是数据帧中的样本数，n_pixels是数据中每个图像的像素数。数组data的每一行表示数据帧中单个图像的像素值。

标准化pixels = train_pixels.reshape((35887*2304,1))

此代码将train_pixels numpy数组从形状的三维数组（n_samples，n_rows，n_columns）重新整形为形状的二维数组（n_samples*n_row，1）。

numpy数组的reshape()方法用于更改其形状。在这种情况下，train_pixels阵列通过将其重塑为具有一列的2D阵列而被展平。

得到的像素阵列的形状为（n_samples*n_rows，1），其中n_samples是DataFrame中的样本数，n_rows是每个图像的行数，1 表示DataFrame中每个图像的展平像素值。阵列的每一行表示DataFrame中单个图像的单个像素值。

scaler = StandardScaler()

pixels = scaler.fit_transform(pixels)

此代码使用scikit learn的StandardScaler()函数将标准化应用于像素numpy数组。

StandardScaler()函数是一个预处理步骤，用于缩放数据的每个特征（在本例中为每个像素值），使其均值为 0，方差为 1。这是机器学习和深度学习任务中常用的技术，可确保每个特征对模型的贡献相同。

然后在像素numpy数组上调用StandardScaler()对象的fit_transform()方法，该方法计算数据的平均值和标准偏差，并相应地缩放数据。然后将得到的缩放数据分配回像素numpy数组。

输出是一个与原始pixels数组形状相同的 numpy 数组，但每个像素值都已标准化。

重塑数据（48，48）pixels = train_pixels.reshape((35887, 48, 48,1))

此代码将train_pixels numpy数组从2维形状数组（n_samples*n_rows，1）重新整形为4维形状阵列（n_samples，n_rows、n_columns、n_channels）。

numpy数组的reshape()方法用于更改其形状。在这种情况下，train_pixels阵列被重塑为具有1个通道的4D阵列。

得到的像素阵列的形状为（n_samples，n_rows，n_columns，n_channels），其中n_samples是DataFrame中的样本数量，n_row是每个图像的行数，n_column是每个图像中的列数，n_channel表示每个图像中颜色通道的数量。

由于原始数据集是灰度级的，因此n_channels设置为1。像素阵列的每个元素表示DataFrame中单个灰度图像的像素值。

训练测试验证拆分

现在，我们有 35887 张图像，每张图像包含 48x48 像素。我们将数据拆分为训练、测试和验证数据，以 10% 的比例提供、评估和验证我们的数据。

X_train, X_test, y_train, y_test = train_test_split(pixels, labels, test_size=0.1, shuffle=False)

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.1, shuffle=False)

该代码使用scikit-learn的train_test_split()函数将经过预处理的图像数据像素和一个热编码的标签标签拆分为训练集、验证集和测试集。

函数train_test_split()根据test_size参数将数据随机拆分为训练和测试子集，test_size指定应用于测试的数据部分。在这种情况下，test_size=0.1，这意味着10%的数据将用于测试。

shuffle参数设置为False以保留DataFrame中样本的原始顺序。

生成的X_train、X_val和X_test数组分别包含训练集、验证集和测试集的像素值。y_train、y_val和y_test数组包含对应集合的one hot编码标签。

再次使用train_test_split()将训练集进一步拆分为训练集和验证集，test_size=0.1。这将数据分成80%用于训练，10%用于验证，10%用于测试。

print(X_train.shape)

print(X_test.shape)

print(X_val.shape)

在将数据拆分为训练集、验证集和测试集之后，这些代码行打印X_train、X_test和X_val数组的形状。

numpy数组的shape属性返回数组维度的元组。在这种情况下，X_train、X_test和X_val数组的形状将取决于每个集合中的样本数量和每个样本的维度。

输出将以格式（n_samples、n_rows、n_columns、n_channel）显示阵列的形状，其中n_samples是集合中的样本数，n_rows是每个图像的行数，n_columns是每个图像中的列数，n_channel表示每个图像中颜色通道的数量。

在这个绘图代码的帮助下，我们可以看到一些包含每个类的一个样本的训练数据。

plt.figure(figsize=(15,23))

label_dict = {0 : 'Angry', 1 : 'Disgust', 2 : 'Fear', 3 : 'Happiness', 4 : 'Sad', 5 : 'Surprise', 6 : 'Neutral'}

i = 1

for i in range (7):

img = np.squeeze(X_train[i])

plt.subplot(1,7,i+1)

plt.imshow(img)

index = np.argmax(y_train[i])

plt.title(label_dict[index])

plt.axis('off')

i += 1

plt.show()

此代码使用 matplotlib 的plt.subplots()函数从训练集中创建图像的 7x1 子图网格。

numpy数组的scruze()方法用于从数组的形状中删除任何一维条目，有效地将4D数组转换为3D数组。

对于每个子图，imshow()函数用于显示相应的图像，title()函数用来显示相应的标签。

axis()函数用于关闭每个子图的轴。

输出是训练集中的前 7 个图像的可视化，以及它们对应的标签。

使用图像数据生成器进行数据增强

我们可以进行数据增强，以获得更多数据来训练和验证我们的模型，以防止过度拟合。数据增强可以在训练集和验证集上完成，因为它有助于模型变得更加通用和健壮。

datagen = ImageDataGenerator( width_shift_range = 0.1,

height_shift_range = 0.1,

horizontal_flip = True,

zoom_range = 0.2)

valgen = ImageDataGenerator( width_shift_range = 0.1,

height_shift_range = 0.1,

horizontal_flip = True,

zoom_range = 0.2)

此代码创建两个ImageDataGenerator对象，datagen和valgen，它们将用于训练和验证期间的数据扩充。

ImageDataGenerator类是一个Keras预处理实用程序，可以实时执行各种类型的图像增强，如移位、翻转、旋转和缩放。

datagen对象包括许多增强技术：

width_shift_range和height_shift_range分别将图像在水平和垂直方向上随机移动图像宽度和高度的最大10%。horizontal_flip随机水平翻转图像。zoom_range将图像随机缩放高达20%的倍数。

valgen对象包含与datagen相同的扩充技术，但仅在训练期间应用于验证集。

通过在训练过程中应用数据扩充，模型将暴露于更大、更多样的训练数据集，这有助于防止过度拟合，并提高模型泛化到新数据的能力。

datagen.fit(X_train)

valgen.fit(X_val)

这几行代码分别将ImageDataGenerator对象datagen和valgen与训练数据和验证数据相匹配。

ImageDataGenerator对象的fit()方法计算执行数据扩充所需的任何内部统计信息，例如像素值的平均值和方差。在这种情况下，在datagen和valgen上调用fit()方法，并将训练集和验证集作为输入来计算这些统计数据。

将ImageDataGenerator对象拟合到数据后，可以使用它们在训练和验证期间实时应用数据增强。

train_generator = datagen.flow(X_train, y_train, batch_size=64)

val_generator = datagen.flow(X_val, y_val, batch_size=64)

这些代码行创建了两个ImageDataGenerator迭代器，train_generator和val_generator，可用于在训练和验证期间生成一批增强数据。

ImageDataGenerator对象的flow()方法接收输入数据和标签的numpy数组，并动态生成一批增强数据。

在这种情况下，使用datagen上的flow()方法创建train_generator，输入训练数据X_train和y_train，批量大小为64。val_generator在valgen上使用相同的方法创建，输入验证数据X_val和y_val，批量大小为64。

在训练期间，train_generator（迭代器）将用于为每个训练时期动态生成一批增强数据。类似地，val_generator迭代器将用于为每个验证epoch生成一批增强数据。

代码下载

http://onepagecode.s3-website-us-east-1.amazonaws.com/

设计模型卷积神经网络（CNN）模型

CNN模型有许多层，具有不同的单元，例如卷积层，最大池化层，批量归一化和退出层，以规范模型。

def cnn_model():

model= tf.keras.models.Sequential()

model.add(Conv2D(32, kernel_size=(3, 3), padding='same', activation='relu', input_shape=(48, 48,1)))

model.add(Conv2D(64,(3,3), padding='same', activation='relu' ))