CCE Theses and Dissertations

Campus Access Only

All rights reserved. This publication is intended for use solely by faculty, students, and staff of Nova Southeastern University. No part of this publication may be reproduced, distributed, or transmitted in any form or by any means, now known or later developed, including but not limited to photocopying, recording, or other electronic or mechanical methods, without the prior written permission of the author or the publisher.

Date of Award

2024

Document Type

Dissertation - NSU Access Only

Degree Name

Doctor of Philosophy in Computer Science (CISD)

Department

College of Computing and Engineering

Advisor

Sumitra Mukherjee

Committee Member

Michael Laszlo

Committee Member

Frank Mitropoulos

Keywords

Artificial Intelligence, Computer Vision, Deep Learning, Hand gesture detection, Machine Learninn, Sign language recognition

Abstract

Sign language serves as a crucial mode of communication for individuals with hearing impairments, and its principles extend to hand gesture systems used in various technological applications, including machine operation and virtual reality. This dissertation presents the development and evaluation of a static American Sign Language (ASL) recognition system using Convolutional Neural Networks (CNNs), also known as ConvNets. The accuracy of such a system relies heavily on the availability of labeled training samples. This study addresses this challenge by proposing and investigating an effective method for generating labeled images for training ASL recognition models.

Initially, CNN models were trained and tested using a benchmark dataset to establish baseline performance metrics. Subsequently, an approach utilizing MediaPipe hand-tracking technology was developed to generate labeled samples, and the impact of incorporating these samples alongside benchmark data on model performance was evaluated. Furthermore, the study explored the potential benefits of applying existing data augmentation methods and Non-Local Means (NLM) denoising algorithms to enhance the combined dataset.

This dissertation makes three main contributions to the literature: (1) It identifies a CNN model that performs better than extant models for ASL recognition. (2) It demonstrates how labeled samples may be generated to train the model using MediaPipe. (3) It identifies a data augmentation method that further improves the performance of the model. The top-performing CNN model achieved a perfect accuracy of 100% when trained on the base dataset. When trained on the enhanced dataset, it maintained a high accuracy of 99.92%.

Abstract in French -

La langue des signes joue un rôle crucial en tant que mode de communication pour les personnes malentendantes, et ses principes s'étendent aux systèmes de gestes de la main utilisés dans diverses applications technologiques, y compris le fonctionnement des machines et la réalité virtuelle. Cette thèse présente le développement et l'évaluation d'un système de reconnaissance de la Langue des Signes Américaine (ASL) statique utilisant des Réseaux de Neurones Convolutifs (CNN), également connus sous le nom de ConvNets. La précision d'un tel système dépend fortement de la disponibilité d'échantillons d'entraînement étiquetés. Cette étude aborde ce défi en proposant et en étudiant une méthode efficace pour générer des images étiquetées pour l'entraînement des modèles de reconnaissance de l'ASL.

Initialement, les modèles CNN ont été entraînés et testés à l'aide d'un ensemble de données de référence pour établir des métriques de performance de base. Par la suite, une approche utilisant la technologie de suivi des mains MediaPipe a été développée pour générer des échantillons étiquetés, et l'impact de l'incorporation de ces échantillons aux côtés des données de référence sur la performance du modèle a été évalué. De plus, l'étude a exploré les avantages potentiels de l'application des méthodes d'augmentation de données existantes et des algorithmes de débruitage Non-Local Means (NLM) pour améliorer l'ensemble de données combiné.

Cette thèse apporte trois contributions principales à la littérature : (1) Elle identifie un modèle CNN qui fonctionne mieux que les modèles existants pour la reconnaissance de l'ASL. (2) Elle montre comment les échantillons étiquetés peuvent être générés pour entraîner le modèle en utilisant MediaPipe. (3) Elle identifie une méthode d'augmentation de données qui améliore encore la performance du modèle. Le modèle CNN le plus performant a atteint une précision parfaite de 100 % lorsqu'il a été entraîné sur l'ensemble de données de base. Lorsqu'il a été entraîné sur l'ensemble de données amélioré, il a maintenu une précision élevée de 99,92 %.

To access this thesis/dissertation you must have a valid nova.edu OR mynsu.nova.edu email address and create an account for NSUWorks.

Free My Thesis

If you are the author of this work and would like to grant permission to make it openly accessible to all, please click the Free My Thesis button.

  Contact Author

Share

COinS