Data Science & Machine Learning Basics

Data Science

Machine Learning

Artificial Intelligence

Author

Rafiq Islam

Published

September 20, 2024

This page is my personal repository of most common and useful machine learning algorithms using Python and other data science tricks and tips.

$\text{Data Science}$

Data science involves extracting knowledge from structured and unstructured data. It combines principle from statistics, machine learning, data analysis, and domain knoledge to understand and interpret the data

Data Collection & Accuisition

Web srcaping: Data collection through Webscraping
API integration
Data Lakes, Data Warehouse

Data Cleaning & Preprocessing

This involves Handling Missing Values, Data Transformation, Feature Engineering, Encoding Categorical Variables, Handling Outliers

Exploratory Data Analysis (EDA)

This usually includes the Descriptive Statistics, Data Visualization, Identifying Patterns, Trends, Correlations of the features and labels.

Statistical Methods

ANOVA - Categorical Features’: How do we treat the categorical features for our data science project?
Hypothesis Testing
Probability Distributions
Inferential Statistics
Sampling Methods

Big Data Techniques

Hadoop, Spark
Distributed Data Storage (e.g., HDFS, NoSQL)
Data PipeLines, ETL (Extract, Transform, Load)

$\text{Machine Learning Algorithms}$

$\text{Supervised Learning}$

(Training with labeled data: input-output pairs)

Regression

Parametric

Non-Parametric

Classification

Parametric

Logistic Regression
Naive Bayes
Linear Discriminant Analysis (LDA)
Quadratic Discriminant Analysis (QDA)

Non-Parametric

Multi-Class Classification

Multi-class Classification

Bayesian or Probabilistic Classification

What is Bayesian or Probabilistic Classification?
Linear Discriminant Analysis (LDA)
Quadratic Discriminant Analysis (QDA)
Naive Bayes
Bayesian Network Classifier (Tree Augmented Naive Bayes (TAN))

Non-probabilistic Classification

Ensemble Methods

$\text{Unsupervised Learning}$

(Training with unlabeled data)

Clustering

k-Means Clustering
Hierarchical Clustering
DBSCAN (Density-Based Spatial Clustering)
Gaussian Mixture Models (GMM)

Dimensionality Reduction

Principal Component Analysis
Latent Dirichlet Allocation (LDA)
t-SNE (t-distributed Stochastic Neihbor Embedding)
Factor Analysis
Autoencoders

Anomaly Detection

Isolation Forests
One-Class SVM

$\text{Semi-Supervised Learning}$

(Combination of labeled and unlabeled data)

Self-training
Co-training
Label Propagation

$\text{Reinforcement Learning}$

(Learning via rewards and penalties)

Markov Decision Process (MDP)
Q-Learning
Deep Q-Networks (DQN)
Policy Gradient Method

$\text{Deep Learnings}$

PyTorch
Artificial Neural Networks (ANN)
Convolutional Neural Networks (CNN)
Recurrent Neural Networks (RNN)
Long Short-Term Memory (LSTM)
Generative Adversarial Networks (GAN)

$\text{Model Evaluation and Fine Tuning}$

Model Evaluation Metrics

For Regression: Mean Absolute Error (MAE), Mean Squared Error (MSE), Root Mean Squared Error (RMSE), $R^2$ score
For Classification: Accuracy, Precision, Recall, F1 Score, ROC-AUC
Cross-validation: kFold, Stratified k-fold, leave-one-out

Model Optimization

Bias-Variance: Bias Variance Trade off
Hyperparameter Tuning: Grid Search, Random Search, Bayesian Optimization
Features Selection Techniques: Recursive Feature Elimination (RFE), L1 or Rasso Regurlarization, L2 or Ridge Regularization
Model Interpretability: SHAP (Shapley values), LIME (Local Interpretable Model-agnostic Explanations)

Ensemble Methods

Bagging: Random Forest, Bootstrap Aggregating
Boosting: Gradient Boosting, AdaBoost, XGBoost, CatBoost
Stacking: Stacked Generalization

You may also like

--- title: "Data Science & Machine Learning Basics" date: "2024-09-20" author: Rafiq Islam categories: [Data Science, Machine Learning, Artificial Intelligence] search: true lightbox: true image: ml.jpeg listing: contents: "/../../posts" max-items: 3 type: grid categories: true date-format: full fields: [image, date, title, author, reading-time] --- <p align="center"> <img src="/_assets/images/uc.jpeg" alt="Post under construction" width="400" height="400"/> </p> <p style="text-align: justify"> This page is my personal repository of most common and useful machine learning algorithms using Python and other data science tricks and tips. </p> ## **$\text{Data Science}$** Data science involves extracting knowledge from structured and unstructured data. It combines principle from statistics, machine learning, data analysis, and domain knoledge to understand and interpret the data #### Data Collection \& Accuisition - **[Web srcaping](/dsandml/datacollection/index.qmd){target="_blank" style="text-decoration:none"}:** Data collection through Webscraping - API integration - Data Lakes, Data Warehouse #### Data Cleaning \& Preprocessing This involves *[Handling Missing Values, Data Transformation](/codepages/titanic/index.qmd#handling-missing-data){target="_blank" style="text-decoration:none"}, [Feature Engineering](/dsandml/eda/index.qmd#feature-engineering){target="_blank" style="text-decoration:none"}, [Encoding Categorical Variables](/codepages/titanic/index.qmd){target="_blank" style="text-decoration:none"}, Handling Outliers* #### Exploratory Data Analysis (EDA) This usually includes the *[Descriptive Statistics](/dsandml/eda/index.qmd#discriptive-statistics){target="_blank" style="text-decoration:none"}, [Data Visualization, Identifying Patterns, Trends, Correlations](/dsandml/dataviz/index.qmd){target="_blank" style="text-decoration:none"}* of the features and labels. #### Statistical Methods - **[ANOVA - Categorical Features'](/dsandml/dataengineering/index.qmd){target="_blank" style="text-decoration:none"}:** How do we treat the categorical features for our data science project? - Hypothesis Testing - Probability Distributions - Inferential Statistics - Sampling Methods #### Big Data Techniques - Hadoop, Spark - Distributed Data Storage (e.g., HDFS, NoSQL) - Data PipeLines, ETL (Extract, Transform, Load) ## **$\text{Machine Learning Algorithms}$** ### $\text{Supervised Learning}$ (Training with labeled data: input-output pairs) #### **Regression** ::::{.grid} :::{.g-col-6} ##### Parametric - [Simple Linear Regression](/dsandml/simplelinreg/index.qmd){target="_blank" style="text-decoration:none"} - [Multiple Linear Regression](/dsandml/multiplelinreg/index.qmd){target="_blank" style="text-decoration:none"} - [Polynomial Regression](/dsandml/polyreg/index.qmd){target="_blank" style="text-decoration:none"} ::: :::{.g-col-6} ##### Non-Parametric - [K-Nearest Neighbor (KNN) Regression](/dsandml/knn/index.qmd){target="_blank" style="text-decoration:none"} - [Decesion Trees Regression](/dsandml/decisiontree/index.qmd){target="_blank" style="text-decoration:none"} - [Random Forest Regression](/dsandml/randomforest/index.qmd){target="_blank" style="text-decoration:none"} - [Support Vector Machine (SVM) Regression](/dsandml/svm/index.qmd){target="_blank" style="text-decoration:none"} ::: :::: #### **Classification** ::::{.columns} :::{.column width="33%"} ##### Parametric - [Logistic Regression](/dsandml/logreg/index.qmd){target="_blank" style="text-decoration:none"} - [Naive Bayes](/dsandml/naivebayes/index.qmd){target="_blank" style="text-decoration:none"} - [Linear Discriminant Analysis (LDA)](/dsandml/lda/index.qmd){target="_blank" style="text-decoration:none"} - Quadratic Discriminant Analysis (QDA) ::: :::{.column width="33%"} ##### Non-Parametric - [KNN Classification](/dsandml/knn/index.qmd){target="_blank" style="text-decoration:none"} - [Decision Tree Classification](/dsandml/decisiontree/index.qmd){target="_blank" style="text-decoration:none"} - [Random Forest Classification](/dsandml/randomforest/index.qmd){target="_blank" style="text-decoration:none"} - [Support Vector Machine (SVM) Classification](/dsandml/svm/index.qmd){target="_blank" style="text-decoration:none"} ::: :::{.column width="33%"} ##### Multi-Class Classification - [Multi-class Classification](/dsandml/multiclass/index.qmd){target="_blank" style="text-decoration:none"} ::: :::{.column width="33%"} ##### Bayesian or Probabilistic Classification - [What is Bayesian or Probabilistic Classification?](/dsandml/bayesianclassification/index.qmd){target="_blank" style="text-decoration:none"} - [Linear Discriminant Analysis (LDA)](/dsandml/lda/index.qmd){target="_blank" style="text-decoration:none"} - Quadratic Discriminant Analysis (QDA) - Naive Bayes - Bayesian Network Classifier (Tree Augmented Naive Bayes (TAN)) ::: :::{.column width="33%"} ##### Non-probabilistic Classification - [Support Vector Machine (SVM) Classification](/dsandml/svm/index.qmd){target="_blank" style="text-decoration:none"} - [Decision Tree Classification](/dsandml/decisiontree/index.qmd){target="_blank" style="text-decoration:none"} - [Random Forest Classification](/dsandml/randomforest/index.qmd){target="_blank" style="text-decoration:none"} - [KNN Classification](/dsandml/knn/index.qmd){target="_blank" style="text-decoration:none"} - Perceptron ::: :::{.column width="33%"} ##### Ensemble Methods - [Bagging: Decision Tree Classification](/dsandml/decisiontree/index.qmd){target="_blank" style="text-decoration:none"} - [Bagging: Random Forest Classification](/dsandml/randomforest/index.qmd){target="_blank" style="text-decoration:none"} - [Boosting: Adaptive Boosting](/dsandml/adaboost/index.qmd){target="_blank" style="text-decoration:none"} ::: :::: ### $\text{Unsupervised Learning}$ (Training with unlabeled data) ::::{.columns} :::{.column width="33%"} ##### Clustering - [k-Means Clustering](/dsandml/kmeans/index.qmd){target="_blank" style="text-decoration:none"} - Hierarchical Clustering - DBSCAN (Density-Based Spatial Clustering) - Gaussian Mixture Models (GMM) ::: :::{.column width="33%"} ##### Dimensionality Reduction - [Principal Component Analysis](/dsandml/pca/index.qmd){target="_blank" style="text-decoration:none"} - Latent Dirichlet Allocation (LDA) - t-SNE (t-distributed Stochastic Neihbor Embedding) - Factor Analysis - Autoencoders ::: :::{.column width="33%"} ##### Anomaly Detection - Isolation Forests - One-Class SVM ::: :::: ### $\text{Semi-Supervised Learning}$ (Combination of labeled and unlabeled data) - Self-training - Co-training - Label Propagation ### $\text{Reinforcement Learning}$ (Learning via rewards and penalties) - Markov Decision Process (MDP) - Q-Learning - Deep Q-Networks (DQN) - Policy Gradient Method ## **$\text{Deep Learnings}$** - [PyTorch](/dsandml/pytorch/index.qmd){target="_blank" style="text-decoration:none"} - Artificial Neural Networks (ANN) - Convolutional Neural Networks (CNN) - Recurrent Neural Networks (RNN) - Long Short-Term Memory (LSTM) - Generative Adversarial Networks (GAN) ## **$\text{Model Evaluation and Fine Tuning}$** #### Model Evaluation Metrics - **For Regression:** Mean Absolute Error (MAE), Mean Squared Error (MSE), Root Mean Squared Error (RMSE), $R^2$ score - **For Classification:** [Accuracy, Precision, Recall, F1 Score, ROC-AUC](/dsandml/classificationmetrics/index.qmd){target="_blank" style="text-decoration:none"} - **Cross-validation:** kFold, Stratified k-fold, leave-one-out #### Model Optimization - **Bias-Variance:** [Bias Variance Trade off](/dsandml/biasvariance/index.qmd){target="_blank" style="text-decoration:none"} - **Hyperparameter Tuning:** Grid Search, Random Search, Bayesian Optimization - **Features Selection Techniques:** Recursive Feature Elimination (RFE), [L1 or Rasso Regurlarization](/dsandml/regularization/index.qmd){target="_blank" style="text-decoration:none"}, [L2 or Ridge Regularization](/dsandml/regularization/index.qmd){target="_blank" style="text-decoration:none"} - **Model Interpretability:** SHAP (Shapley values), LIME (Local Interpretable Model-agnostic Explanations) #### Ensemble Methods - **Bagging:** [Random Forest](/dsandml/randomforest/index.qmd){target="_blank" style="text-decoration:none"}, Bootstrap Aggregating - **Boosting:** [Gradient Boosting](/dsandml/gradientboosting/index.qmd){target="_blank" style="text-decoration:none"}, AdaBoost, XGBoost, CatBoost - **Stacking:** Stacked Generalization  --- **You may also like**

Categories

Data Science & Machine Learning Basics

\(\text{Data Science}\)

Data Collection & Accuisition

Data Cleaning & Preprocessing

Exploratory Data Analysis (EDA)

Statistical Methods

Big Data Techniques

\(\text{Machine Learning Algorithms}\)

\(\text{Supervised Learning}\)

Regression

Parametric

Non-Parametric

Classification

Parametric

Non-Parametric

Multi-Class Classification

Bayesian or Probabilistic Classification

Non-probabilistic Classification

Ensemble Methods

\(\text{Unsupervised Learning}\)

Clustering

Dimensionality Reduction

Anomaly Detection

\(\text{Semi-Supervised Learning}\)

\(\text{Reinforcement Learning}\)

\(\text{Deep Learnings}\)

\(\text{Model Evaluation and Fine Tuning}\)

Model Evaluation Metrics

Model Optimization

Ensemble Methods

Basic Statistics and Probability

Generalized eigenvectors and eigenspaces

How to generate social share buttons