慕鸢 (@user792)AI red teamer (人工智能红队)系列 27 – 人工智能信息安全应用 – 数据转换 中发帖

AI red teamer (人工智能红队)系列27 – 人工智能信息安全应用 – 数据转换
1. 数据转换概述
数据转换将原始数据转换成适合机器学习算法的格式,主要包括:

分类特征编码:将文本类别转换为数值
数值特征变换:处理偏斜分布和异常值
特征缩放:统一数值范围
数据分割:划分训练/验证/测试集

2. 分类特征编码
2.1 One-Hot 编码
One-Hot编码为每个类别创建一个二进制特征,避免引入人工顺序关系。
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# 示例数据
df = pd.DataFrame({
'protocol': ['TCP', 'UDP', 'HTTP', 'TCP', 'HTTPS'],
'threat_level': [0, 1, 0, 2...