理解 Base64 的编码表、填充规则,在数据 URI 和 JWT 中应用。
深入 Unicode 码点与 UTF-8 转换规则,理解为何它是互联网最通用的编码。
搞懂编码原理,解决 Python/Java 中的乱码问题,正确理解字节与字符的关系。
专门应对用户 ID、商品 ID 等高基数特征,学习特征哈希、基于聚类的编码和嵌入层方法,在防止过拟合下保留信息。
对比独热、标签、频数、目标、留一法及 CatBoost 编码等类别变量处理方案,根据基数与过拟合风险选择合适的编码策略。