π§π» μ-ν« μΈμ½λ©μ΄λ?
- μμ μ΄ν΄λ³Έ λ μ΄λΈ μΈμ½λ©μ λ¬Έμ μ (μ«μ κ°μ ν¬κ³ μμμ΄ κ°μ€μΉλ‘ μμ©)μ ν΄κ²°νκΈ° μν μΈμ½λ© λ°©μμ΄λ€.
- νΌμ³ κ°μ μ νμ λ°λΌ μλ‘μ΄ νΌμ³λ₯Ό μΆκ°νκ³ , κ³ μ κ°μ ν΄λΉνλ μΉΌλΌμλ§ 1μ νμνκ³ λλ¨Έμ§ μΉΌλΌμλ 0μ νμνλ λ°©μμ΄λ€.
π μ-ν« μΈμ½λ© with sklearn
- μ¬μ΄ν·λ°μ OneHotEncoder ν΄λμ€λ‘ κ°λ₯νλ€.
- λ¨, LabelEncoder μ λΉκ΅νμ¬ μ½κ° μ£Όμν μ μ΄ μλ€.
π μ λ ₯κ°μΌλ‘ 2μ°¨μ λ°μ΄ν°κ° νμ
π λ³ν κ°μ΄ ν¬μνλ ¬ ννμ΄λ―λ‘ μ΄λ₯Ό λ€μ toarray() λ©μλλ₯Ό μ΄μ©ν΄ λ°μ§νλ ¬λ‘ λ³νν΄μΌ ν¨
π μ-ν« μΈμ½λ© with Pandas
- μ΄λ¬ν λ²κ±°λ‘μ΄ κ³Όμ μ κ±°μΉμ§ μμλ λλ pandas μ get_dummies() λ©μλκ° μλ€.
- λ¬Έμμ΄ μΉ΄ν κ³ λ¦¬ κ°μ μ«μνμΌλ‘ λ³νν νμ μμ΄ λ°λ‘ λ³νμ΄ κ°λ₯νλ€.
import pandas as pd
df = pd.DataFrame({'item':['λμ₯κ³ ', 'TV', 'μ μλ μΈμ§', 'μ νκΈ°', 'TV']})
pd.get_dummies(df)
728x90
'Machine Learning > scikit-learn' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[νκ·] νκ· κ°λ κ³Ό λ¨μ μ ν νκ· (0) | 2023.10.04 |
---|---|
[μ΄μ§ λΆλ₯_μ±λ₯ νκ° μ§ν] F1 μ€μ½μ΄ / ROC곑μ (0) | 2023.09.28 |
[λ°μ΄ν° μ μ²λ¦¬] Label encoding(λ μ΄λΈ μΈμ½λ©) (0) | 2023.09.27 |
[κ΅μ°¨ κ²μ¦] cross_val_score() (0) | 2023.09.26 |
[μμλΈ] XGBoost κ°λ κ³Ό μ¬μ΄ν·λ° λνΌ μμ (0) | 2023.08.30 |