๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ“– ํ•™๊ต๊ณต๋ถ€ - CS

[์ธ๊ณต์ง€๋Šฅ] PCA ์ฃผ์„ฑ๋ถ„ ๋ถ„์„

by kimdee 2024. 4. 24.
๋ฐ˜์‘ํ˜•

 

 

์ฐจ์›(Dimension) ์ด๋ž€?  

์ฐจ์›์€ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ(Feature)๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ์ •๋ณด๋Ÿ‰, ์ฆ‰ ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„์˜ ํฌ๊ธฐ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. 

์ฐจ์›์ด ํด์ˆ˜๋ก ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ฐจ์›์ด ๋„ˆ๋ฌด ์ปค์ง€๊ฒŒ ๋œ๋‹ค๋ฉด ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ๋‹ค. 

 

๋™์ผํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ์ฐจ์›์—์„œ ํ‘œํ˜„ํ–ˆ์„ ๋•Œ์˜ ๋ชจ์Šต ์ถœ์ฒ˜: https://cofactorgenomics.com/curse-of-dimensionality-wk-16/

 

์ฐจ์›์ด ๋„ˆ๋ฌด ์ปค์งˆ ๊ฒฝ์šฐ -> ์ฐจ์›์˜ ์ €์ฃผ(Curse of dimensionality) 

1) ๋ฐ์ดํ„ฐ ๋‚ด ๋…ธ์ด์ฆˆ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ , ๊ณผ์ ํ•ฉ(Overfitting)์ด ๋  ํ™•๋ฅ ์ด ์ปค์ง„๋‹ค. 

* ๋…ธ์ด์ฆˆ๋ž€? ๋ฐ์ดํ„ฐ ์‚ฌ์ด์— ์žˆ๋Š” ๋นˆ ๊ณต๊ฐ„์„ ์˜๋ฏธ. 

2) ๊ณ„์‚ฐ๋Ÿ‰์ด ์ปค์ง€๊ฒŒ ๋˜๊ณ , ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ณ  ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„์ด ๊ธธ์–ด์ง„๋‹ค. 

3) ์ฐจ์›์ด ๋งŽ์•„์ง์— ๋”ฐ๋ผ, ์ž˜ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์–‘์ด ์ฆ๊ฐ€ํ•œ๋‹ค. 

 

์—ฌ๊ธฐ ๊ณ ์–‘์ด ์‚ฌ์ง„์„ ์šฐ๋ฆฌ๊ฐ€ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋งŒ๋“ ๋‹ค๊ณ  ํ•ด๋ณด์ž. 

์‚ฌ์ง„์˜ ๋†’์ด๊ฐ€ 3120, ๋„ˆ๋น„๊ฐ€ 4160 ์ธ ์ด๋ฏธ์ง€๋ฅผ ๊ฐ€์ง€๊ณ  ๋ถ„์„ํ•œ๋‹ค๊ณ  ํ•˜๋ฉด, 

์‹ค์ œ๋กœ๋Š” 3120X4160X3(RGB) ์˜ ์ฐจ์›์ด ์ƒ๊ธฐ๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. ์–ด๋งˆ์–ด๋งˆํ•œ ์ˆซ์ž๊ฐ€ ๋œ๋‹ค. 

 

๊ณ ์–‘์ด๊ฐ€ ๋„ˆ๋ฌด ๊ท€์—ฝ๋‹ค.. ์ถœ์ฒ˜: https://dataknowsall.com/blog/imagepca.html

 

์ฐจ์› ์ถ•์†Œ (Dimension Reduction)

 

์ฐจ์› ์ถ•์†Œ ์†Œ๊ฐœ

๊ณ ์ฐจ์› ๊ณต๊ฐ„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚ฎ์€ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์›๋ณธ ๋ฐ์ดํ„ฐ์˜ ์˜๋ฏธ์žˆ๋Š” ์†์„ฑ์„ ์ž˜ ํ‘œํ˜„ํ•ด์ค„ ์ˆ˜ ์žˆ์–ด์•ผ ๋œ๋‹ค. 

https://www.geeksforgeeks.org/dimensionality-reduction/

 

 

๋ฐ˜๋Œ€๋กœ ๋น„์„ ํ˜•์ ์ธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ฐจ์›์„ ์ฆ๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์žˆ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ๋Š” SVM. 

https://www.linkedin.com/pulse/role-svm-model-current-data-science-deepak-kumar/

 

๋‹ค์‹œ ์ฐจ์› ์ถ•์†Œ๋กœ ๋Œ์•„๊ฐ€์„œ, ๋ชจ๋“  ํŠน์ง•์„ ์‚ด๋ฆด ์ˆ˜๋Š” ์—†์–ด๋„ ์ตœ๋Œ€ํ•œ ์˜๋ฏธ์žˆ๋Š” ํŠน์ง•์„ ๊ฐ€์ง„ ์ฑ„๋กœ ์ฐจ์›์„ ๋‚ฎ์ถฐ์ฃผ๊ธฐ ์œ„ํ•ด์„œ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์ด ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค. 

 

1) ์ฃผ์„ฑ๋ถ„ ๋ถ„์„(PCA)

2) ์„ ํ˜• ํŒ๋ณ„ ๋ถ„์„(LDA) 

3) ์ผ๋ฐ˜ ํŒ๋ณ„ ๋ถ„์„(GDA) 

 

์ด ์ค‘ ํ•˜๋‚˜์ธ ์ฃผ์„ฑ๋ถ„๋ถ„์„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ์•Œ์•„๋ณผ ์˜ˆ์ •์ด๋‹ค. 

์ฃผ์„ฑ๋ถ„ ๋ถ„์„(PCA, Principal Component Analysis) 

PCA๋Š” ๋Œ€ํ‘œ์ ์ธ ์ฐจ์› ์ถ•์†Œ์— ์“ฐ์ด๋Š” ๊ธฐ๋ฒ•์œผ๋กœ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฟ ์•„๋‹ˆ๋ผ ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹, ํ†ต๊ณ„๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์“ฐ์ด๊ณ  ์žˆ๋‹ค. 

 

 

์ด ๋ฐฉ๋ฒ•์€ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ €์ฐจ์› ๊ณต๊ฐ„์˜ ๋ฐ์ดํ„ฐ์™€ ๋งคํ•‘๋˜๋Š” ๋™์•ˆ, ์ €์ฐจ์› ๊ณต๊ฐ„์˜ ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์ด ์ตœ๋Œ€๊ฐ€ ๋˜์–ด์•ผ ํ•œ๋‹ค๋Š” ์กฐ๊ฑด์—์„œ ์ž‘๋™ํ•œ๋‹ค. (์นผ ํ”ผ์–ด์Šจ)  ์ฆ‰, ์ „์ฒด ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์ž˜ ๋Œ€ํ‘œํ•  ์ˆ˜ ์žˆ๋Š” ์ฐจ์›์„ ์„ ์ •ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜. 

https://www.geeksforgeeks.org/dimensionality-reduction/

 

 

์‹ค์ œ๋กœ PCA ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ด๋ณด์ž. 

์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์€ ํ‘œ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•  ๋•Œ, 2์ฐจ์› ํ‰๋ฉด์ƒ์— ๋‚˜ํƒ€๋‚ด๋ฉด ์˜ค๋ฅธ์ชฝ ๊ทธ๋ž˜ํ”„๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค. 

 

์ถœ์ฒ˜ https://ddongwon.tistory.com/114

 

์ด์ œ PCA๋ฅผ ์ด์šฉํ•˜์—ฌ 2์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ 1์ฐจ์›์œผ๋กœ ๋‚ฎ์ถฐ๋ณด์ž. 

 

 

1) ๊ฐ ์ถ•์— ๋Œ€ํ•œ ํ‰๊ท ๊ฐ’์„ ๊ตฌํ•˜์—ฌ, ํ‰๊ท ๊ฐ’์ด ์›์ ์ด ๋˜๋„๋ก Shift ํ•œ๋‹ค. 

 

2) ๋ฐ์ดํ„ฐ์—์„œ ์›์ ์„ ์ง€๋‚˜๋Š” ์ง์„ ์„ ์ž„์˜๋กœ ๊ทธ๋ฆฌ๊ณ  ๊ฐ ๋ฐ์ดํ„ฐ๋งˆ๋‹ค ์ˆ˜์„ ์˜ ๋ฐœ์„ ๋‚ด๋ฆฌ๊ณ , ์›์ ์œผ๋กœ๋ถ€ํ„ฐ ์ˆ˜์„ ์˜ ๋ฐœ๊นŒ์ง€์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•œ๋‹ค. 

3) ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋“ค๋กœ๋ถ€ํ„ฐ ๊ณ„์‚ฐ์„ ํ–ˆ์„ ๋•Œ ๊ฑฐ๋ฆฌ๊ฐ€ ์ตœ๋Œ€๊ฐ€ ๋˜๋Š” ์ง์„ ์„ ์ฐพ๋Š”๋‹ค. ์ฃผ์„ฑ๋ถ„ ๋ถ„์„์€ ๋ถ„์‚ฐ์ด ์ตœ๋Œ€๊ฐ€ ๋˜๋Š” ์ฐจ์›์„ ์ฐพ์•„์•ผํ•œ๋‹ค. 

 

 

4) ์ฐพ์€ ์ง์„ ์„ PC1๋กœ ์„ค์ •ํ•˜๊ณ  PC2 ์— ์ง๊ตํ•˜๋Š” ์ง์„ ์„ PC2๋กœ ์„ค์ •ํ•œ๋‹ค. N์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋Š” N๊ฐœ์˜ PC์„ ์ด ๋‚˜์˜ค๊ฒŒ ๋œ๋‹ค. 

 

 

5) ํšŒ์ „์‹œํ‚จ ๋’ค, ๋‹ค์‹œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋“ค๋กœ๋ถ€ํ„ฐ ๊ณ„์‚ฐ์„ ํ–ˆ์„ ๋•Œ ๊ฑฐ๋ฆฌ๊ฐ€ ์ตœ๋Œ€๊ฐ€ ๋˜๋Š” ์ง์„ ์„ ์ฐพ๋Š”๋‹ค. 

์ด๋•Œ PC1: PC2์˜ ๋น„์œจ์ด 85:15 ๋ผ๊ณ  ํ•˜๋ฉด PC1์€ 85% ์ •๋„ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ํ‘œํ˜„ํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

6) ๊ฐ€์žฅ ์ž˜ ๋Œ€ํ‘œํ•  ์ˆ˜ ์žˆ๋Š” ์ถ•์„ ์„ ์ •ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์ฐจ์›์„ ์ถ•์†Œํ•ด๋ณธ๋‹ค. 

์š”์•ฝ

๋‹ค์ฐจ์›์˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•ด์ฃผ๋Š” ํŠน์„ฑ์„ ์ฐพ์•„์•ผ ํ•˜๋Š” ๊ฒƒ์ด PCA์˜ ์ฃผ์•ˆ์ ์ด๋‹ค. 

์ฆ‰, ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„์ƒ์—์„œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์„ ์ž˜ ๋ณด์กดํ•ด์ฃผ๋Š” ์ถ•์„ ์ฐพ์•„์„œ ์ฐจ์›์„ ์ถ•์†Œํ•œ๋‹ค. 

 

 

 

 


๋งˆ์น˜๋ฉฐ 

 

 

์˜ค๋Š˜๋„ ์ฝ์–ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. 

 

๊ถ๊ธˆํ•˜๊ฑฐ๋‚˜ ๋‚˜๋ˆ„๊ณ  ์‹ถ์€ ์–˜๊ธฐ๊ฐ€ ์žˆ์œผ์‹œ๋ฉด ๋Œ“๊ธ€๋กœ ์•Œ๋ ค์ฃผ์„ธ์š”!

์žฌ๋ฐŒ๊ฒŒ ์ฝ์œผ์…จ๋‹ค๋ฉด ๊ณต๊ฐ๊ณผ ๊ตฌ๋…์€ ํฐ ํž˜์ด ๋ฉ๋‹ˆ๋‹ค. 

 

ํ•ญ์ƒ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

 

 

์ฐธ๊ณ : 

 

 

What Is the Curse of Dimensionality?

Machine learning often deals with high-dimensional data, which can pose a problem known as the curse of dimensionality. Our expert dives in.

builtin.com

๋ฐ˜์‘ํ˜•

๋Œ“๊ธ€