* 이 글은 2019년도에 산타토익 현직자 분에게 들었던 세미나 후기를 간략히 정리한 내용입니다.
산타토익에 쓰인 알고리즘, 산타인사이드
산타인사이드
산타토익에 쓴 알고리즘, 시스템을 가져와 다른 곳에서도 활용하여 사용할 수 있게끔 하는 (개발중)
전세계의 test prep ai tutor 가 산타인사이드 기반
https://santainside.riiid.app/en/techs/ai
산타토익 개발사 뤼드의 특허 및 블로그
https://riiid.co/en/achievement
대표적인 특허논문
https://patentimages.storage.googleapis.com/f9/26/68/22a7e9c39fb9d0/KR101853091B1.pdf
강연 중 언급한 인공지능 알고리즘
NLP Bayesian IRT
https://www.stata.com/stata-news/news31-1/bayesian-irt/
NLP SOTA 알고리즘의 attention
추천시스템 공부추천
NETFLIX Rating(Prized) DATA>> kaggle에 아마 있는 것으로 암.
문제 생성 알고리즘 및 필터링
토익 문제를 생성하는 것에 대해서
대표적으로 듀오링고 (워드 배치만 바꿔서 하는 간단한 원리)
산타토익에서는 처음에 문제를 벌크로 사왔다고
유저가 어떤 문제를 맞고 틀리고를 기준으로 분석을 하기 때문에
문제를 생성해서 하는 것에는 더 많은 연구가 필요할 거라 생각됨
collaborative filtering
> model base를 딥러닝으로 해결하셨다고 한다.
내가 a라는 문제를 맞고 b를 틀렸다고 하면,
나와 비슷하게 맞고 틀린 유저들의 군집이 있는데
개중에 c를 푼 사람들 대부분이 맞았다… 면
나 역시도 c를 맞을 확률이 높다…
이런식으로 예측을 한다고.
또한 나와 비슷한 유저들이
어떤 문제를 풀고 점수가 올랐다고 하면
그걸 그런식으로
도메인정보를 따로 쓰지 않음.
노이즈 필터링
= regularizing 정규화
최근에 나온 attention 기법도 그 중 하나
노이즈 제거에는 여러 방법이 있지만,
게속해서 학습 train 을 해야된다.
이를테면
너무 적은 문제를 푼 유저들을 제외하거나
문제를 푼 시간이 너무 짧/길면 제거하거나
실제로 성적이 향상된 사람들 기준으로 머신러닝을 돌린다든지
:데이터의 특성을 뽑아내서 하는 방식이 있는데 결국 리스트 도 있다.
학습이 잘된 사람들 기준으로 하게 되면, 학습을 잘하는 유저층에 과적합 over-fitting 된다고.
노이즈가 많은 것 처럼 보이는 유저들 등..
모델을 고도화시키고 여러 실험을 해보는 수밖에..!
'💻 Programming 개발' 카테고리의 다른 글
[iOS앱개발] 패스트캠퍼스 강의 0주차, 혼자서 온라인으로 공부하기, 다짐하는 인간에서 벗어나기 (4) | 2021.09.30 |
---|---|
[C언어] 내가 보려고 정리한 C언어 공부하기 좋은 책과 사이트 추천 + 직접 공부, 이용해보고 정리한 내용 + C언어를 시작하는 초보자에게 추천 (0) | 2021.06.26 |
[번역] How to Use Small Experiments to Develop a Caption Generation Model in Keras (0) | 2020.03.29 |
결제한/할 or 수강한/할 온라인 수업들 목록 정리/후기링크도 연결 (0) | 2019.11.02 |
#0 개발환경 설정하기 - 텍스트에디터, Git, Node.js, NPM (0) | 2019.08.25 |
댓글