상세 컨텐츠

본문 제목

Tabditor 프로젝트

프로젝트

by 송연어 2019. 12. 16. 15:56

본문

Tabditor 소개

취업 준비생들이 자기소개서 하나를 작성하는 데 평균 8시간이 걸린다고 합니다. 인적성, 스펙쌓기 등 할게 많은 취업준비생에게 자소서 작성에 8시간을 할애하는건 비효율적입니다.  이에 NLP 기능을 통해 문장생성, 유의어 추천, 제목요약 등의 서비스를 제공하여 취준생들의 자소서 작성 시간을 단축하는 것을 목표로 Tabditor 프로젝트를 시작하였습니다. Tabditor란 Tab + Editor의 합성어이며 Tab키 한 번의 클릭으로 자기소개서 작성을 간편하게 바꿔주겠다는 의미를 내포합니다. 

 

문장생성 기능은 자기소개서 초심자들에게 가이드라인을 제시해주는 역할입니다. 자기소개서를 작성하면서 다음 문장을 어떻게 풀어나가야 할지 막막할 때, 다양한 예시 문장을 생성하여 자기소개서 작성에 가이드를 해줍니다.  

 

유의어 추천 기능은 특정 단어의 동의어를 추천해주는 서비스입니다. 자소서를 작성하면서 문장에 더 적합한 동의어를 찾고자 할 때, 사전을 찾아보는 수고를 덜어주어 자소서 작성에 흐름이 끊어지지 않도록 도와줍니다. 

 

제목요약 기능은 자소서의 소제목을 생성해주는 기능입니다. 소제목은 읽는 사람으로 하여금 한눈에 글의 맥락을 짚을 수 있게 해주고 이해도를 높여줍니다. 소제목이 중요한만큼 취준생들에게 소제목 작성은 큰 부담이 되고 있습니다. 이에 글의 요지를 파악하여 제목을 요약해주면서 취준생들의 부담을 덜어주는 서비스입니다.  

 

tabditor의 기술 소개는 데이터 수집 -> 전처리 -> 모델 순으로 진행하겠습니다. 

 

데이터 수집

가설: 도메인별로 구분된 데이터로 학습을 진행한다면 더 높은 성능을 발휘할 것이다.

 

tabditor의 기능들은 모두 자소서를 기반으로 하는 서비스이기에 자소서 데이터가 필요하였고 구인구직 사이트의 합격자소서 데이터를 이용하였습니다. 특히, 자소서 데이터 중, 질문과 답변 문항이 필요하여 질문과 답변으로 구성된 자소서 데이터를 크롤링했습니다. 질문&답변 문항이 필요했던 이유는 "도메인별로 구분된 데이터로 학습을 진행한다면 더 높은 성능을 발휘할 것이다." 라는 가설을 세웠기 때문입니다. 이에 자주 출제되는 질문 9가지 문항을 선택하고 label number를 지정해주었습니다.

 

빈출 질문 9가지 

label No. 질문 문항
0 성장과정
1 성격 장단점
2 직무역량
3 지원동기
4 사회경험
5 경력사항
6 사회이슈
7 조직적응력
8 문제해결력

 

크롤링된 데이터셋

qus: 질문 answer: 답변 a: 9개의 카테고리 index

총 6,000건의 자소서 데이터를 크롤링하였는데 자소서 한 건당 평균 4개의 질문 & 답변 문항이 존재했습니다. 따라서 약 24,000건의 질문 & 답변 문항 데이터셋을 확보했고 이를  json파일 형식( {질문: ~, 답변:~} )으로 저장해두었습니다.

 

auto labeling

24,000건의 데이터를 9가지 질문 문항으로 분류하는 작업을 사람이 수행하는 건 불가능하기 때문에 auto labeling모델을 활용하기로 했습니다. auto labeling이란 라벨링이 되어있지 않은 데이터를 모델을 통해 labeling을 달아주는 작업입니다. 먼저 LDA 토픽 모델링을 사용하여 라벨링을 시도해봤지만 여러가지 문제가 발생하여 포기하였습니다. 그래서 직접 다층 퍼셉트론 모델(MLP)을 구현하였고 기존에 1,200개 정도의 질문 문항을 사람이 직접 라벨링을 해준 뒤, 이를 다층 퍼셉트론 모델에 학습시켜 나머지 23,000건에 라벨링을 달아주는 방식으로 작업을 진행했습니다. auto labeling 구현은 아래의 링크에서 상세하게 볼 수있습니다.

 

auto labeling

https://songyeoneo.tistory.com/19

 

Auto Labeling

Auto Labeling은 레이블이 되어있지 않은 데이터에 레이블링을 해주는 기법입니다. 실생활에서 데이터를 수집하면 당연히 레이블링이 되어 있지 않고 직접 레이블을 달아주는 작업을 수행합니다. 100개의 데이터까..

songyeoneo.tistory.com

 

 

 

 

 

 

 

 

 

 

 

 

 

'프로젝트' 카테고리의 다른 글

Auto Labeling  (0) 2020.04.14

관련글 더보기

댓글 영역