첫 논문을 제출하며

처음으로 논문을 쓰고 제출했다.
이 연구에 들인 시간이 3개월이므로 기간이 썩 길지는 않았다. 연구실에 있다보면 이래저래 다른 할 일들이 많아지게 되는 것 같다. 그동안 제안서도 여러 번 쓰고, 다른 학생/연구원 분들의 연구에 공저자로 참여하는 등 내 연구 외적인 일에 시간을 꽤 썼다. 결국에는 내 일정관리는 스스로 경각심 가지고 해야겠다는 생각이 들었다. 모두들 나처럼 부수적인 일들을 하면서도 막힘없이 논문을 써내는 모습을 보면서 말이다.
이번 연구의 기간이 짧았던 덕분에 효율적으로 생각을 하고자 시도해본 방법들이 있다. 기억이 잊혀지기 전에 기록해보고자 한다.

일정관리

일정관리를 보조하기 위해 노션을 사용했다. 캘린더 뷰로는 하루하루의 긴박함을 느끼기가 어려워서 타임라인 뷰에 일정을 세분화하여 미리 작성했다.
일정의 분류는 다음과 같다 - 학회일정, 연구 외 일정, 연구계획, 선행연구 조사, 형성연구, 시스템 개발, 시스템 평가, 발표자료, 논문작업, 후속작업. 연구 외 일정도 기록한 이유는 불가항력적으로 다른 일정에 시간을 써야할 때, 그만큼은 스스로 면책하고자 함이었다.

각 일정의 마감은 무슨 일이 있어도 지킨다는 마음으로 임했다. 이 마음가짐이 한 번 틀어지면 금방 나태해지기 때문에, 마감을 못 지킨 경우에는 타임라인의 한 편에 연장일을 박제하고 부끄러움을 느끼며 숫자가 커지지 않도록 노력했다. 그리고 이 타임라인을 듀얼 모니터에 항상 띄워 놓고 수시로 보았다.

문헌조사

많은 문헌들을 조사하며 300개 가까이를 스크랩했다. 주어진 짧은 기간 안에 많은 글들을 읽고 스크랩해야 했기에 abstract 위주로 스크랩했다. Abstract에서 내 연구와 관련이 있는 부분들을 강조처리하고, 이외에 참고할 점들을 간단하게 메모했다.

문헌의 분류는 세 개 depth로 하였다.

도메인
방법론, 해당 도메인의 survey 논문들을 참고하여 초기에 구분해 두었다.
접근법, 각 문헌을 직접 검토하며 그때그때 분류했다.

문헌조사는 앞으로도 노하우를 쌓아가야할 영역이다. 도메인을 대분류로 했을 때 multi-modality하거나 cross-domain의 논문들을 분류하기 어려웠다.

문헌해체

문헌조사와 동시에 내 논문의 각 섹션 꼭지들을 미리 작성해두었다. 결국에 내 연구의 최종결과물은 논문이기 때문에 논문을 위해 필요한 일들을 하기 위함이었다.
아이디어만 있는 상태에서 글의 흐름을 정하는 것은 경험이 많지 않은 이상 어려울 것이다. 수고를 덜기 위해 조사하는 논문들의 흐름을 아래의 두 단계로 해체하였다.

내 연구와 관련된 논문들의 섹션 흐름을 정리한다.
각 섹션에서 말하는 내용들을 나누고, 분류하고, 정리한다. 이 단계는 내 연구와 관련이 있지 않더라도 잘 썼다고 생각되는 논문들과 베스트 페이퍼에 적용하였다. 해체할 섹션과 비슷한 연구방법을 가진다면 말이다.

이 방법은 글을 쓸 때 생기는 막연함과 그로 인해 허비하는 시간을 절약하는 데 도움이 되었다.

각 논문이 Introduction에서 말하는 내용들을 나누고 분류하고 정리하였다. 이미지와 같이 다른 섹션도 해체하는 과정을 거쳤다.

문헌들을 해체하는 과정을 거치니 내 논문의 꼭지들이 작성되는 동시에 해야할 과업들이 보다 명확해졌다.

개발

시스템은 공저자와 함께 Git으로 버전관리를 하며 개발했다. 오픈소스로 공개할 생각이기 때문에 코드 퀄리티에도 신경 쓰며 코드 리뷰도 조금은 엄격하게 했다.

버전관리를 해둔 덕분에 예상치 못한 상황에서 유용한 일이 있었다. 시스템을 크라우드소싱으로 평가받기 위해 배포한 이후에 컴퓨팅 리소스가 부족하여 갑작스럽게 여러 대의 서버를 돌려야하는 상황이 있었는데, 이 때 소스와 가상환경을 모두 Git에서 클론하여 빠르게 새 서버를 열 수 있었다. 이외에도 타 기관에서 근무하는 공저자가 자체적으로 유닛테스트를 할 수 있는 등 여러모로 장점이었다.

형성적 연구와 인간 평가

이 두 가지는 많은 사람들의 인터뷰나 평가가 필요한 일이다.
도움을 요청할 만큼의 많은 사람들을 주변에 두고 있지 않기 때문에 Amazon Mechanical Turk (MTurk)를 통해서 크라우드소싱을 했다. 처음 형성적 연구를 위한 설문조사를 MTurk에 올릴 때에는 $0.5 리워드에 30명을 모집했다. 리워드가 적어서 참여하는 사람들이 적을 것이라고 생각했는데, 몇 시간 되지 않아 목표인원을 달성했다.
하지만 엉터리 응답이 너무 많았다. 대부분이라고 할 수 있을 정도로. 특히 ChatGPT와 같은 생성AI로 응답하는 사람들이 많았다. 설문지의 맨 마지막에 인공지능이 아니라는 말을 해보라는 질문을 추가하였더니 '나는 인공지능이기 때문에 그런 말을 할 수 없다'는 식의 답변도 있었다.

인간 평가를 위해 다시 MTurk를 찾았을 때에는 acceptance rate가 80% 이상인 worker들만 참여할 수 있도록 했다. 금액도 $2로 시작해서 조금씩 올려 말미에는 $14까지 올렸다. 금액을 올려도 참여하는 worker들의 성실도는 크게 달라지지 않았다. 금액은 퀄리티에 큰 영향을 주지 않는 것 같다.
MTurk를 사용한 다른 사례들을 보니 acceptance rate 95% 이상에 total accomplished HITs 수도 5000 이상 정도의 조건을 두는 것 같다.
이번에는 크라우드소싱의 쓴 맛을 봤지만 다음에는 더 잘 활용해볼 수 있으리라.

엉터리 응답에 대해서는 reject를 할 수 있기 때문에 상세한 사유를 적어 반려하였다. 특별히 성실했던 worker들에게는 감사한 마음에 보너스 리워드도 지급해 드렸다.

논문작성

섹션의 구성이나 대략적인 내용은 평상시에 ordered list로 노션에 작성해 두었다. 논문의 글을 바로 써가는 것보다 내용을 리스트로 놓고 논리나 흐름을 검토하는 것이 논리적인 오류를 범할 확률을 줄여주었다고 생각한다.

그러한 기반을 준비해 두어도 막상 글을 쓰는 것은 참 힘들었다. 연구실의 다른 사람들은 어떻게 그렇게 논문을 그렇게 수월하게 쓰는지, 논문을 쓰는 내내 부러웠다.
내가 할 말에 대해 근거가 되는 기존 문헌을 인용하는 것이 은근히 고역이었다. 당연한 사실이라고 생각하는 논리를 풀고자 할 때 무엇을 인용해야 할 지 어려웠다는 것이 내 문헌조사 방식에 개선을 시사했다.

우여곡절과 함께 논문을 쓰는 동안 Overleaf라는 클라우드 기반 LaTeX 편집기가 있어 다행이었다. 내가 마감일까지도 글을 쓰고 수정하고 있었기 때문에, 내가 한글로 쓴 글을 연구실의 박사님과 교수님께서 Overleaf에서 영어로 실시간 번역해 주셨다. 감사한 사람들의 덕을 보았다.

결과적으로 논문은 잘 제출했고, 지금은 리뷰를 기다리며 다음 연구를 진행하고 있다. 리뷰 결과가 어떻게 되든 전체 프로세스를 처음 겪은 이번 경험은 앞으로도 양분이 될 것이다.

처음 주저자로 논문을 쓰는 이번 연구를 하는 동안 내가 하는 것이 맞는지, 그리고 어떻게 해야 하는지 고민이 많았다.
내 경험의 미숙함을 스스로 알기에 치밀하게 계획하고 효율적으로 생각하고자 이러한 방법들을 시도해 보았다. 그리고 수반하는 모든 것들을 정리해 두었다. 망각하지 않도록, 그리고 수시로 나의 방식을 자가점검하기 위함이다.
그러나 그 과정에서 내가 느낀 것들은 기록해두지 않았던 것 같다. 지금 이 글을 쓰는 동안 정제하지 않은 날것을 정리하지 않고 풀어놓는 것에 즐거움을 느낀다.

mubgnoes