Social link. 2주간의 업무 정리

2015.03.15 03:12

jurohan 조회 수:496

첫 시작은 이랬다.

지인으로부터 메일링 리스트에 대한 이야기가 잠깐 나왔었고, 이런 부분에 대해 인트로 페이지처럼 쉽게 템플릿을 만들고 메일을 보낼 수 있는 서비스가 필요한 것 같다는 말.

일단 비슷해 보여도, 이메일은 홈페이지와 다르게 그 디자인의 필요성은 떨어진다는게 첫번째 생각이었고,

이를 제대로 서비스하려면 관련 인력이 필요한데, 이를 고정적으로 운영할 수 있는 집단은 기존 유사한 기능을 제공하는 서비스들을 통해서 해당 니즈는 중족할 것 같았고, 

관련된 조사를 하다보니 그쪽을 전문으로 하고 있는 서비스가 이미 있었다.


니즈는 있지만 그 수요의 확장에 있어 크지 않은 영역이기 때문에, 이를 개발하는 것은 불필요한 에너지 소모라고 결정을 내렸는데,

학습을 하고, 내 일반 행동을 돌이켜 보니, 이메일. 스팸으로 오염되긴 했지만,

매일 한번 이상 방문하고, 카테고리를 분류하면서 꼭 확인하는 메일은 존재하는 걸 깨달았다.


그리고, 우리에게 친숙한 서비스들은 이메일을 통해서, 내 머리속에서 그 서비스의 존재를 '잊지 않게' 하는 역할은 분명히 하고 있었다.

내용을 궁금하게 하여 실제 메일을 보게 하는 것이 정말 중요하지만,

메일 리스트에 해당 메일의 신규 소식이 오는 것이 노출 되는 것만으로도 서비스를 '상기'시키는 역할을 함은 분명했다.


싸이월드, 페이스북, 트위터 트랜드는 바껴도, 내가 쓰는 메일 주소는 그대로인 점.

이것도 '이메일'이란 것의 가치를 좀 더 분명히 해주는 것 같다. (물론 내가 쓰는 메일 중 업무용/개인용/스팸용의 용도에 따라 안쓰는 계정들이 존재하긴 하지만..)


문득. ithnkso 때 만들려고 했던 서비스의 정보가, 사용자에게 맞춤 정보를 제공 하는 게 목적이라면,

우리 사이트를 통해 확인하게 하는 것도 맞지만, 기존의 사용자 행동 패턴 중 메일을 통해 정보를 소비하는 행위에 우리의 추천정보를 노출하는 것이

새로운 서비스는 행동의 추가를 요구한다. 개인적으론 그 행동의 변화와 학습 비용을 최소화 하는 것이 서비스에 접근하는 허들을 줄이는 데 큰 요소라 생각한다.


물론, 이 부분을 줄이는 것만큼 서비스 벨류 체인도 만족스러워야 사용자가 지속적 동기부여를 갖고 서비스를 이용하는 것은 당연할 것이고...


아무튼, 이런 생각의 확장을 하다보니,

간단하면서도 필요했던 한가지가 떠올랐다.


"내게 필요한 지원사업/공고/뉴스 등의 정보를 제공하는 사이트들.의 정보를 크롤링해서

매주 새로 등록된 정보만을 모아 메일로 받아보는 것."


이에 대한 니즈는 누구나 있을 것 같긴한데,

인트로 페이지와의 연결선상에서 사회적 경제영역을 선택했다.


사회적 경제영역의 정보를 모아 메일로 받아본다.

이렇게 제공하는 정보의 만족도를 높여 더욱 많은 메일 수신자를 모을 수 있다면..


이것은 사회적 경제영역에 관심있어 하는 사람들에 대한 직통 채널이 될 것이며, 인트로 페이지에는 좋은 홍보채널이 될 것 같았다.

더불어 이렇게 모으는 정보를 분석하면.. 인트로 페이지에 누적한 정보를 통해 만들려고 하는 사회적 경제영역의 아카이브를 좀 더 확대된 범위에서 형성할 수 있을 것이라 생각했고,

우리 뿐 아니라 가치있는 프로젝트를 진행하는 사람들에게 좋은 홍보 채널이 될 것임은 분명했고,

지난 몇년간 진행했던 프로젝트를 통해 만든 코드들을 재활용한다면, 그리 오래 걸릴 프로젝트가 아닌것 같아 시작했다.


그렇게, 3월 첫주 금요일 퇴근 한시간전에 시작했던 개발은 일주가 채 안되어 정보 수집 코드와 회원가입 모듈로 기본 틀을 만들 수 있었다.

이후 신규 정보 도메인을 신청받고, 개별 링크를 공유할 수 있는 코드를 추가했다.


anal.jpg


이렇게 기본 서비스 틀이 마무리 될 즈음,

이 서비스를 운영하면서 인력 투입을 최소화하는 방향으로 가기 위해서는 최대한 자동화할 수 있는 부분들은

자동화 처리해야할 필요가 있어 지난 1주간 틈틈히 이 부분을 1차 완성했다.


paper_1.jpg


먼저, 크롤링한 정보를 DB에서 엑셀로 뽑아 중복되는 키워드를 체크했고..


excel.jpg


실제 그 수가 얼마나 되는지, 체크해보면서 종이에서 놓쳤던 키워드들에 대해서도 한번 더 점검을 진행했다.


이렇게 확보된 키워드로 분석 모델을 제작하였고,

이를 통해 카테고리와 태그 자동 생성모델을 만들었다.


이후 기존 누적정보를 통해 한바퀴 돌려보니..

잘 찾아 들어간 것도 있지만, 아무래도 키워드 양이 많지 않은 초기 모델이다보니 필터링에 걸리지 않는 링크들이 있었고,

방법을 고민하던 중, RSS로 정보를 제공하는 곳 중 Tag 정보를 제공하는 곳들이 있어서, 태그 정보를 제공할 경우 이들 정보들도

가져와서 기록을 하는 작업을 진행했다.


tag1.jpg


그리고, 중복 태그를 확인해 보니, 의외로 많았고, 여기서 나온 키워드에서도 추가로 뽑아서 분석 모델에 적용을 하였다.

이런 저런 작업을 진행하고 어제와 오늘은 관련된 정보 제공 사이트의 수를 좀 더 늘리는 작업을 진행하였고,


그러다보니 일반 사이트 게시판, 블로그, 페이스북 페이지로 수집 사이트의 형태는 다양화 되었으며,

직접 크롤링 코드를 짜야하는 경우도 있었고, RSS 를 통해 좀 쉽게 정보를 가져올 수 있는 곳도 있었는데,

일단은 정보를 가져올 수 있는 사이트들의 종류는 얼추 건드려본 것 같다.

개인적으론 RSS 피드를 써보지 않기 때문에 RSS 가 이리 유용한지는 이번에 새삼 깨닫게 된.. @@;


스누피 라이브러리를 활용하여 기본 크롤링을 진행하는데, 윈도우 서버로 되어 있던 정부 기관 사이트 중 한곳은 

접근이 제한되어 있어 file_get을 통해 따로 추출하기도 하고.. 참 이런저런 변칙을 써보는 듯..


아마도 내일은 신규 정보가 들어오면,

기존 태그 정보 중 반복 사용량이 일정 수 이상되는 태그정보를 배열로 가져와서

타이틀과 요약문에 포함되어 있는지 검색해서 자동 태깅하는 기능을 추가로 개발할 것인데,

태그 정보가 많아지면 서버에 자칫 부담을 줄 수 있을 것 같기도 하다.


반면, 주요 연산은 하루 두번만 진행될 테니 생각보다 부담이 없을 것도 같고..

일단 크게 시간이 많이 드는 코딩은 아니니,

돌려보고 결정할 것 같다. 뭐 돌려보고 무리간다 하면.. 일주일에 한번정도씩만 서버가 한가할 시간을 골라

자동 실행시켜도 되니까.


Deep learning, 키워드 매칭 카테고리, 태그 자동분류 시스템, link 크롤링


ithnkso 부터 시작된 코드들이 이번 프로젝트에서는 다 나오고 있는 것 같은데,

프로젝트 자체의 의미도 있지만 기존에 만들었던 코드들을 다시금 한번 정리한다는 것에서도 개인적으론

의미 있는 작업이 되고 있다.


내일 작업까지 완료하면,

당장 필요한 기능은 거의 다 되었으니, 이제는 이메일 형식을 고민해야지.


만들면서 고민하다보니, 개인이 확인하는 정보를 통해

그사람의 선호 정보에 대한 카테고리, 태그 정보 또한 추출이 가능할 것 같은데,

이를 통해 나중에는 맞춤 정보 메일을 제공할 수도 있겠다는 생각이 들긴 한다.


특정 분야의 최근 등록 정보를 공유해준다. 라고 했고,

지금까지 13개의 사이트에서 수집하고 있지만, 확실히 채용과 공고, 이야기, 뉴스 각기 다른 목적의 정보인데,

누군가에겐 채용에 대한 정보 혹은 공고에 대한 정보는 큰 필요가 없을 테니까.

이 분석 정보를 통해 메일로 발송하는 정보의 카테고리의 비중에 변화를 주는 것이 필요할 것 같다.


* 태그 DB에 키워드 매칭을 완료하고 나니 394개의 태그 정보가 629개의 정보에 매칭되어 각 링크 정보에 매칭된 키워드는 총 합이 1,586 개였다.

채용 정보가 140번, 이야기가 70번, 공고가 61번 중복 태그 되는 만큼, 많이 퇴그된 정보가 있는가 하면,

마일미디어, 개기일식, 무설탕잼 등 1회만 태그 된 정보도 있었다.


고작 13개의 정보를 2주간 분석한 양이지만 그 양은 생각보다 많았다.

한주에 100개가 넘는 정보가 생성될지도 몰랐었고..

나 말곤 다들 부지런하긴 한듯.


일단 주말까지 목표량은 얼추 채웠으니, 내일은 메일 포맷 디자인을 구성해봐야지@

번호 제목 날짜 조회 수
78 intropage 노트. 2015.06.10 418
77 Zero to one, 얼핏 이해가 가고 있다. 2015.06.02 341
76 스쳐지나간 5월 2015.05.31 341
75 좋은 것만 보기 2015.05.21 416
74 요즘 2015.05.02 374
73 메일 관리는 잘 하나요? 2015.03.22 428
» Social link. 2주간의 업무 정리 2015.03.15 496
71 새로운 사이드 프로젝트.준비 중 2015.03.01 351
70 help 메뉴 개선, 크롤링 테스트. 2015.02.26 591
69 메일 템플릿 개발 2015.02.22 418
68 기술지원 영역 개발 2015.02.17 349
67 팝업기능 개발 2015.01.19 406
66 실사 끝. 2015.01.16 359
65 서비스 소개의 자리 2014.12.24 360
64 유료모델로써의 툴킷 디자인 2014.12.23 386
63 연말보다는 열정이 우선 2014.12.12 375
62 재밌자나 2014.12.12 405
61 이야기 2014.12.07 415
60 그래프 기능 개선! 2014.12.06 455
59 모바일 사이트 콘텐츠 가이드 2014.12.03 416

© juroweb 2003-2014. All rights reserved
log in