진행상황: 현재 78권의 서적이 스캔완료되었습니다. 이미지는 CD 네장 분량입니다. ---------- ----- --------------------------------- 분류 권수 비 고 ---------- ----- --------------------------------- 스캔완료 78 교정투입 46 전권 아이디어회관 미투입 32 아이디어회관 이외의 책들 교정완료 17 진행율: 15%, (아이디어회관만) 27% ---------- --- ---------------------------------- * 교정참가자: 18명 새로 스캔작업을 시작하신 권호상님, 그리고 조수아님, 박선식님이 많은 분량을 스캔하셨으며 백재성님이 현재 스캔을 도와주고 계십니다. 덕택에 도서전 준비에 시간을 벌 수 있었죠. 진심으로 감사드립니다. 아이디어회관의 서적 전 60권중 10권이 빠집니다. 이중 <우주전쟁>과 <투명인간>, 그리고 <불사판매주식회사>는 국내 출판사에서 판권을 가지고 있어 제외했습니다. 출판 안하면 크게 조롱해 줄 작정입니다. 아직 수거하지 못한 책들은 다음과 같습니다. 16 초인부대 18 해저정찰대 29 해저의 고대제국 36 저주받은 도시 45 우주물체 X 55 지문의 비밀 57 악마박사 59 화성호는 어디에 (이제는 늦었습니다. 책을 구하게 되면 물론 스캔하지만 교정열사 모집공고는 더이상 없을 것이므로 이번 작업에서 교정은 보류합니다) 50권중 두권은 제 영역 밖이라서 역시 제외합니다. 그래서 48권이 됩니다. 그럼 84권중 남은 34권은 어떻게 되는 것인가? 그리고 아직 스캔이 끝나지 않은 책들까지 포함하면 대략 100여권이 될터인데 이들에게 미래는 없는 것인가? 라는 지당한 의문에 대해 이제부터 성실하게 답변하겠습니다. 아이디어회관의 책들 말고 나머지는 스캔을 도와주신 분들이 하신 것입니다. 이 책들중 몇몇은 OCR 작업을 하지 않습니다. 이미지 채로 보관하던가, 이미지를 보고 타이핑해야 합니다. 왜? 아르미의 세로쓰기 인식율이 현저하게 낮기 때문입니다. 그럼 가로쓰기인 나머지는? 계획이 있습니다. 음모를 꾸미기에 적합한 저의 멋진 앞이마로 일년내내 교정시스템을 돌릴 수 있는 복안을 마련했습니다. 교정작업에 필요한 교정인력 확보는 대단히 심각하게 생각했던 문제였으며 앞으로는 더더욱 심각합니다. 심각한 이유는 다음과 같습니다. 1. 교정작업은 무척 지겹다. 루크는 교정작업에 소식지를 이용하여 환상을 심어넣고 소여시간을 전문가 기준으로 고시해서 사람들의 참여를 부추기는 사기행각을 벌였다(변호: 그러나 알면서도 즐겁게 작업에 임한 사람들이 있다). 2. 교정작업에 참여하기로 해놓고 작업을 도중에 중단하거나 바쁜 현대생활 때문에 잊어버리면 교정완료는 요원해지고 만다. <-- 이것이 핵심. 교정은 전적으로 참여자의 자원에 의존하며 '의무' 내지 '책임'과 상관없다. 3. 교정작업 참여자에게 의무 내지 책임을 강요하지 않는다는 대전제를 위반하지 말아야 한다. <-- 이 프로젝트는 참여자의 전적인 동의와 자발적인 참여의지가 가장 중요하다. 4. 자발적 의지는 2항에서 언급했다시피 시간에 따라 변화한다. 게다가 개개인의 사정이 반영되면 프로젝트의 스케쥴을 잡기란 불가능하다. 불가능한 일은 하지 말아야 한다. 5. 루크는 6월 30일 이후에는 프로젝트를 지금처럼 진행할 수 없다. 피곤해서. 그래서 이런 타이틀이 웅장한 배경음악과 함께 나오게 되었습니다. 차세대 딕디심경 프로젝트 ------------------------ 문제분석 및 향후 사업계획서 자발적 의지와 교정작업의 지속적인 진행, 그리고 피곤함의 극복등을 모두 만족시키려면 통신망을 통한 교정인원 확보및 작업추진 방식을 포기해야 합니다. 하이텔, 천리안, 나우누리, 유니텔을 통해서는 자동화 내지 통제가 불가능하기 때문이지요(불가능까지야 아니지만 처치가 곤란합니다) 대안은 그모든 집중화가 가능한 웹서비스 입니다. 직지심경 교정 홈페이지에 가보면 알겠지만 사용자가 교정작업을 지원할 수 없도록 기능을 막아 놓았습니다. 2항을 해결할 방법을 찾아야 하기 때문이었지요. 방법은 이미 알고있었지만 6월 7일까지 평균 작업일수를 산출해보아야 나머지 계산이 가능합니다. 봅시다. 웹 페이지에서 A라는 사용자가 교정을 신청하고 갑자기 교통사고로 가버리면(어디까지나 가정입니다) 그 책은 방치됩니다. B 또는 C라는 사용자가 다시 신청할 수 없어 랙이 걸리는 것이지요. 이것을 해결하려면 교정자 A가 일정기간 안에 교정을 끝마치지 못할 경우 자동으로 교정작업할당을 해제하여 다른 사용자가 교정에 참여할 수 있도록 해야 합니다. 이것이 핵심입니다. 교정신청 및 작업 플로우: 1. 웹페이지에서 아이디 등록 아이디를 등록한 사람에게 경고 메시지 표시 (귀하는 메일링 리스트에 가입하였습니다. 앞으로 교정작업할 서적이 등록되면 프로젝트의 소식을 편지로 받게 됩니다 기타등등) 2. 등록/수집/스캔/OCR까지 완료된 서적중 작업할 서적을 고른다 (<1차 교정작업 신청> 이라 함) 경고 메시지 표시 (xx일까지 작업을 끝내지 않으면 작업할당된 서적을 강제해제 운운) [진행]/[취소] 3. 자신의 작업공간에서 OCR 인식파일을 다운받아 교정작업에 착수 (이미지는 웹으로 보고, <교정작업지침> 역시 웹에서 다운받는다) 4. 교정이 끝난 파일을 웹으로 전송. 5. 등록/수집/스캔/OCR/교정완료된 서적중 편집할 서적을 고른다 (이미지는 웹에서 다운받고, <편집작업지침> 역시 웹에서 다운받는다) 6. 편집이 끝난 파일을 웹으로 전송 - 작업종료 7. 작업종료된 파일을 웹에서 누구나 볼 수 있도록 변환 (자동? 뭐... 가능함) 예를 들어 평균 교정작업 소요일수가 권당 14일이라고 가정하면, 1. d-6일에 해당 교정자에게 메일을 보내 계속할지/진행여부의 의향을 묻는 편지를 프로그램이 자동으로 보낸다. case a: 계속하겠다면 그대로 진행, case b: 사정상 곤란하면 작업해제 case c: 답장이 d-3일까지 없으면 경고 메일 발송 d일까지 경고메일의 답장이 없으면 작업해제 경고메일의 답장이 오면 case a,b 판단. 2. 작업 해제된 서적/작업할당되지 않은 서적은 3주내지 한달 주기로 메일링 리스트로 발송하여 참여를 유도. 그래프로 그리면 한눈에 알아볼 수 있지만 일단 말로 써 놨습니다. 작업절차가 대충은 눈에 보일 것입니다. 이것이 Project Dikdi Next Generation의 청사진입니다. 잘 안될 것 같지요? 그렇습니다. 잘 안될 가능성이 아주 높습니다. 대안이 하나 더 있습니다. 차세대 프로젝트를 진행할 책임자를 모집하는 것입니다. 조건이 조금 까다롭습니다. . 만 8세 이상 (그외 남/녀, 지구인/외계인 등등 제한없음) . 상시 인터넷 사용 가능한 자 (주1) . 하루 1시간 이상 프로젝트에 몸 바칠 수 있는 자 . 기다릴 줄 아는 자(주2) . 각종 땡칠이 노가다 작업을 천직으로 여기는 자(주3) ------ 주1) 비용소요를 최소한으로 줄이고 4대 통신망에 계정없이 메일을 보내는 유일한 방법 주2) 프로젝트는 한번 시작하면 최소한 2개월 이상 지속됩니다. 주3) 생각보다 시간이나 손이 많이 갑니다. -*- 교정파일 전송때 실수를 많이했고, 그래서 본의아니게 몇몇 분들을 귀찮게 했습니다. 아직 전송체계가 불완전합니다. 수동으로 첵인하고 메일이 올바로 전송되었는지 확인하는데 대략 3시간이 걸리고 실패했을 경우 방안을 마련하고 그걸 재전송하는데 하루이상이 걸리므로 효율이 나쁜 셈입니다. 그래서 하루에 제가 교정작업으로 배달할 수 있는 서적수는 16권 가량 입니다. 자동화요? 자동화 프로그램을 짜는데 4일 정도 잡고 기술적으로 생각해야 할 부분도 있으니까 차라리 수동작업이 더 빠른 셈이지요. 딕디심경 프로젝트 웹 서비스의 이용율이 저조하여 그 이유를 캐던 중 회사의 dns 서버가 dns 엔트리를 갱신하지 않아 외부에서 kali 호스트에 접근하지 못하는 경우가 있었습니다. 회사의 어드민에게 부탁하여 dns를 갱신했고 이제 그런 일은 없을 것입니다. 웹 엑세스 로그와 네트웍 트래픽을 분석해 보았더니 거진 100%의 트래픽 유틸리제이션이 나타났으며 대낮에는 업무용으로 대량의 파일들이 왔다리 갔다리 하는 관계로 전송속도가 많이 떨어지니 야밤에 딕디 홈페이지를 이용해주면 고맙겠습니다. 딕디 홈페이지에 그래도 접근하기가 힘들면, ip로 시도해 보십시오. http://203.236.164.3/sf/jikji 책을 전송하면서 새로운 사실을 알게 되었는데, 나우누리는 인터넷 email 쿼터가 5MB, 천리안과 하이텔은 각각 10MB씩입니다. 즉 5MB나 10MB 이상의 파일을 email로 전송하면 받는 쪽 메일서버의 쿼터제한에 걸려 리젝트됩니다. (나우누리의 경우 전송속도가 현저하게 낮아 심지어 timeout 에러가 발생할 때도 있습니다) hotmail은 2MB, hanmail은 5MB입니다. 별건 아니지만 대량의 유사한 작업을 할 때 참조하십시오. 무제한 웹 호스팅으로 명성을 날리는 xoom.com 역시 단일 파일의 크기가 10MB를 넘어가면 업로드 되자마자 삭제하며, 확장자가 압축파일 형식(.zip, .arj, .rar, .lha)이면 그냥 삭제하는 듯 합니다. 테스트 해보지는 않았지만 정보를 주신 박선식님에게 감사드립니다. SF컨벤션 협회측의 요청으로 제게 책을 보내주셨던 분들의 책중 여럿을 선정하여 도서전에서 전시하게 되었습니다. 노벨, 아이디어회관, 동서, 성정, 자유, 서영, 금성출판사의 책들 각 몇권씩이 여기에 해당합니다. 허락해주신 분들께 감사드립니다. 6월 7일이 가까워지고 있습니다. 교정완료입니다. 그날까지 교정이 안되면 대상서적에서 제외하던가 프로젝트 2차분 CD로 넘어갑니다. 첫번째 CD를 무슨 일이 있어도 6월 30일(+7일) 이전에 완성하려면 불가피하군요. 왜 날짜에 연연하는가? 1-2개월쯤 늘리면 안되나? 라고 물으실 것 같네요. 혹시 7월 1일 12:30분경에 그동안 제가 벌였던 헤아릴 수 없이 많은 착한 일 때문에 하늘나라에 가기라도 한단 말인가? 오오... 그냥 서부전선입니다. 편집작업은 이미지 추출과 변환, 저작도구를 이용한 html 페이지 작성 등 그쪽에 경험이 없는 사람에게는 약간 까다로운 부분이 있습니다. 교정작업보다는 단순반복작업이 적고, 시간이 더 적게 걸리지만 사용하는 툴이 두세가지 이상되는데 홈페이지 작업을 조금 해 보시고 이 기회에 경험을 쌓고 싶다는 생각이 들면 심사숙고후 연락 주십시오. 룰이 그다지 복잡하지는 않습니다만 대량의 문서를 윈도우 사이에서 현란하게 자르고 붙이는 신경 곤두서는 작업이라 평소 영양상태가 좋지 않은 사람에게는 권하지 않습니다. 편집은 그저 포도주나 보드카를 옆에 끼고 홀짝이면서 노 프라블럼 스피릿으로 하는게 최고지요. <-- 이런 말 하다가 눈두렁이 쾡한 전문 편집자들에게 몰매 맞을 것 같습니다. 개개인의 실력을 무시하고 너무 어렵게 얘기한 것 같군요. 실은 제가 어렵게 여기고 있다는 것이 맞습니다. 편집인원 모집 공고는 따로 올리지 않습니다. 다른 대안이 있긴 합니다. 조금 늦게 알게 되었지만 아도브 Acrobat 4.0 DBCS 버젼이 4월말에 베타테스트를 하고 있다는 소식을 들었습니다. 아직 아도비의 제품을 취급하는 비비컴에 문의해 보지는 않았습니다. 혹시 가지고 계신 분 있으신가요? 이미 많은 분들이 알고 있으시겠지만 아도브의 PDF(Portable Document Format)은 현재로서는 가장 완벽한 다큐먼트 형식입니다. 프린팅과 뷰등의 면에서. 대안으로 제시되고 있는 XML이나 CSS2는 IE 5.0 브라우저만이 지원하거나 아직 스펙을 우완전하게 지원하지 않으며 편집툴의 가격이 장난이 아니고 잠깐 사용해본 데모 프로그램들이 대체로 그리 만족스럽지 않아 좀 꺼려지는군요. keep in touch. luke 수천 페이지를 스캔/OCR 작업한 루크의 노우하우 --------------------------------------------- 스캔작업 일반 1. 퇴근길에 비디오샵에 들러 가급적 피가 많이 흐르는 영화 한두편 고른다. 2. 모니터 한구석에 TV 화면을 띄우고 스캔하면서 비디오 본다. 3. 책 한권 스캔시간이 비디오 한편 플레이타임과 비교적 잘 들어맞는다. 4. 엔딩 크레딧이 흘러나오면 OCR로 긁고 GIF로 이미지변환한다. 스캔작업에 사용하는 장비: 하드웨어: 셀러론 333A, 오스카 TV 오버레이 보드(TG9660), 64MB PC100 메모리, 2GB + 250MB HDD, UMAX Astra 1220P Scanner, 두꺼운 책 한권 및 작은 문진 소주 한병 소프트웨어: UMAX VistaScan 3.1, 아르미 4.0 스캐너 번들, ACDSee 2.4, Jasc Image Robot 1.1, IrfanView 3.0, 아래한글 815, renum.exe, Winzip 7.0, LeechFTP 1.1, OutLook Express 4.0, Internet Explorer 4.01 SP1, (c)my soul v2.1b 스캔작업 세부 절차 1. VistaScan으로 스캔 [01:10:00] (pcx로 저장 -- VistaScan은 이거밖에 제대로 되는 것이 없음) 2. renum (이미지 페이지순으로 정렬) [0:35] 책의 페이지와 스캔한 이미지의 페이지 번호가 일치하는지 확인. 잘못 스캔한 페이지 없나 ACDSee로 점검 2. Jasc Image Robot으로 이미지 배치 변환 작업 [02:00] (OCR 전처리 작업) Set Input Option: *.pcx Rotate Image: Left(CCW) 90 degree Crop (이미지의 불필요한 여백 제거 - 파일사이즈를 줄일 목적) Set Output Option: *.tif(Huffman Encoding) 3. 아르미로 OCR [05:00] 이미지: *.tif (아르미는 오직 tif만 완벽하게 지원함) 인식결과저장: job.hwp 4. 저장된 파일을 아래한글로 읽어들여 점검 [01:00] (아르미의 버그 때문에 hwp가 한 파일로 저장될 때 에러가 발생하는 경우가 있음. 그때는 아르미에서 다시 페이지마다 아래한글 파일을 하나씩 저장해야 함) 5. IrfanView 이미지 배치 변환 작업 [05:00] (Web용/Mail 전송용 이미지 변환) Input: *.tif Output: *.gif (option: 40% Resampling) 6. 배송파일 압축 [00:40] hwp: <regno>.zip (대략크기: 1.2MB ~ 4.5MB) 이미지: <regno>img.zip (대략크기: 2.3MB ~ 5MB) * <regno> = 웹 서비스에 등록한 책의 고유번호 7. 압축한 파일을 휴대용 250MB HDD에 복사 [01:00] 다음날 아침 늦게 일어나 어기적어기적 회사에 갑니다. 9. gif 파일을 xoom.com에 ftp로 전송 (leechFTP 사용) [05:00] a. gif 및 hwp 파일을 교정작업자에게 메일로 전송 (OE 4.0 사용) [03:00] b. web service에 OCR 파일(hwp->zip) 등록/작업배당 [05:00] c. 메일전송여부 확인/재전송 [03:00:00 ~ 28:00:00] 하루(평일)에 스캔할 수 있는 서적수: 최대 스캔: 3권 (7시 퇴근 기준 <땡땡이>) 평균 스캔: 1권 (10시 퇴근 기준) 보통 스캔: 2권 (9시 퇴근 기준) * <땡땡이> = 오전 10:30에 출근하여 19:00에 퇴근하면 땡땡이로 봄. 권당 평균 스캔 에러율: 0.7% 권당 평균 작업시간: 1시간 40분 권당 혈중 알콜농도(추정치): 0.2(?)