2015년 5월 26일 화요일

Paradox of Hit Counter

I'm test driving my HTML content detection engine.

It's still a work in progress.

My goal is to write a web crawler with tracking ability.

Today, I found a crucial paradox with view counters.




If my engine crawls a page with view counter, it also changes the contents of that page by increasing visit counter by 1.

So, it's always recognized as changed page.

Another roadblock...

2015년 5월 21일 목요일

HTML Content Extraction

Recently, I'm writing an HTML content extraction engine for VanillaBrain.com project.

요즘 저는 바닐라브레인 프로젝트에서 사용할 HTML 본문 추출 엔진을 작성하고 있습니다.

I can't tell what VanillaBrain project is yet due to it's premature state.

아직 조숙한 상태여서 바닐라브레인 프로젝트가 무엇인지는 말씀드릴 수 없지만,

But I can share some useful or inspirational links about HTML content extraction.

HTML 본문 추출에 관한 쓸만하거나 영감을 주는 링크는 공유드릴 수 있지요.

Related products:


  • Apache Tika (content analysis toolkit) : http://tika.apache.org/

None of above products are JavaScript enabled and I was unable to find one.

위에 열거한 제품들은 JavaScript는 지원하지 않고, 지원하는 제품은 찾지 못했습니다.

I'm trying out some headless web browsers to crawl JavaScript dependent pages but can't find satisfiable one yet.

JavaScript에 의존하는 페이지들을 긁어오기 위해 headless web browser들을 시도해 보고 있지만, 아직 만족스러운 것을 찾지는 못했습니다.

Related articles:


  • https://trello.com/c/Xdy1qU1o/5--


I was inspired by above articles and write a graph based algorithm now but it's not working properly yet.

위의 글들에서 영감을 얻어서 그래프 기반의 알고리즘을 작성하고 있습니다만, 아직은 잘 동작하지는 않습니다.

It's a crucial function for VanillaBrain's MVP so I'm quite anxious now cause out fund is bleeding.

요게 바닐라브레인의 MVP에서 꽤 중요한 기능인제, 저희의 활동 자금은 계속 줄어들고 있어서 요즘 불안한 상태입니다.

But what can I say? Just keep doing my best :)

뭐 어쩌겠나요. 그저 최선을 다 할 수밖에 ^^

예전 Egloos.com의 블로그 링크

수년간 이용한 egloos.com에 대한 실망

Egloos의 운영업체가 수년간 이곳 저곳 바뀌면서 제 계정 정보가 엉망이 되어 있더군요.

실명 확인이 대체 왜 필요한지는 모르겠지만, 무슨 연유에선가 실명 정보가 사라져 있어서, 제 blog인데도 제어 권한을 제대로 가지지 못하고 있습니다.
여러 차례 문의를 했지만, 한국인들은 쉽게 예상할 수 있는, 특유의 관료주의에 상처만 받고 제대로 된 복구도 이루어지지 않았습니다.

Egloos의 글들을 마땅히 import 해 올 방법도 없고 참 난감한 상황이 되어 버렸는데...

지난 글들은 어쩔 수 없지만, 이제부터라도 다른 서비스를 이용하는 것을 고려해야 겠습니다.