« dankogaiの真似クソおもしれええ | main | www.google.co.jp/hws »

crawler / indexer

Webクローラーを作るのは大変な作業だと僕は思う。ちょっとした定型のマークアップランゲージから必要な情報を取得することですら結構面倒なのに、人間が記述した、時たま破綻するような殆ど自然言語ライクなタグのかたまりを、その論理構造を無視する事無く、超高速に、超Massで、やってのける訳だ。そう言うコードを書く人達を僕は尊敬する。
さて先程食後に紅茶を飲みながら、暇だなと思ってpolog.orgのアクセスログを眺めていた。開設後一ヶ月はGoogleやYSTばかりだったが、最近はMSN Live Searchやgoo、livedoor(独自検索エンジンだっけ?)のbotがちょくちょくやってくる。へぇ、とかおおこんな記事が人気なのかとか思いつつDocomoや中部地方の大学(だれ?)のhostの合間に見つけたのがコレ↓

worio.com | Mozilla/5.0 (compatible; worio bot heritrix/1.10.0 +http://worio.com)

コロンビア大のソースコードサーチエンジンらしい。今時pure academicにそんなのやるのかと驚愕。まだオープンベータだが頑張って欲しい。
あと一つ思ったのがblogへのコードの貼付け方。現状は数行のモノでない限り別ファイルだが、これちょっと模索しないと上手い感じに世の中にcommitできないので、そのうちリサーチして良い手法を手に入れようと思う。or 誰か教えろ。

トラックバック

このエントリーのトラックバックURL:
http://polog.org/mt-tb.cgi/338

コメント (6)

はてなのsuperプレ記法をText::Hatenaに実装すると,みんな幸せになれる気がしますw

さすがCPANでした。

Syntax::Highlight::Universal

あーよくhatenaダイアラーが使ってる奴ね。ハイハイ・・・と思ったら
>現在対応しているファイルタイプは以下の通りです。
なにこの多さwハンパねえ。誰がgnuplotのコード貼るんだよ。
そう言う保守はhatenaの人に頼んで下さい。
それにしてもこれどこから持って来たんだろう。el?

>Syntax::Highlight::Universal
これはすごい
ちなみにColdfusionにはhatenaは対応してなかった笑 Syntax::Highlight::Universalの対応リストはどこ?

coldfusionに対応している!!!


c, cpp, asm, perl, java, idl, pascal, csharp, jsnet,
vbnet, forth, fortran, vbasic, html, css, html-css,
svg-css, jsp, php, php-body, xhtml-trans, xhtml-strict,
xhtml-frameset, asp.vb, asp.js, asp.ps, svg, coldfusion,
jScript, actionscript, vbScript, xml, dtd, xslt,
xmlschema, relaxng, xlink, clarion, Clipper, foxpro,
sqlj, paradox, sql, mysql, Batch, shell, apache, config,
hrc, hrd, delphiform, javacc, javaProperties, lex, yacc,
makefile, regedit, resources, TeX, dcl, vrml, rarscript,
nsi, iss, isScripts, c1c, ada, abap4, AutoIt, awk, dssp,
adsp, Baan, cobol, cache, eiffel, icon, lisp, matlab,
modula2, picasm, python, rexx, ruby, sml, ocaml, tcltk,
sicstusProlog, turboProlog, verilog, vhdl, z80, asm80,
filesbbs, diff, messages, text, default

すげー、阿呆だw
sqlとmysql二つある意味はなんだ。

コメントを投稿

Powered by
Movable Type 3.34