За какво става дума:

The Complete New Yorker представлява комплект от 8 DVD, съдържащи всички страници от всички броеве на The New Yorker. Цената е малко повече от 100 лева от Amazon.

Каталогът на колекцията беше безсрамно изваден от дисковете и е достъпен на адрес

http://69.61.72.18/newyorker

Под описанието на всяка статия има препратка, чрез която можете да получите статията като PDF. Страницата е достъпна само от България. В бъдеще ще бъдат добавени още възможности за търсене и процесът ще бъде автоматизиран.

Технически обяснения:

Противно на очакванията, дисковете имат защита. На първо място е нещо наречено Macrovision SafeDisc с DLL който проверява дали дискът е оригинален и дали устройството е физически съществуващо, а не виртуално (интересно ми е дали виртуалните контролери на VMWare се възприемат като опит за пиратство). Самите броеве са във формат подобен на DjVu, но не се отварят със стандартна DjVu програма.

Слабите места в тази конфигурация са следните:

1. Базата данни е формат SQLite. Тук е важно да се отбележи, че авторът на SQLite e Др. Ричард Хип, дълбоко религиозен гражданин, женен за изпълнителка на църковна музика (какъвто е случаят и с Др. Доналд Кнут).

С command-line клиент за SQLite базата данни беше преобразувана в SQL, който, с малки фокуси, беше налят 1 към 1 в MySQL. Оригиналната база данни беше в сто и осма нормална форма, но от практически съображения броят на таблиците беше намален за сметка на релационната чистота. Освен това MySQL (поне версиите преди 5.0) поддържа пълнотекстово търсене, за разлика от SQLite, където е необходим ръчно изработен индекс.

Така извадената информация е прекрасно средство за експериментиране в областта на търсенето в малки масиви данни (поради липса на достъп до колекции от типа на TREC).

2. Приложението за разглеждане на списанието позволява разпечатване. PDFCreator инсталира виртуален принтер, който произвежда PDF файл вместо физически отпечатък върху хартия.

3. В базата данни има нарочна колона, която указва на кое DVD се намира всеки брой. Първият брой от 1925 година е освободен от защита и се инсталира на твърдия диск - т.е. диск "номер 9". Достатъчно е всички останали броеве да се копират на твърдия диск и да се изпълни един SQL UPDATE и готово, няма нужда от DVD.

Самата уеб страница се намира на XEN виртуална машина Fedora Core 4 от VPSLand. PDF се произвеждат с кански мъки на машина 366Мhz с DVD устойство за 20 лева от един магазин до Женския пазар.

Морално оправдание:

(to be found)

За контакти:

Филип Стоев (филип ет стоев дот орг)