PAYLAŞ

Her zaman internet erişiminiz olmuyorsa, veya seyahatlerde yavaş kalıyorsa Wikipedia’yı bilgisayarınıza indirip kullanabilirsiniz. Temel avantajları şunlar:

 • Çok hızlı arama
 • Anahtar sözcük tabanlı arama
 • Arama birden fazla madde ile sonuçlanıyor, arasından seçebilirsiniz.
 • Matematik için LaTEX tabanlı veriler.
 • Sabit disk alanı en düşük seviyede, orijinal .bz2 dosyası (parçalara bölünmüş) artı Xapian üzerinden indeks.
 • MySQL ile karşılaştırıldığında çok hızlı kurulum.


Gerekenler:

Sayfalar ve maddeler dosyası; Şu an 2.9 Gb byüklüğünde ve buradan indirilebilir.

Bu dosya büyük bir XML dosyasından başka bir şey değil. SAX parser ile ayrıştırmak çocuk oyuncağı. “title” ve “text” elementlerine dikkat ediyoruz. Komut:
bash$ bzcat enwiki-20070802-pages-articles.xml.bz2 | head -10000 |
grep -A 100 '

Ayrıştırmayı istediğimiz veriyi gösteriyor:

12

149030244
2007-08-03T23:24:05Z

Jacob Haller
164072

/* Four monopolies */
{{dablink|”Anarchist” redirects here. For the
comic book character, see [[Anarchist (comics)]].}} {{toolong}} {{disputed}}
{{Anarchism}} ”’Anarchism”’ is a [[political philosophy]] or group of
philosophies
ve <text> içeriğini araştırmamız yeterli olacaktır. Bunun için karmaşık şeyler kullanmaya gerek yok. Olağan arama ile çözülebilir. <text> i arayıp </text>e kadar okutmak gibi.<br/><br/>MySQL veya diğer bir veritabanı uygulamasına ihtiyacımız yok, çünkü biz sadece Wikipedia’yı okumak istiyoruz, yazmak değil. .xml.bz2 dosyası içerisinde arama yapmak yeterli olacaktır. Bunun için de bzip2recover adlı aracı kullanacağız. Bu araça 2.9 Gb’lık veriyi çok küçük parçalara bölecek ve ayrı ayrı sıkıştıracak. Fazladan bir alan da harcamayacak, işlem bittikten sonra 2.9 GB’lık veriyi silebiliriniz.<br/><br/>Bu veriyi indekselememiz de gerekiyor. Bunun için de Xapian adlı açık kaynaklı yazılımı kullanıyoruz. Aşağıdaki <a href=”http://www.softlab.ntua.gr/~ttsiod/quickstartindex.cc”>kod</a> ile yapılabiliyor:<br/><br/><code>/* quickstartindex.cc: Simplest possible indexer */<br/><br/>#include <xapian.h><br/>#include <iostream><br/>#include <string><br/>#include <vector><br/>#include <cctype><br/>#include <algorithm><br/><br/>using namespace std;<br/><br/>#define MAX_KEY 230<br/><br/>#define SPLIT_TITLE_INTO_KEYWORDS<br/><br/>// Split a string into its tokens, based on the given delimiters<br/>void Tokenize(const string& str, vector<string>& tokens, const string& delimiters)<br/>{<br/> // Skip delimiters at beginning.<br/> string::size_type lastPos = str.find_first_not_of(delimiters, 0);<br/> // Find first “non-delimiter”.<br/> string::size_type pos = str.find_first_of(delimiters, lastPos);<br/><br/> while (string::npos != pos || string::npos != lastPos)<br/> {<br/> // Found a token, add it to the vector.<br/> tokens.push_back(str.substr(lastPos, pos – lastPos));<br/> // Skip delimiters. Note the “not_of”<br/> lastPos = str.find_first_not_of(delimiters, pos);<br/> // Find next “non-delimiter”<br/> pos = str.find_first_of(delimiters, lastPos);<br/> }<br/>}<br/><br/>// We will perform case insensitive searches, so we need a function to lowcase() a string<br/>char to_lower (const char c) { return tolower(c); }<br/>void lowcase(string& s) { transform(s.begin(), s.end(), s.begin(), to_lower); }<br/><br/>int main(int argc, char **argv)<br/>{<br/> unsigned total = 0;<br/> try {<br/> // Make the database<br/> Xapian::WritableDatabase database(“db/”, Xapian::DB_CREATE_OR_OPEN);<br/><br/> string docId;<br/> while(1) {<br/> string title;<br/> if (cin.eof()) break;<br/> getline(cin, title);<br/> int l = title.length();<br/> if (l>4 && title[0] == ‘#’ && title.substr(l-4, 4) == “.bz2”) {<br/> docId = title.substr(1, string::npos); <br/> continue;<br/> }<br/><br/> string Title = title;<br/> lowcase(title);<br/><br/> // Make the document<br/> Xapian::Document newdocument;<br/><br/> // Target: filename and the exact title used<br/> string target = docId + string(“:”) + Title;<br/> if (target.length()>MAX_KEY)<br/> target = target.substr(0, MAX_KEY);<br/> newdocument.set_data(target);<br/><br/> // 1st Source: the lowercased title<br/> if (title.length() > MAX_KEY)<br/> title = title.substr(0, MAX_KEY);<br/> newdocument.add_posting(title.c_str(), 1);<br/><br/> vector<string> keywords;<br/> Tokenize(title, keywords, ” “);<br/><br/> // 2nd source: All the title’s lowercased words<br/> int cnt = 2;<br/> for (vector<string>::iterator it=keywords.begin(); <br/> it!=keywords.end(); it++) <br/> {<br/> if (it->length() > MAX_KEY)<br/> *it = it->substr(0, MAX_KEY);<br/> newdocument.add_posting(it->c_str(), cnt++);<br/> }<br/><br/> try {<br/> //cout << “Added ” << title << endl;<br/> // Add the document to the database<br/> database.add_document(newdocument);<br/> } catch(const Xapian::Error &error) {<br/> cout << “Exception: ” << error.get_msg();<br/> cout << “nWhen adding:n” << title;<br/> cout << “nOf length ” << title.length() << endl;<br/> }<br/> total ++;<br/><br/> if ((total % 8192) == 0) {<br/> cout << total << ” articles indexed so far” << endl;<br/> }<br/> }<br/> } catch(const Xapian::Error &error) {<br/> cout << “Exception: ” << error.get_msg() << endl;<br/> }<br/> cout << total << ” articles indexed.” << endl;<br/>}<br/></code><br/><br/>Bu basit kod “title”lardan bzip2 bloklarındaki dosya isimlerine kadar bir indeks oluşturabiliyor. Bu kodun okumasını beklediğimiz girdi ise şöyle:<br/><code>#rec00001enwiki-20070802-pages-articles.xml.bz2 <br/>AlgeriA<br/>AmericanSamoa<br/>AppliedEthics<br/>AccessibleComputing<br/>Anarchism<br/>AfghanistanHistory<br/>AfghanistanGeography<br/>AfghanistanPeople<br/>AfghanistanEconomy<br/>…<br/>…<br/>Topics of note in Atlas Shrugged<br/>Atlas Shrugged<br/>#rec00002enwiki-20070802-pages-articles.xml.bz2<br/>Anthropology<br/>Archaeology<br/>Anomalous Phenomena<br/>…<br/></code><br/><br/>Bu script ile üretilebilir:<br/><br/><code>bash$ echo Enter the directory of the recXXXXX…bz2 files<br/>bash$ cd wiki-splits<br/>bash$ echo Create the index directory<br/>bash$ mkdir db<br/>bash$ echo Building the index<br/>bash$ for i in rec*.bz2 ; do <br/> echo #$i <br/> bzcat $i | grep ‘<title’ | <br/> perl -ne ‘m/<t<br /> itle>([^<]+)/ && print $1.”n”;’
done | ../quickstartindex

Xapian ile indeksleme işlemi, CPU gücünüze göre değişik vakitlerde gerçekleşebilir. Pentium4 3GHz ile 5 saat civarında sürmüş.

Xapian ile indekseleme biz “hızlı arama” örnek uygulaması sağladı. Bunu yapabiliriz:

bash$ ./quickstartsearch db/ greece
99% [rec00124enwiki-20070802-pages-articles.xml.bz2:Greece] 72% [rec00137enwiki-20070802-pages-articles.xml.bz2:Hellenic Greece] 72% [rec00465enwiki-20070802-pages-articles.xml.bz2:Argos, Greece] 72% [rec00468enwiki-20070802-pages-articles.xml.bz2:Marathon, Greece] 72% [rec00524enwiki-20070802-pages-articles.xml.bz2:Athens, Greece] 72% [rec00583enwiki-20070802-pages-articles.xml.bz2:Thebes, Greece] ...

Wiki’yi HTML formatında görüntülemek için ise woc.fslab.de nin yarattığı ayrıştırıcıyı kullanabiliriz. Onların kodu:

bash$ svn co http://fslab.de/svn/wpofflineclient/trunk/mediawiki_sa/ mediawiki_sa

Test:

bash$ cd mediawiki_sa
bash$ php5 testparser.php bonsai.wikimarkup > bonsai.html

Şimdi tüm yaptıklarımızı birleştiriyoruz, PErl veya Python veya benzeri ile olabilir. ÖRnek olarak Perl ile yapılmış bir script:

bash$ ./mywiki.pl
Usage: ./mywiki.pl keyword1 ...
bash$ ./mywiki.pl greece
0: (abort)
1: (99%) Greece
2: (72%) Hellenic Greece
3: (72%) Argos, Greece
4: (72%) Marathon, Greece
5: (72%) Athens, Greece
...
Select a number: 2
(firefox starts up, showing the generated HTML file)

Sonuç olarak gerekli geliştirici araçlarını (Python, Perl, Php, xapian ve django gibi) sağladıktan sonra, bu dosyayı indirmek yetecektir.

, , , ,

What's Happening Recommended by Hashcore

2 YORUMLAR

 1. Çevrimdışı (offline) Wikipedia Tarayıcısı…

  cevrimdisi-offline-wikipedia-tarayicisi

  Her zaman internet erişiminiz olmuyorsa, veya seyahatlerde yavaş kalıyorsa Wikipedia’yı bilgisayarınıza indirip kullanabilirsiniz. Temel avantajları şunlar:…

BİR CEVAP BIRAK