খোঁজ একটি ক্রলার নির্ভর সার্চ ইঞ্জিন। প্রথমে বলি ক্রলার কাকে বলে। ক্রলার হলো একটি সয়ংক্রিয় সফটওয়্যার যা ইনটারনেট হতে ওয়েবসাইটের তথ্য স্নগ্রহ করে হার্ড ডিক্সে জমা করে। খোঁজ এ ব্যবহারিত ক্রলার এর নাম রয়ক্রলার।
ক্রলার সব তথ্য হার্ড ডিক্সে জমা করার পর ওয়েব ইনডেক্সার তার কাজ শুরু করে। ওয়েব ইনডেক্সার হার্ড ডিক্সে জমা হওয়া প্রতিটা ওয়েবসাইট হতে গুরুত্যপুর্ন্য সব শব্দ সংগ্রহ করে প্রতিটি শব্দের জন্য একটি ইনডেক্স ভেলু নির্নয় করে। ইনডেক্স ভ্যেলু ওয়েবসাইটে শব্দটির গুরুত্যপুর্ন্যতা প্রকাশ করে। এই ইনডেক্স ভেলু নির্নয় করার জন্য আমরা যে টেকনোলোজি ব্যাবহার করেছি তা আমরা এখনই উল্লেখ করছিনা, কারন এই টেকনোলোজি বা লজিক আমরা পেটেন্ট হিসাবে জমা দিচ্ছি।
ওয়েব ইনডেক্সার তার কাজ শেষ করার পর ইনডেক্স ফিল্টার তার কাজ শুরু করে। যেহেতু এটি একটি সয়ংক্রিয় পদ্ধ্যতি তাই ওয়েব ইনডেক্সিং এর সময় কিছু অপ্রয়োজনীয় তথ্য আমাদের ইনডেক্সে জমা হয়, ইনডেক্স ফিল্টার এই অপ্রয়োজনীয় তথ্য মুছে ফেলার কাজ করে। ইনডেক্স ফিল্টার এর কাজ শেষ হবার সাথে সাথে আমাদের সার্ভার এর কাজ শেষ হয়। ১০০,০০০ ওয়েবসাইটের তথ্য আপডেট করতে আমাদের ৩ দিন সময় লাগে। এর পরবর্তি ৪ দিন সার্ভার রেষ্ট এ থাকে। অর্থাৎ প্রতি ৭ দিন পর পর আমাদের সব ওয়েবসাইটের তথ্য আপডেট হয়ে যায়।
এটাতো শেষ হলো সার্ভারের কাজ। এরপর যখন কেউ কিছু সার্চ করে তখন তা কয়েকটি ধাপে সার্চ শেষ করে।
প্রথমে এটি অপ্রয়োজনীয় সব শব্দ বাদ দেয় (যেমনঃ হয়,আমি,তুমি…)। পরবর্তিতে প্রটিতি শব্দের প্রতিশব্দ বের করে (যেমনঃ গান=সংগীত, song…)।খোজ প্রতিটি শব্দের বাংলা এবং ইংলিশ এ প্রতিশব্দ বের করে।
এরপর ওয়েব ইনডেক্সার এর সাহাজ্যে এটি ওয়েবসাইট খুজে বের করে।
Friday, September 25, 2009
Subscribe to:
Post Comments (Atom)



No comments:
Post a Comment