ওয়েবসাইট ইন্ডেক্সিং কি? এটা কিভাবে হয়? আপনি নিবন্ধে এই এবং অন্যান্য প্রশ্নের উত্তর পেতে পারেন। ওয়েব ইন্ডেক্সিং (সার্চ ইঞ্জিনে ইন্ডেক্সিং) হল একটি সার্চ ইঞ্জিন রোবট দ্বারা ডেটাবেসে একটি সাইট সম্পর্কে তথ্য যোগ করার প্রক্রিয়া, যা পরবর্তীতে এমন একটি পদ্ধতির মধ্য দিয়ে যাওয়া ওয়েব প্রকল্পগুলির তথ্য অনুসন্ধান করতে ব্যবহৃত হয়৷
ওয়েব রিসোর্স সম্পর্কে ডেটা প্রায়শই কীওয়ার্ড, নিবন্ধ, লিঙ্ক, নথি নিয়ে গঠিত। অডিও, ইমেজ, এবং তাই সূচীবদ্ধ করা যেতে পারে. এটা জানা যায় যে কীওয়ার্ড সনাক্তকরণ অ্যালগরিদম সার্চ ইঞ্জিনের উপর নির্ভরশীল।
ইনডেক্স করা তথ্যের (ফ্ল্যাশ ফাইল, জাভাস্ক্রিপ্ট) ধরনের কিছু সীমাবদ্ধতা রয়েছে।
দীক্ষা ব্যবস্থাপনা
একটি সাইট ইন্ডেক্স করা একটি জটিল প্রক্রিয়া। এটি পরিচালনা করতে (উদাহরণস্বরূপ, একটি নির্দিষ্ট পৃষ্ঠার সংযুক্তি নিষিদ্ধ করার জন্য), আপনাকে robots.txt ফাইল এবং অনুমতি, অস্বীকৃতি, ক্রল-বিলম্ব, ব্যবহারকারী-এজেন্ট এবং অন্যান্য নির্দেশাবলী ব্যবহার করতে হবে।
এছাড়াও, ট্যাগ এবং প্রপগুলি সূচীকরণের জন্য ব্যবহৃত হয়, Google এবং ইয়ানডেক্স রোবট থেকে সম্পদের বিষয়বস্তু লুকিয়ে রাখে (ইয়াহু ট্যাগ ব্যবহার করে)।
Goglle সার্চ ইঞ্জিনে, নতুন সাইটগুলিকে কয়েক দিন থেকে এক সপ্তাহ পর্যন্ত এবং Yandex-এ - এক থেকে চার সপ্তাহ পর্যন্ত সূচী দেওয়া হয়৷
আপনি কি চান আপনার সাইট সার্চ ইঞ্জিনের ফলাফলের প্রশ্নে উপস্থিত হোক? তারপরে এটি অবশ্যই র্যাম্বলার, ইয়ানডেক্স, গুগল, ইয়াহু এবং আরও অনেক কিছু দ্বারা প্রক্রিয়া করা উচিত। আপনাকে অবশ্যই সার্চ ইঞ্জিনগুলিকে (মাকড়সা, সিস্টেম) আপনার ওয়েবসাইটের অস্তিত্ব সম্পর্কে অবহিত করতে হবে এবং তারপরে তারা এটিকে সম্পূর্ণ বা আংশিকভাবে ক্রল করবে৷
অনেক সাইট বছরের পর বছর ধরে ইন্ডেক্স করা হয়নি। তাদের উপর থাকা তথ্য তাদের মালিক ছাড়া অন্য কেউ দেখে না।
প্রসেসিং পদ্ধতি
একটি সাইট ইন্ডেক্সিং বিভিন্ন উপায়ে করা যেতে পারে:
- প্রথম বিকল্প হ'ল ম্যানুয়াল সংযোজন৷ সার্চ ইঞ্জিন দ্বারা অফার করা বিশেষ ফর্মগুলির মাধ্যমে আপনাকে আপনার সাইটের ডেটা প্রবেশ করতে হবে৷
- দ্বিতীয় ক্ষেত্রে, সার্চ ইঞ্জিন রোবট নিজেই লিঙ্কের মাধ্যমে আপনার ওয়েব সাইট খুঁজে বের করে এবং এটিকে সূচী করে। তিনি আপনার প্রজেক্টের দিকে পরিচালিত অন্যান্য সংস্থানগুলির লিঙ্কগুলির মাধ্যমে আপনার সাইটটি খুঁজে পেতে পারেন। এই পদ্ধতিটি সবচেয়ে কার্যকর। যদি কোনো সার্চ ইঞ্জিন এইভাবে কোনো সাইট খুঁজে পায়, তাহলে সেটিকে তাৎপর্যপূর্ণ বলে মনে করে।
টাইমিং
সাইট ইন্ডেক্সিং খুব দ্রুত নয়। শর্তাবলী 1-2 সপ্তাহ থেকে পরিবর্তিত হয়। প্রামাণিক সংস্থানগুলির লিঙ্কগুলি (চমৎকার PR এবং Titz সহ) উল্লেখযোগ্যভাবে সার্চ ইঞ্জিন ডাটাবেসে সাইটের স্থান নির্ধারণের গতি বাড়ায়। আজ, গুগলকে সবচেয়ে ধীর বলে মনে করা হয়, যদিও 2012 সাল পর্যন্ত এটি এক সপ্তাহে এই কাজটি করতে পারে। প্রতিদুর্ভাগ্যক্রমে, জিনিসগুলি খুব দ্রুত পরিবর্তন হয়। এটি জানা যায় যে Mail.ru প্রায় ছয় মাস ধরে এই এলাকায় ওয়েবসাইটগুলির সাথে কাজ করছে৷
সার্চ ইঞ্জিনে একটি সাইট ইন্ডেক্স করা প্রত্যেক বিশেষজ্ঞের পক্ষে সম্ভব নয়। সার্চ ইঞ্জিন দ্বারা ইতিমধ্যে প্রক্রিয়া করা একটি সাইটের ডাটাবেসে নতুন পৃষ্ঠাগুলি যোগ করার সময় এটির বিষয়বস্তু আপডেট করার ফ্রিকোয়েন্সি দ্বারা প্রভাবিত হয়। যদি নতুন তথ্য ক্রমাগত একটি সম্পদে প্রদর্শিত হয়, সিস্টেম এটি ঘন ঘন আপডেট এবং মানুষের জন্য দরকারী বলে মনে করে। এই ক্ষেত্রে, তার কাজ ত্বরান্বিত হয়.
আপনি ওয়েবমাস্টারদের জন্য বিশেষ বিভাগে বা সার্চ ইঞ্জিনে একটি ওয়েব সাইটের ইন্ডেক্সিং অগ্রগতি অনুসরণ করতে পারেন।
পরিবর্তন
সুতরাং, আমরা ইতিমধ্যেই বের করেছি কিভাবে সাইটটি ইন্ডেক্স করা হয়। এটি লক্ষ করা উচিত যে সার্চ ইঞ্জিন ডেটাবেসগুলি প্রায়শই আপডেট করা হয়। অতএব, নিম্নলিখিত কারণে আপনার প্রজেক্টের পৃষ্ঠার সংখ্যা পরিবর্তিত হতে পারে (কমা ও বৃদ্ধি উভয়ই):
- ওয়েবসাইটের বিরুদ্ধে সার্চ ইঞ্জিন নিষেধাজ্ঞা;
- সাইটে ত্রুটির উপস্থিতি;
- পরিবর্তনকারী সার্চ ইঞ্জিন অ্যালগরিদম;
- ঘৃণ্য হোস্টিং (প্রকল্পটি অবস্থিত সার্ভারের অ্যাক্সেসযোগ্যতা) ইত্যাদি।
ইয়ানডেক্স সাধারণ প্রশ্নের উত্তর
"Yandex" হল একটি সার্চ ইঞ্জিন যা অনেক ব্যবহারকারী ব্যবহার করে। প্রক্রিয়াকৃত গবেষণার অনুরোধের সংখ্যার দিক থেকে এটি বিশ্বের অনুসন্ধান ব্যবস্থার মধ্যে পঞ্চম স্থানে রয়েছে। আপনি যদি এটিতে একটি সাইট যুক্ত করেন তবে এটি ডাটাবেসে যুক্ত হতে খুব বেশি সময় নিতে পারে।
একটি ইউআরএল যোগ করা তার সূচীকরণের নিশ্চয়তা দেয় না। এটি শুধুমাত্র একটি পদ্ধতি যার দ্বারা সিস্টেম রোবট বলা হয়একটি নতুন সম্পদ সম্পর্কে। অন্য ওয়েবসাইট থেকে কোনো সাইটের লিঙ্ক কম বা কোনো লিঙ্ক না থাকলে, এটি যোগ করা আপনাকে দ্রুত খুঁজে পেতে সাহায্য করবে।
যদি সূচীকরণ না ঘটে থাকে, তাহলে Yandex রোবট থেকে এটির জন্য একটি অ্যাপ্লিকেশন তৈরি করার সময় সার্ভারে কোনো ব্যর্থতা ছিল কিনা তা আপনাকে পরীক্ষা করতে হবে। যদি সার্ভার একটি ত্রুটি রিপোর্ট করে, তাহলে রোবট তার কাজটি বন্ধ করে দেবে এবং একটি রাউন্ড ট্রিপ অর্ডারে এটি সম্পূর্ণ করার চেষ্টা করবে। ইয়ানডেক্স কর্মীরা সার্চ ইঞ্জিন ডাটাবেসে পেজ যোগ করার গতি বাড়াতে পারে না।
Yandex-এ একটি সাইট ইন্ডেক্স করা একটি কঠিন কাজ। আপনি কিভাবে একটি অনুসন্ধান ইঞ্জিন একটি সম্পদ যোগ করতে জানেন না? যদি অন্যান্য ওয়েবসাইট থেকে এটির লিঙ্ক থাকে তবে আপনাকে একটি বিশেষ সাইট যুক্ত করার দরকার নেই - রোবট স্বয়ংক্রিয়ভাবে এটি খুঁজে পাবে এবং এটিকে সূচী করবে। যদি আপনার কাছে এই ধরনের লিঙ্ক না থাকে, তাহলে আপনি "ইউআরএল যোগ করুন" ফর্মটি ব্যবহার করে সার্চ ইঞ্জিনকে জানাতে পারেন যে সাইটটি বিদ্যমান।
মনে রাখবেন যে একটি ইউআরএল যোগ করলে আপনার সৃষ্টিকে ইন্ডেক্স করা হবে (বা ইন্ডেক্স করা হবে) এমন নিশ্চয়তা দেয় না।
অনেকেই ভাবছেন যে ইয়ানডেক্সে একটি সাইটকে সূচীকরণ করতে কতক্ষণ লাগে৷ এই কোম্পানির কর্মচারীরা গ্যারান্টি দেয় না এবং শর্তাবলী ভবিষ্যদ্বাণী করে না। একটি নিয়ম হিসাবে, যেহেতু রোবটটি সাইটটি সম্পর্কে জানতে পেরেছে, অনুসন্ধানে এর পৃষ্ঠাগুলি দুই দিনের মধ্যে প্রদর্শিত হবে, কখনও কখনও কয়েক সপ্তাহের মধ্যে৷
প্রসেস
"ইয়ানডেক্স" একটি সার্চ ইঞ্জিন যার সঠিকতা এবং মনোযোগ প্রয়োজন৷ সাইট ইন্ডেক্সিং তিনটি অংশ নিয়ে গঠিত:
- অনুসন্ধান রোবট ক্রল রিসোর্স পেজ।
- কন্টেন্টসাইটের (বিষয়বস্তু) সার্চ সিস্টেমের ডাটাবেসে (সূচী) রেকর্ড করা হয়।
- 2-4 সপ্তাহের মধ্যে, ডাটাবেস আপডেট করার পরে, আপনি ফলাফল দেখতে পাবেন। আপনার সাইট অনুসন্ধান ফলাফলে প্রদর্শিত হবে (বা হবে না)৷
ইনডেক্সিং চেক
ওয়েবসাইট ইনডেক্সিং কিভাবে চেক করবেন? এটি করার তিনটি উপায় রয়েছে:
- অনুসন্ধান বারে আপনার ব্যবসার নাম লিখুন (উদাহরণস্বরূপ, "ইয়ানডেক্স") এবং প্রথম এবং দ্বিতীয় পৃষ্ঠায় প্রতিটি লিঙ্ক চেক করুন৷ আপনি যদি সেখানে আপনার ব্রেনচাইল্ডের URL খুঁজে পান, তাহলে রোবটটি তার কাজ শেষ করেছে৷
- আপনি অনুসন্ধান বারে আপনার ওয়েবসাইটের URL লিখতে পারেন৷ আপনি দেখতে সক্ষম হবেন কতগুলি ইন্টারনেট শীট দেখানো হয়েছে, যেমন সূচীকৃত৷
- Mail.ru, Google, Yandex-এ ওয়েবমাস্টারদের পৃষ্ঠাগুলিতে নিবন্ধন করুন৷ আপনি সাইট ভেরিফিকেশন পাস করার পর, আপনি আপনার রিসোর্সের পারফরম্যান্স উন্নত করতে তৈরি করা ইন্ডেক্সিং ফলাফল এবং অন্যান্য সার্চ ইঞ্জিন পরিষেবা দেখতে সক্ষম হবেন।
ইয়ানডেক্স কেন ব্যর্থ হয়?
Google-এ একটি সাইটের সূচীকরণ নিম্নরূপ: রোবট সাইটটির সমস্ত পৃষ্ঠা, নিম্ন-মানের এবং উচ্চ-মানের, নির্বাচন না করেই ডাটাবেসে প্রবেশ করে। কিন্তু শুধুমাত্র দরকারী নথি র্যাঙ্কিং অন্তর্ভুক্ত করা হয়. এবং "Yandex" অবিলম্বে সমস্ত ওয়েব ট্র্যাশ বাদ দেয়। এটি যেকোনো পৃষ্ঠাকে সূচী করতে পারে, কিন্তু সার্চ ইঞ্জিন অবশেষে সমস্ত আবর্জনা মুছে ফেলবে।
উভয় সিস্টেমেই একটি ক্রমবর্ধমান সূচক রয়েছে। উভয় নিম্ন মানের পৃষ্ঠাগুলি সামগ্রিকভাবে ওয়েব সাইটের র্যাঙ্কিংকে প্রভাবিত করে। এখানে কাজের একটি সহজ দর্শন আছে। একটি নির্দিষ্ট প্রিয় সম্পদব্যবহারকারী তার ইস্যুতে উচ্চ পদে অধিষ্ঠিত হবেন। কিন্তু এই একই ব্যক্তির এমন একটি সাইট খুঁজে পেতে কষ্ট হবে যা তিনি গতবার পছন্দ করেননি।
তাই, প্রথমে, ওয়েব ডকুমেন্টের কপিগুলিকে ইন্ডেক্সিং থেকে কভার করা, খালি পৃষ্ঠাগুলি পরীক্ষা করা এবং নিম্ন-মানের সামগ্রীকে ইন্ডেক্স করা থেকে বিরত রাখা প্রয়োজন৷
ইয়ানডেক্সের গতি বাড়ান
আমি কিভাবে ইয়ানডেক্সে সাইট ইন্ডেক্সিং এর গতি বাড়াতে পারি? এই পদক্ষেপগুলি অনুসরণ করুন:
- আপনার কম্পিউটারে ইয়ানডেক্স ব্রাউজার ইনস্টল করুন এবং সাইটের পৃষ্ঠাগুলি ব্রাউজ করতে এটি ব্যবহার করুন।
- Yandex. Webmaster-এ সম্পদ পরিচালনার অধিকার নিশ্চিত করুন।
- টুইটারে নিবন্ধটির একটি লিঙ্ক পোস্ট করুন। এটা জানা যায় যে ইয়ানডেক্স 2012 সাল থেকে এই কোম্পানির সাথে সহযোগিতা করছে।
- সাইটের জন্য Yandex থেকে অনুসন্ধান যোগ করুন। "সূচীকরণ" বিভাগে, আপনি নিজের URL লিখতে পারেন৷
- "ইনডেক্সিংয়ের জন্য পৃষ্ঠাগুলি জমা দেওয়া নিষিদ্ধ" টিক না দিয়ে "Yandex. Metrica" কোডটি প্রবেশ করান৷
- একটি সাইটম্যাপ তৈরি করুন যা শুধুমাত্র রোবটের জন্য বিদ্যমান এবং দর্শকদের কাছে দৃশ্যমান নয়৷ তাকে দিয়েই যাচাই-বাছাই শুরু হবে। সাইটম্যাপ ঠিকানাটি robots.txt-এ বা "ওয়েবমাস্টার" - "ইনডেক্সিং সেটিংস" - "সাইটম্যাপ ফাইল"-এ উপযুক্ত ফর্মে প্রবেশ করানো হয়েছে৷
মধ্যবর্তী কর্ম
ইয়ানডেক্স দ্বারা ওয়েব পৃষ্ঠাটি ইন্ডেক্স না করা পর্যন্ত কী করা দরকার? গার্হস্থ্য সার্চ ইঞ্জিনের উচিত সাইটটিকে প্রাথমিক উৎস হিসেবে বিবেচনা করা। সেজন্য নিবন্ধটি প্রকাশের আগেও এর বিষয়বস্তু "নির্দিষ্ট পাঠ্য" আকারে যুক্ত করা অপরিহার্য। অন্যথায়চুরিকারীরা তাদের রিসোর্সে রেকর্ড কপি করবে এবং ডাটাবেসে প্রথম হবে। ফলস্বরূপ, তারা লেখক হিসাবে স্বীকৃত হবে।
Google ডেটাবেস
Google-এর জন্য, আমরা উপরে বর্ণিত একই সুপারিশগুলি উপযুক্ত, শুধুমাত্র পরিষেবাগুলি আলাদা হবে:
- Google+ (টুইটার প্রতিস্থাপন);
- Google Chrome;
- প্রোগ্রামারদের জন্য গুগল টুল - "স্ক্যান" - "গুগলবটের মতো দেখতে" - বিকল্প "স্ক্যান" - বিকল্প "সূচক";
- Google থেকে একটি সংস্থানের মধ্যে অনুসন্ধান করুন;
- Google Analytics (Yandex. Metrics এর পরিবর্তে)।
নিষেধ
একটি সাইট ইনডেক্সিং ব্যান কি? আপনি এটিকে পুরো পৃষ্ঠায় এবং এর একটি পৃথক অংশে (লিঙ্ক বা পাঠ্যের অংশ) উভয়ই ওভারলে করতে পারেন। প্রকৃতপক্ষে, একটি বিশ্বব্যাপী সূচীকরণ নিষিদ্ধ এবং একটি স্থানীয় উভয়ই রয়েছে। এটা কিভাবে বাস্তবায়িত হয়?
আসুন Robots.txt-এ সার্চ ইঞ্জিন ডাটাবেসে একটি ওয়েব সাইট যোগ করার নিষেধাজ্ঞা বিবেচনা করা যাক। robots.txt ফাইল ব্যবহার করে, আপনি একটি পৃষ্ঠার ইন্ডেক্সিং বা সম্পূর্ণ রিসোর্স শিরোনাম বাদ দিতে পারেন:
- ব্যবহারকারী-এজেন্ট:
- অস্বীকৃতি: /kolobok.html
- অস্বীকৃতি: /foto/
প্রথম পয়েন্টটি বলে যে নির্দেশাবলী সমস্ত PS-এর জন্য সংজ্ঞায়িত করা হয়েছে, দ্বিতীয়টি নির্দেশ করে যে kolobok.html ফাইলের ইন্ডেক্সিং নিষিদ্ধ, এবং তৃতীয়টি ফটো ফোল্ডারের সম্পূর্ণ স্টাফিং যুক্ত করার অনুমতি দেয় না তথ্যশালা. আপনার যদি একাধিক পৃষ্ঠা বা ফোল্ডার বাদ দিতে হয়, অনুগ্রহ করে সেগুলিকে রোবটে উল্লেখ করুন৷
একটি নির্দিষ্ট ইন্টারনেট শীটের ইন্ডেক্সিং প্রতিরোধ করার জন্য, আপনি রোবট মেটা ট্যাগ ব্যবহার করতে পারেন। এটি robots.txt থেকে আলাদাসত্য যে এটি সমস্ত পিএসকে একবারে নির্দেশ দেয়। এই মেটা ট্যাগটি html ফরম্যাটের সাধারণ নীতি অনুসরণ করে। এটি ট্যাগগুলির মধ্যে পৃষ্ঠার শিরোনামে স্থাপন করা উচিত। একটি নিষেধাজ্ঞার জন্য একটি এন্ট্রি, উদাহরণস্বরূপ, এভাবে লেখা হতে পারে:.
Ajax
ইয়ানডেক্স কিভাবে Ajax সাইটগুলিকে সূচী করে? আজ, Ajax প্রযুক্তি অনেক ওয়েব সাইট ডেভেলপার দ্বারা ব্যবহৃত হয়। অবশ্যই, তার দুর্দান্ত সম্ভাবনা রয়েছে। এটির সাহায্যে, আপনি দ্রুত এবং উত্পাদনশীল ইন্টারেক্টিভ ওয়েব পেজ তৈরি করতে পারেন৷
তবে, সার্চ ইঞ্জিন রোবট ওয়েব তালিকাকে ব্যবহারকারী এবং ব্রাউজারের চেয়ে ভিন্নভাবে "দেখে"। উদাহরণস্বরূপ, একজন ব্যক্তি চলমানভাবে লোড করা ইন্টারনেট শীট সহ একটি আরামদায়ক ইন্টারফেসের দিকে তাকায়। একটি ক্রলারের জন্য, একই পৃষ্ঠার বিষয়বস্তু খালি হতে পারে বা বাকি স্থির HTML সামগ্রী হিসাবে উপস্থাপন করা যেতে পারে, যার জন্য স্ক্রিপ্টগুলি কাজ করে না৷
আপনি Ajax সাইট তৈরি করতেদিয়ে একটি URL ব্যবহার করতে পারেন, কিন্তু সার্চ ইঞ্জিন এটি ব্যবহার করে না। সাধারণতএর পর URL এর অংশ আলাদা করা হয়। এই বিবেচনায় নেওয়া আবশ্যক. অতএব, https://site.ru/example-এর মতো URL-এর পরিবর্তে, তিনি https://site.ru-এ অবস্থিত সংস্থানের মূল পৃষ্ঠায় একটি আবেদন করেন। এর মানে হল যে ইন্টারনেট শীটের বিষয়বস্তু ডাটাবেসে নাও যেতে পারে। ফলস্বরূপ, এটি অনুসন্ধান ফলাফলে প্রদর্শিত হবে না৷
Ajax সাইটের ইন্ডেক্সিং উন্নত করতে, Yandex সার্চ রোবটে পরিবর্তন এবং এই ধরনের ওয়েব সাইটের URL প্রক্রিয়াকরণের নিয়ম সমর্থন করে। আজ, ওয়েবমাস্টাররা সংস্থান কাঠামোতে একটি উপযুক্ত স্কিম তৈরি করে ইয়ানডেক্স অনুসন্ধান ইঞ্জিনকে সূচীকরণের প্রয়োজনীয়তা নির্দেশ করতে পারে। এর জন্য আপনার প্রয়োজন:
- পৃষ্ঠাগুলির URL-এপ্রতীকটি প্রতিস্থাপন করুনউপরে !. এখন রোবট বুঝতে পারবে যে এটি এই ইন্টারনেট শীটের বিষয়বস্তুর HTML সংস্করণের জন্য আবেদন করতে পারে৷
- এইচটিএমএল সংস্করণের এই ধরনের একটি পৃষ্ঠার বিষয়বস্তু একটি URL-এ স্থাপন করা উচিত যেখানে ! ?_escaped_fragment_=দিয়ে প্রতিস্থাপিত হয়েছে।