কিভাবে robots.txt-এ একটি সাইটকে ইন্ডেক্স করা থেকে ব্লক করবেন: নির্দেশাবলী এবং সুপারিশ

সুচিপত্র:

কিভাবে robots.txt-এ একটি সাইটকে ইন্ডেক্স করা থেকে ব্লক করবেন: নির্দেশাবলী এবং সুপারিশ
কিভাবে robots.txt-এ একটি সাইটকে ইন্ডেক্স করা থেকে ব্লক করবেন: নির্দেশাবলী এবং সুপারিশ
Anonim

একটি SEO-অপ্টিমাইজারের কাজটি অনেক বড় আকারের। নতুনদের অপ্টিমাইজেশান অ্যালগরিদম লিখে রাখার পরামর্শ দেওয়া হচ্ছে যাতে কোনও পদক্ষেপ মিস না হয়৷ অন্যথায়, প্রচারটিকে খুব কমই সফল বলা হবে, যেহেতু সাইটটি ক্রমাগত ব্যর্থতা এবং ত্রুটিগুলি অনুভব করবে যা দীর্ঘ সময়ের জন্য সংশোধন করতে হবে৷

অপ্টিমাইজেশনের একটি ধাপ হচ্ছে robots.txt ফাইলের সাথে কাজ করা। প্রতিটি সংস্থান এই নথি থাকা উচিত, কারণ এটি ছাড়া অপ্টিমাইজেশানের সাথে মানিয়ে নেওয়া আরও কঠিন হবে। এটি অনেক ফাংশন সঞ্চালন করে যা আপনাকে বুঝতে হবে৷

রোবট সহকারী

robots.txt ফাইলটি একটি প্লেইন টেক্সট ডকুমেন্ট যা সিস্টেমের স্ট্যান্ডার্ড নোটপ্যাডে দেখা যায়। এটি তৈরি করার সময়, আপনাকে অবশ্যই UTF-8 এ এনকোডিং সেট করতে হবে যাতে এটি সঠিকভাবে পড়া যায়। ফাইলটি http, https এবং FTP প্রোটোকলের সাথে কাজ করে৷

এই নথিটি রোবট অনুসন্ধানের সহায়ক। যদি আপনি না জানেন, প্রতিটি সিস্টেম "মাকড়সা" ব্যবহার করে যা দ্রুত ওয়ার্ল্ড ওয়াইড ওয়েবে ক্রল করে প্রশ্নের জন্য প্রাসঙ্গিক সাইটগুলি ফেরত দেয়৷ব্যবহারকারীদের এই রোবটগুলির অবশ্যই সংস্থান ডেটাতে অ্যাক্সেস থাকতে হবে, এর জন্য robots.txt কাজ করে৷

মাকড়সা তাদের পথ খুঁজে পাওয়ার জন্য, আপনাকে robots.txt নথিটি রুট ডিরেক্টরিতে পাঠাতে হবে। সাইটে এই ফাইলটি আছে কিনা তা পরীক্ষা করতে, ব্রাউজারের ঠিকানা বারে "https://site.com.ua/robots.txt" লিখুন। "site.com.ua" এর পরিবর্তে আপনাকে আপনার প্রয়োজনীয় সংস্থান লিখতে হবে।

robots.txt এর সাথে কাজ করা
robots.txt এর সাথে কাজ করা

ডকুমেন্ট ফাংশন

robots.txt ফাইলটি ক্রলারদের বিভিন্ন ধরনের তথ্য প্রদান করে। এটি আংশিক অ্যাক্সেস দিতে পারে যাতে "মাকড়সা" সম্পদের নির্দিষ্ট উপাদান স্ক্যান করে। সম্পূর্ণ অ্যাক্সেস আপনাকে সমস্ত উপলব্ধ পৃষ্ঠাগুলি পরীক্ষা করার অনুমতি দেয়। একটি সম্পূর্ণ নিষেধাজ্ঞা রোবটগুলিকে এমনকি পরীক্ষা করা শুরু করতে বাধা দেয় এবং তারা সাইটটি ছেড়ে চলে যায়৷

সম্পদ পরিদর্শন করার পরে, "মাকড়সা" অনুরোধের উপযুক্ত প্রতিক্রিয়া পায়৷ তাদের মধ্যে বেশ কয়েকটি থাকতে পারে, এটি সবই নির্ভর করে robots.txt-এর তথ্যের উপর। উদাহরণস্বরূপ, স্ক্যান সফল হলে, রোবটটি 2xx কোড পাবে।

সম্ভবত সাইটটিকে এক পৃষ্ঠা থেকে অন্য পৃষ্ঠায় পুনঃনির্দেশিত করা হয়েছে৷ এই ক্ষেত্রে, রোবট 3xx কোড পায়। যদি এই কোডটি একাধিকবার ঘটে, তবে মাকড়সাটি এটি অনুসরণ করবে যতক্ষণ না এটি অন্য প্রতিক্রিয়া পায়। যদিও, একটি নিয়ম হিসাবে, তিনি শুধুমাত্র 5 প্রচেষ্টা ব্যবহার করেন। অন্যথায়, জনপ্রিয় 404 ত্রুটি প্রদর্শিত হবে৷

যদি উত্তরটি 4xx হয়, তাহলে রোবটটিকে সাইটের সম্পূর্ণ বিষয়বস্তু ক্রল করার অনুমতি দেওয়া হয়। কিন্তু 5xx কোডের ক্ষেত্রে, চেক সম্পূর্ণভাবে বন্ধ হয়ে যেতে পারে, কারণ এটি প্রায়শই অস্থায়ী সার্ভার ত্রুটি নির্দেশ করে।

অনুসন্ধান রোবট
অনুসন্ধান রোবট

কিসের জন্যrobots.txt দরকার?

আপনি যেমন অনুমান করেছেন, এই ফাইলটি হল সাইটের মূলের জন্য রোবটের নির্দেশিকা৷ এখন এটি অনুপযুক্ত সামগ্রীতে আংশিকভাবে অ্যাক্সেস সীমাবদ্ধ করতে ব্যবহৃত হয়:

  • ব্যবহারকারীদের ব্যক্তিগত তথ্য সহ পৃষ্ঠা;
  • মিরর সাইট;
  • অনুসন্ধান ফলাফল;
  • ডেটা জমা দেওয়ার ফর্ম, ইত্যাদি।

সাইট রুটে কোনো robots.txt ফাইল না থাকলে, রোবট সম্পূর্ণরূপে সমস্ত সামগ্রী ক্রল করবে৷ তদনুসারে, অনুসন্ধান ফলাফলগুলিতে অবাঞ্ছিত ডেটা উপস্থিত হতে পারে, যার অর্থ আপনি এবং সাইট উভয়ই ক্ষতিগ্রস্ত হবেন৷ যদি robots.txt নথিতে বিশেষ নির্দেশনা থাকে, তাহলে "মাকড়সা" সেগুলি অনুসরণ করবে এবং সম্পদের মালিকের কাঙ্খিত তথ্য দেবে৷

একটি ফাইলের সাথে কাজ করা

ইনডেক্সিং থেকে সাইটটিকে ব্লক করতে robots.txt ব্যবহার করতে, আপনাকে এই ফাইলটি কীভাবে তৈরি করতে হবে তা বের করতে হবে। এটি করতে, নির্দেশাবলী অনুসরণ করুন:

  1. নোটপ্যাড বা নোটপ্যাড++ এ একটি নথি তৈরি করুন।
  2. ফাইল এক্সটেনশন ".txt" সেট করুন।
  3. প্রয়োজনীয় ডেটা এবং কমান্ড লিখুন।
  4. নথিটি সংরক্ষণ করুন এবং সাইট রুটে আপলোড করুন৷

যেমন আপনি দেখতে পাচ্ছেন, একটি পর্যায়ে রোবটের জন্য কমান্ড সেট করা প্রয়োজন। এগুলি দুই প্রকার: অনুমতি দেওয়া (অনুমতি দেওয়া) এবং নিষেধ করা (অস্বীকার করা)। এছাড়াও, কিছু অপ্টিমাইজার ক্রল গতি, হোস্ট এবং রিসোর্সের পৃষ্ঠা মানচিত্রের লিঙ্ক নির্দিষ্ট করতে পারে।

কিভাবে ইনডেক্সিং থেকে একটি সাইট বন্ধ করবেন
কিভাবে ইনডেক্সিং থেকে একটি সাইট বন্ধ করবেন

robots.txt এর সাথে কাজ শুরু করতে এবং সাইটটিকে ইন্ডেক্সিং থেকে সম্পূর্ণরূপে ব্লক করতে, আপনাকে অবশ্যই ব্যবহৃত প্রতীকগুলি বুঝতে হবে। উদাহরণস্বরূপ, একটি নথিতে"/" ব্যবহার করুন, যা নির্দেশ করে যে পুরো সাইটটি নির্বাচিত হয়েছে। যদি "" ব্যবহার করা হয়, তাহলে অক্ষরের একটি ক্রম প্রয়োজন। এইভাবে, একটি নির্দিষ্ট ফোল্ডার নির্দিষ্ট করা সম্ভব হবে যা হয় স্ক্যান করা যায় বা না হয়।

বটগুলির বৈশিষ্ট্য

সার্চ ইঞ্জিনের জন্য "স্পাইডার" আলাদা, তাই আপনি যদি একসাথে একাধিক সার্চ ইঞ্জিনের জন্য কাজ করেন, তাহলে আপনাকে এই মুহূর্তটি বিবেচনায় নিতে হবে। তাদের নামগুলি আলাদা, যার মানে হল যে আপনি যদি একটি নির্দিষ্ট রোবটের সাথে যোগাযোগ করতে চান তবে আপনাকে এর নাম উল্লেখ করতে হবে: "ব্যবহারকারী এজেন্ট: ইয়ানডেক্স" (কোট ছাড়াই)।

আপনি যদি সমস্ত সার্চ ইঞ্জিনের জন্য নির্দেশাবলী সেট করতে চান, তাহলে আপনাকে কমান্ডটি ব্যবহার করতে হবে: "ব্যবহারকারী এজেন্ট: " (উদ্ধৃতি ছাড়া)। robots.txt ব্যবহার করে সাইটটিকে সঠিকভাবে সূচীকরণ থেকে ব্লক করার জন্য, আপনাকে জনপ্রিয় সার্চ ইঞ্জিনগুলির সুনির্দিষ্ট বিষয়গুলি জানতে হবে৷

সত্যি হল যে সবচেয়ে জনপ্রিয় সার্চ ইঞ্জিন ইয়ানডেক্স এবং গুগলের বেশ কয়েকটি বট রয়েছে। তাদের প্রত্যেকের নিজস্ব কাজ আছে। উদাহরণস্বরূপ, ইয়ানডেক্স বট এবং গুগলবট হল প্রধান "মাকড়সা" যা সাইটটি ক্রল করে। সমস্ত বট জানা থাকলে, আপনার সংস্থানগুলির সূচীকে সূক্ষ্ম-টিউন করা সহজ হবে৷

কিভাবে robots.txt ফাইল কাজ করে
কিভাবে robots.txt ফাইল কাজ করে

উদাহরণ

সুতরাং, robots.txt-এর সাহায্যে, আপনি সাধারণ কমান্ডের মাধ্যমে সূচীকরণ থেকে সাইটটি বন্ধ করতে পারেন, প্রধান জিনিসটি হল আপনার বিশেষভাবে কী প্রয়োজন তা বোঝা। উদাহরণস্বরূপ, আপনি যদি চান যে Googlebot আপনার সংস্থানের কাছে না আসে, তাহলে আপনাকে এটিকে যথাযথ কমান্ড দিতে হবে। এটি দেখতে এরকম হবে: "ব্যবহারকারী-এজেন্ট: Googlebot Disallow: /" (কোট ছাড়াই)।

এখন আমাদের বুঝতে হবে এই কমান্ডে কী আছে এবং এটি কীভাবে কাজ করে। তাই "ব্যবহারকারী-এজেন্ট"বটগুলির একটিতে সরাসরি কল ব্যবহার করার জন্য ব্যবহার করা হয়। এর পরে, আমরা কোনটিকে নির্দেশ করি, আমাদের ক্ষেত্রে এটি Google। "অস্বীকার করুন" কমান্ডটি অবশ্যই একটি নতুন লাইনে শুরু হবে এবং রোবটটিকে সাইটে প্রবেশ করা নিষিদ্ধ করবে৷ এই ক্ষেত্রে স্ল্যাশ চিহ্ন নির্দেশ করে যে সংস্থানের সমস্ত পৃষ্ঠা কমান্ড কার্যকর করার জন্য নির্বাচিত হয়েছে।

robots.txt কিসের জন্য?
robots.txt কিসের জন্য?

robots.txt-এ, আপনি একটি সাধারণ কমান্ড দিয়ে সমস্ত সার্চ ইঞ্জিনের জন্য ইন্ডেক্সিং অক্ষম করতে পারেন: "ব্যবহারকারী-এজেন্ট:অস্বীকৃতি: /" (উদ্ধৃতি ছাড়া)। এই ক্ষেত্রে তারকাচিহ্ন অক্ষরটি সমস্ত অনুসন্ধান রোবটকে নির্দেশ করে। সাধারণত, সাইটের সূচীকরণকে বিরতি দিতে এবং এটিতে মূল কাজ শুরু করার জন্য এই ধরনের কমান্ডের প্রয়োজন হয়, যা অন্যথায় অপ্টিমাইজেশানকে প্রভাবিত করতে পারে।

যদি সংস্থানটি বড় হয় এবং এতে অনেকগুলি পৃষ্ঠা থাকে তবে এতে প্রায়শই মালিকানা সংক্রান্ত তথ্য থাকে যা প্রকাশ করা অবাঞ্ছিত, অথবা এটি প্রচারকে নেতিবাচকভাবে প্রভাবিত করতে পারে। এই ক্ষেত্রে, আপনাকে বুঝতে হবে কিভাবে robots.txt-এ ইন্ডেক্সিং থেকে পেজ বন্ধ করতে হয়।

আপনি একটি ফোল্ডার বা ফাইল লুকাতে পারেন৷ প্রথম ক্ষেত্রে, আপনাকে একটি নির্দিষ্ট বট বা সবার সাথে যোগাযোগ করে আবার শুরু করতে হবে, তাই আমরা "ব্যবহারকারী-এজেন্ট" কমান্ড ব্যবহার করি এবং নীচে আমরা একটি নির্দিষ্ট ফোল্ডারের জন্য "অস্বীকৃতি" কমান্ডটি নির্দিষ্ট করি। এটি এই মত দেখাবে: "অস্বীকৃতি: / ফোল্ডার /" (কোট ছাড়া)। এইভাবে আপনি পুরো ফোল্ডারটি লুকান। যদি এটিতে কিছু গুরুত্বপূর্ণ ফাইল থাকে যা আপনি দেখাতে চান, তাহলে আপনাকে নীচের কমান্ডটি লিখতে হবে: "অনুমতি দিন: /folder/file.php" (কোট ছাড়াই)।

ফাইল চেক করুন

যদি robots.txt ব্যবহার করে সাইটটি বন্ধ করেআপনি সূচীকরণে সফল হয়েছেন, কিন্তু আপনার সমস্ত নির্দেশ সঠিকভাবে কাজ করেছে কিনা তা আপনি জানেন না, আপনি কাজের সঠিকতা পরীক্ষা করতে পারেন।

প্রথমে, আপনাকে আবার ডকুমেন্টের প্লেসমেন্ট চেক করতে হবে। মনে রাখবেন যে এটি একচেটিয়াভাবে রুট ফোল্ডারে থাকা আবশ্যক। যদি এটি রুট ফোল্ডারে থাকে তবে এটি কাজ করবে না। এরপরে, ব্রাউজার খুলুন এবং সেখানে নিম্নলিখিত ঠিকানা লিখুন: “https://yoursite. com/robots.txt (কোট ছাড়া)। আপনি যদি আপনার ওয়েব ব্রাউজারে একটি ত্রুটি পান, তাহলে ফাইলটি যেখানে থাকা উচিত সেখানে নেই৷

কিভাবে ইনডেক্সিং থেকে একটি ফোল্ডার বন্ধ করবেন
কিভাবে ইনডেক্সিং থেকে একটি ফোল্ডার বন্ধ করবেন

নির্দেশগুলি বিশেষ সরঞ্জামগুলিতে চেক করা যেতে পারে যা প্রায় সমস্ত ওয়েবমাস্টার ব্যবহার করে। আমরা গুগল এবং ইয়ানডেক্স পণ্য সম্পর্কে কথা বলছি। উদাহরণস্বরূপ, গুগল সার্চ কনসোলে একটি টুলবার রয়েছে যেখানে আপনাকে "ক্রল" খুলতে হবে এবং তারপরে "Robots.txt ফাইল পরিদর্শন টুল" চালাতে হবে। আপনাকে ডকুমেন্ট থেকে উইন্ডোতে সমস্ত ডেটা কপি করতে হবে এবং স্ক্যান করা শুরু করতে হবে। ঠিক একই চেক Yandex. Webmaster এ করা যেতে পারে।

প্রস্তাবিত: