কীভাবে Robots.txt সঠিকভাবে সেট আপ করবেন?

সুচিপত্র:

কীভাবে Robots.txt সঠিকভাবে সেট আপ করবেন?
কীভাবে Robots.txt সঠিকভাবে সেট আপ করবেন?
Anonim

html সাইটের জন্য সঠিক রোবট txt সার্চ ইঞ্জিন বটগুলির জন্য অ্যাকশন মকআপ তৈরি করে, তাদের বলে যে তারা কী পরীক্ষা করতে পারে। এই ফাইলটিকে প্রায়ই রোবট এক্সক্লুশন প্রোটোকল হিসাবে উল্লেখ করা হয়। একটি ওয়েবসাইট ক্রল করার আগে বট প্রথম যে জিনিসটি খোঁজেন তা হল robots.txt। এটি নির্দিষ্ট সাবডোমেন চেক না করার জন্য সাইটম্যাপকে নির্দেশ করতে বা বলতে পারে। আপনি যখন সার্চ ইঞ্জিনগুলি প্রায়শই যা পাওয়া যায় তার জন্য অনুসন্ধান করতে চান, তখন robots.txt এর প্রয়োজন নেই৷ এই প্রক্রিয়ায় এটি খুবই গুরুত্বপূর্ণ যে ফাইলটি সঠিকভাবে ফরম্যাট করা হয়েছে এবং ব্যবহারকারীর ব্যক্তিগত ডেটার সাথে ব্যবহারকারীর পৃষ্ঠাটি সূচীভুক্ত করে না।

রোবট স্ক্যানিং নীতি

রোবট স্ক্যানিং এর নীতি
রোবট স্ক্যানিং এর নীতি

যখন একটি সার্চ ইঞ্জিন একটি ফাইলের মুখোমুখি হয় এবং একটি নিষিদ্ধ URL দেখে, এটি এটিকে ক্রল করে না, তবে এটি এটিকে সূচী করতে পারে৷ কারণ রোবটদের বিষয়বস্তু দেখার অনুমতি না থাকলেও তারা নিষিদ্ধ ইউআরএলের দিকে নির্দেশ করে ব্যাকলিংক মনে রাখতে পারে। লিঙ্কে ব্লকড অ্যাক্সেসের কারণে, ইউআরএল সার্চ ইঞ্জিনে প্রদর্শিত হবে, কিন্তু টুকরা ছাড়াই। যদি একটিইনকামিং মার্কেটিং কৌশলের জন্য, বিট্রিক্স (বিট্রিক্স) এর জন্য সঠিক রোবট txt প্রয়োজন, তারা স্ক্যানার দ্বারা ব্যবহারকারীর অনুরোধে সাইট যাচাই প্রদান করে।

অন্যদিকে, যদি ফাইলটি সঠিকভাবে ফরম্যাট করা না হয়, তাহলে এর ফলে সাইটটি অনুসন্ধানের ফলাফলে প্রদর্শিত হবে না এবং খুঁজে পাওয়া যাবে না। অনুসন্ধান ইঞ্জিন এই ফাইল বাইপাস করতে পারে না. একজন প্রোগ্রামার যেকোন সাইটের robots.txt দেখতে তার ডোমেনে গিয়ে robots.txt এর মাধ্যমে অনুসরণ করতে পারে, উদাহরণস্বরূপ, www.domain.com/robots.txt। Unamo-এর এসইও অপ্টিমাইজেশন সেকশনের মতো একটি টুল ব্যবহার করে, যেখানে আপনি যেকোনো ডোমেনে প্রবেশ করতে পারবেন এবং পরিষেবাটি ফাইলটির অস্তিত্ব সম্পর্কে তথ্য দেখাবে।

স্ক্যান করার জন্য বিধিনিষেধ:

  1. ব্যবহারকারীর পুরানো বা সংবেদনশীল সামগ্রী রয়েছে৷
  2. সাইটের চিত্রগুলি চিত্র অনুসন্ধান ফলাফলে অন্তর্ভুক্ত করা হবে না৷
  3. সাইটটি এখনও রোবট দ্বারা সূচিবদ্ধ করার জন্য ডেমোর জন্য প্রস্তুত নয়৷

মনে রাখবেন যে একজন ব্যবহারকারী সার্চ ইঞ্জিন থেকে যে তথ্য পেতে চান তা যে কেউ URL এ প্রবেশ করে তার জন্য উপলব্ধ। সংবেদনশীল তথ্য লুকানোর জন্য এই টেক্সট ফাইল ব্যবহার করবেন না. যদি ডোমেনে একটি 404 (পাওয়া যায়নি) বা 410 (পাস করা) ত্রুটি থাকে, সার্চ ইঞ্জিন robots.txt থাকা সত্ত্বেও সাইটটি পরীক্ষা করে, এই ক্ষেত্রে এটি বিবেচনা করে যে ফাইলটি অনুপস্থিত। অন্যান্য ত্রুটি যেমন 500 (অভ্যন্তরীণ সার্ভার ত্রুটি), 403 (নিষিদ্ধ), সময় শেষ, বা "উপলব্ধ নয়" robots.txt নির্দেশাবলীর প্রতি শ্রদ্ধাশীল, তবে ফাইলটি উপলব্ধ না হওয়া পর্যন্ত বাইপাস বিলম্বিত হতে পারে৷

একটি অনুসন্ধান ফাইল তৈরি করা হচ্ছে

একটি অনুসন্ধান ফাইল তৈরি করা হচ্ছে
একটি অনুসন্ধান ফাইল তৈরি করা হচ্ছে

অনেকওয়ার্ডপ্রেসের মতো CMS প্রোগ্রামে ইতিমধ্যেই একটি robots.txt ফাইল রয়েছে। সঠিকভাবে রোবট txt ওয়ার্ডপ্রেস কনফিগার করার আগে, ব্যবহারকারীকে কীভাবে এটি অ্যাক্সেস করা যায় তা বের করার জন্য এর ক্ষমতাগুলির সাথে নিজেদের পরিচিত করতে হবে। যদি প্রোগ্রামার নিজেই ফাইলটি তৈরি করে তবে এটি অবশ্যই নিম্নলিখিত শর্তগুলি পূরণ করবে:

  1. অবশ্যই ছোট হাতের মধ্যে হতে হবে।
  2. UTF-8 এনকোডিং ব্যবহার করুন।
  3. টেক্সট এডিটরে ফাইল (.txt) হিসেবে সংরক্ষণ করুন।

যখন একজন ব্যবহারকারী জানে না কোথায় এটি স্থাপন করতে হবে, তারা ওয়েব সার্ভার সফ্টওয়্যার বিক্রেতার সাথে যোগাযোগ করে কিভাবে একটি ডোমেনের রুট অ্যাক্সেস করতে হয় বা Google কনসোলে গিয়ে এটি ডাউনলোড করে। এই ফাংশনের সাহায্যে, Google বটটি সঠিকভাবে কাজ করছে কিনা এবং ফাইলটি ব্যবহার করে ব্লক করা সাইটগুলির তালিকাও পরীক্ষা করতে পারে৷

বিট্রিক্সের (বিট্রিক্স) জন্য সঠিক রোবট txt-এর প্রধান বিন্যাস:

  1. লিজেন্ড robots.txt.
  2. , মন্তব্য যোগ করে যেগুলি শুধুমাত্র নোট হিসাবে ব্যবহৃত হয়৷
  3. এই মন্তব্যগুলি স্ক্যানারদের দ্বারা উপেক্ষা করা হবে এবং কোনও ব্যবহারকারীর টাইপ ভুল হবে৷
  4. ব্যবহারকারী-এজেন্ট - ফাইলের নির্দেশাবলী কোন সার্চ ইঞ্জিনে তালিকাভুক্ত করা হয়েছে তা নির্দেশ করে৷
  5. একটি তারকাচিহ্ন () যোগ করা স্ক্যানারকে বলে যে নির্দেশাবলী সবার জন্য।

একটি নির্দিষ্ট বট নির্দেশ করে, উদাহরণস্বরূপ, Googlebot, Baiduspider, Applebot। Disallow ক্রলারদের বলে যে ওয়েবসাইটের কোন অংশগুলি ক্রল করা উচিত নয়৷ এটা এই মত দেখায়: ব্যবহারকারী-এজেন্ট:. তারকাচিহ্নের অর্থ "সমস্ত বট"। যাইহোক, আপনি নির্দিষ্ট জন্য পৃষ্ঠা নির্দিষ্ট করতে পারেনবট এটি করার জন্য, আপনাকে সেই বটের নাম জানতে হবে যার জন্য সুপারিশ সেট করা হয়েছে।

ইয়ানডেক্সের জন্য সঠিক রোবট txt দেখতে এইরকম হতে পারে:

ইয়ানডেক্সের জন্য সঠিক রোবট txt
ইয়ানডেক্সের জন্য সঠিক রোবট txt

যদি বটটি সাইটটি ক্রল না করে, আপনি এটি নির্দিষ্ট করতে পারেন এবং ব্যবহারকারী এজেন্টদের নাম খুঁজে পেতে, useragentstring.com-এর অনলাইন ক্ষমতাগুলির সাথে নিজেকে পরিচিত করার পরামর্শ দেওয়া হয়৷

পৃষ্ঠা অপ্টিমাইজেশান

পৃষ্ঠা অপ্টিমাইজেশান
পৃষ্ঠা অপ্টিমাইজেশান

নিম্নলিখিত দুটি লাইন একটি সম্পূর্ণ robots.txt ফাইল হিসাবে বিবেচিত হয় এবং একটি একক রোবট ফাইলে একাধিক লাইন ব্যবহারকারী এজেন্ট এবং নির্দেশাবলী থাকতে পারে যা ক্রলিং অক্ষম বা সক্ষম করে। সঠিক রোবট txt এর প্রধান বিন্যাস:

  1. ব্যবহারকারী এজেন্ট: [এজেন্ট ব্যবহারকারীর নাম]।
  2. অনুমতি দিন: [ইউআরএল স্ট্রিং যা ক্রল করা হয়নি]।

ফাইলটিতে, নির্দেশাবলীর প্রতিটি ব্লক একটি লাইন দ্বারা পৃথক পৃথক হিসাবে প্রদর্শিত হয়। এজেন্ট ব্যবহারকারী ডিরেক্টরির পাশের ফাইলে, প্রতিটি নিয়ম বিভাগ-বিচ্ছিন্ন লাইনের একটি নির্দিষ্ট সেটে প্রয়োগ করা হয়। যদি একটি ফাইলে মাল্টি-এজেন্ট নিয়ম থাকে, তাহলে রোবট শুধুমাত্র সবচেয়ে নির্দিষ্ট গোষ্ঠীর নির্দেশাবলী বিবেচনা করবে।

প্রযুক্তিগত বাক্য গঠন

প্রযুক্তিগত সিনট্যাক্স
প্রযুক্তিগত সিনট্যাক্স

এটিকে robots.txt ফাইলের "ভাষা" হিসেবে ভাবা যেতে পারে। এই বিন্যাসে পাঁচটি পদ বিদ্যমান থাকতে পারে, প্রধানগুলি অন্তর্ভুক্ত:

  1. ব্যবহারকারী-এজেন্ট - ক্রল নির্দেশাবলী সহ ওয়েব ক্রলার, সাধারণত একটি সার্চ ইঞ্জিন।
  2. Disallow হল একটি কমান্ড যা ব্যবহারকারী এজেন্টকে বাইপাস করতে বলতে ব্যবহৃত হয়একটি নির্দিষ্ট URL এর (বাদ দেওয়া)। প্রত্যেকের জন্য শুধুমাত্র একটি নিষিদ্ধ শর্ত আছে।
  3. অনুমতি দিন। Googlebot যে অ্যাক্সেস পায় তার জন্য, এমনকি ব্যবহারকারীর পৃষ্ঠাটিও অস্বীকার করা হয়৷
  4. ক্রল-বিলম্ব - ক্রল করার আগে ক্রলারের কত সেকেন্ড লাগবে তা নির্দিষ্ট করে। যখন বট এটি নিশ্চিত করে না, গতি Google কনসোলে সেট করা হয়৷
  5. সাইটম্যাপ - একটি URL এর সাথে যুক্ত যেকোনো XML মানচিত্র সনাক্ত করতে ব্যবহৃত হয়৷

প্যাটার্ন মিল

যখন ইউআরএল ব্লক করা বা বৈধ রোবট txt-এর অনুমতি দেওয়ার কথা আসে, তখন অপারেশনগুলি বেশ জটিল হতে পারে কারণ তারা আপনাকে সম্ভাব্য ইউআরএল প্যারামিটারের একটি সংখ্যা কভার করার জন্য প্যাটার্ন ম্যাচিং ব্যবহার করার অনুমতি দেয়। গুগল এবং বিং উভয়েই দুটি অক্ষর ব্যবহার করে যা এসইও বাদ দিতে চায় এমন পৃষ্ঠা বা সাবফোল্ডার সনাক্ত করে। দুটি অক্ষর হল তারকাচিহ্ন () এবং ডলার চিহ্ন ($), যেখানে:একটি ওয়াইল্ডকার্ড যা অক্ষরের যেকোনো ক্রমকে প্রতিনিধিত্ব করে। $ - URL এর শেষের সাথে মেলে৷

Google সম্ভাব্য টেমপ্লেট সিনট্যাক্সের একটি বড় তালিকা অফার করে যা ব্যবহারকারীকে ব্যাখ্যা করে যে কীভাবে একটি রোবট txt ফাইল সঠিকভাবে সেট আপ করতে হয়। কিছু সাধারণ ব্যবহারের ক্ষেত্রে অন্তর্ভুক্ত:

  1. অনুসন্ধান ফলাফলে উপস্থিত হওয়া থেকে ডুপ্লিকেট সামগ্রী প্রতিরোধ করুন।
  2. ওয়েবসাইটের সমস্ত বিভাগ ব্যক্তিগত রাখুন।
  3. খোলা বিবৃতির উপর ভিত্তি করে অনুসন্ধান ফলাফলের অভ্যন্তরীণ পৃষ্ঠাগুলি সংরক্ষণ করুন৷
  4. অবস্থান নির্দেশ করুন।
  5. নির্দিষ্ট সূচী থেকে সার্চ ইঞ্জিন প্রতিরোধ করুনফাইল।
  6. একই সময়ে একাধিক বিষয়বস্তু এলাকা স্ক্যান করার সময় পুনরায় লোড করা বন্ধ করতে একটি ক্রল বিলম্ব নির্দিষ্ট করা।

রোবট ফাইলের উপস্থিতি পরীক্ষা করা হচ্ছে

যদি সাইটে এমন কোনো এলাকা না থাকে যা ক্রল করতে হবে, তাহলে robots.txt-এর কোনো প্রয়োজন নেই। যদি ব্যবহারকারী নিশ্চিত না হন যে এই ফাইলটি বিদ্যমান, তাহলে তাকে রুট ডোমেনে প্রবেশ করতে হবে এবং URL এর শেষে এটি টাইপ করতে হবে, এইরকম কিছু: moz.com/robots.txt। অনেকগুলি অনুসন্ধান বট এই ফাইলগুলিকে উপেক্ষা করে৷ যাইহোক, একটি নিয়ম হিসাবে, এই ক্রলারগুলি সম্মানিত সার্চ ইঞ্জিনগুলির অন্তর্গত নয়৷ এগুলি হল এক ধরণের স্প্যামার, মেল এগ্রিগেটর এবং অন্যান্য ধরণের স্বয়ংক্রিয় বট যা ইন্টারনেটে প্রচুর পরিমাণে পাওয়া যায়৷

এটা মনে রাখা খুবই গুরুত্বপূর্ণ যে রোবট এক্সক্লুশন স্ট্যান্ডার্ড ব্যবহার করা একটি কার্যকর নিরাপত্তা ব্যবস্থা নয়। আসলে, কিছু বট পৃষ্ঠাগুলি দিয়ে শুরু হতে পারে যেখানে ব্যবহারকারী তাদের স্ক্যান মোডে সেট করে। স্ট্যান্ডার্ড এক্সেপশন ফাইলের মধ্যে বেশ কিছু অংশ আছে। রোবটকে কোন পৃষ্ঠাগুলিতে কাজ করা উচিত নয় তা বলার আগে, আপনাকে কোন রোবটের সাথে কথা বলতে হবে তা নির্দিষ্ট করতে হবে। বেশিরভাগ ক্ষেত্রে, ব্যবহারকারী একটি সাধারণ ঘোষণা ব্যবহার করবে যার অর্থ "সমস্ত বট"।

SEO অপ্টিমাইজেশান

এসইও অপ্টিমাইজেশান
এসইও অপ্টিমাইজেশান

অপ্টিমাইজ করার আগে, ব্যবহারকারীকে অবশ্যই নিশ্চিত করতে হবে যে সে সাইটের কোন বিষয়বস্তু বা বিভাগগুলিকে বাইপাস করতে হবে তা ব্লক করে না। সঠিক Robots txt দ্বারা ব্লক করা পৃষ্ঠাগুলির লিঙ্কগুলিকে সম্মান করা হবে না। এর মানে হল:

  1. যদি সেগুলি সার্চ ইঞ্জিনের জন্য উপলব্ধ অন্যান্য পৃষ্ঠাগুলির সাথে লিঙ্ক না করা হয়, যেমন। পাতা,robots.txt বা একটি মেটা রোবট দ্বারা অবরুদ্ধ নয়, এবং সম্পর্কিত সংস্থানগুলি ক্রল করা হবে না এবং তাই সূচিবদ্ধ করা যাবে না৷
  2. অবরুদ্ধ পৃষ্ঠা থেকে লিঙ্কের গন্তব্যে কোনো লিঙ্ক পাঠানো যাবে না। যদি এমন একটি পৃষ্ঠা থাকে, তাহলে robots.txt-এর চেয়ে ভিন্ন ব্লকিং মেকানিজম ব্যবহার করা ভালো।

কারণ অন্যান্য পৃষ্ঠাগুলি ব্যক্তিগত তথ্য সম্বলিত একটি পৃষ্ঠার সাথে সরাসরি লিঙ্ক করতে পারে এবং আপনি এই পৃষ্ঠাটিকে অনুসন্ধান ফলাফল থেকে ব্লক করতে চান, একটি ভিন্ন পদ্ধতি ব্যবহার করুন, যেমন পাসওয়ার্ড সুরক্ষা বা noindex মেটা ডেটা। কিছু সার্চ ইঞ্জিনে একাধিক ব্যবহারকারী এজেন্ট থাকে। উদাহরণস্বরূপ, Google জৈব অনুসন্ধানের জন্য Googlebot এবং চিত্র অনুসন্ধানের জন্য Googlebot-Image ব্যবহার করে।

একই সার্চ ইঞ্জিনের বেশিরভাগ ব্যবহারকারী এজেন্ট একই নিয়ম অনুসরণ করে, তাই প্রতিটি ক্রলারের জন্য নির্দেশাবলী নির্দিষ্ট করার কোন প্রয়োজন নেই, তবে এটি করতে সক্ষম হলে সাইটের বিষয়বস্তু ক্রল করাকে সূক্ষ্ম-টিউন করতে পারে। সার্চ ইঞ্জিন ফাইলের বিষয়বস্তু ক্যাশ করে, এবং সাধারণত দিনে অন্তত একবার ক্যাশে করা বিষয়বস্তু আপডেট করে। যদি ব্যবহারকারী ফাইল পরিবর্তন করে এবং স্বাভাবিকের চেয়ে দ্রুত আপডেট করতে চায়, তাহলে তারা Google-এ robots.txt URL জমা দিতে পারে।

সার্চ ইঞ্জিন

একটি রোবট ফাইলের অস্তিত্ব পরীক্ষা করা হচ্ছে
একটি রোবট ফাইলের অস্তিত্ব পরীক্ষা করা হচ্ছে

রোবট txt কীভাবে সঠিকভাবে কাজ করে তা বোঝার জন্য আপনাকে সার্চ ইঞ্জিনের ক্ষমতা সম্পর্কে জানতে হবে। সংক্ষেপে, তাদের ক্ষমতা এই সত্য যে তারা "স্ক্যানার" পাঠায়, যা এমন প্রোগ্রাম যাতথ্যের জন্য ইন্টারনেট ব্রাউজিং। পরে ব্যবহারকারীর কাছে পাঠানোর জন্য তারা এই তথ্যের কিছু সংরক্ষণ করে।

অনেক লোকের জন্য, গুগল ইতিমধ্যেই ইন্টারনেট। আসলে, তারা সঠিক, যেহেতু এটি সম্ভবত তার সবচেয়ে গুরুত্বপূর্ণ আবিষ্কার। এবং যদিও সার্চ ইঞ্জিনগুলি তাদের সূচনা থেকে অনেক পরিবর্তিত হয়েছে, অন্তর্নিহিত নীতিগুলি এখনও একই। ক্রলার, যারা "বট" বা "স্পাইডার" নামেও পরিচিত, তারা কোটি কোটি ওয়েবসাইট থেকে পৃষ্ঠাগুলি খুঁজে বের করে৷ অনুসন্ধান ইঞ্জিনগুলি তাদের কোথায় যেতে হবে তার দিকনির্দেশ দেয়, যখন পৃথক সাইটগুলি বটগুলির সাথে যোগাযোগ করতে পারে এবং তাদের কোন নির্দিষ্ট পৃষ্ঠাগুলি দেখতে হবে তা তাদের বলতে পারে৷

সাধারণত, সাইটের মালিকরা সার্চ ইঞ্জিনে দেখাতে চান না: অ্যাডমিন পেজ, ব্যাকএন্ড পোর্টাল, বিভাগ এবং ট্যাগ এবং অন্যান্য তথ্য পৃষ্ঠা। robots.txt ফাইলটি সার্চ ইঞ্জিনকে পেজ চেক করা থেকে আটকাতেও ব্যবহার করা যেতে পারে। সংক্ষেপে, robots.txt ওয়েব ক্রলারদের কি করতে হবে তা বলে।

পেজ নিষিদ্ধ করুন

এটি রোবট বর্জন ফাইলের প্রধান অংশ। একটি সাধারণ ঘোষণার মাধ্যমে, ব্যবহারকারী একটি বট বা বট গোষ্ঠীকে নির্দিষ্ট পৃষ্ঠাগুলি ক্রল না করতে বলে৷ সিনট্যাক্স সহজ, উদাহরণস্বরূপ, সাইটের "অ্যাডমিন" ডিরেক্টরির সবকিছুতে অ্যাক্সেস অস্বীকার করতে, লিখুন: Disallow: /admin৷ এই লাইনটি আপনার বটকে yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html, এবং অ্যাডমিন ডিরেক্টরির অধীনে অন্য কিছু ক্রল করা থেকে বাধা দেবে।

একটি পৃষ্ঠার অনুমতি না দেওয়ার জন্য, কেবল অনুমতি না দেওয়ার লাইনে এটি নির্দিষ্ট করুন: Disallow: /public/exception.html। এখন "ব্যতিক্রম" পাতাস্থানান্তরিত হবে না, তবে "সর্বজনীন" ফোল্ডারে থাকা সমস্ত কিছু হবে৷

একাধিক পৃষ্ঠা অন্তর্ভুক্ত করতে, কেবল তাদের তালিকাভুক্ত করুন:

ডিরেক্টরি এবং পৃষ্ঠা
ডিরেক্টরি এবং পৃষ্ঠা

সিম্ফনির জন্য সঠিক রোবট txt-এর এই চারটি লাইন https://www.symphonyspace.org/. এর জন্যrobots.txt বিভাগের শীর্ষে তালিকাভুক্ত যেকোনো ব্যবহারকারী এজেন্টের জন্য প্রযোজ্য হবে

পৃষ্ঠাগুলি নিষিদ্ধ করুন
পৃষ্ঠাগুলি নিষিদ্ধ করুন

সাইটম্যাপ:

অন্যান্য কমান্ড:লাইভ - ওয়েব ক্রলারকে cpresource/ অথবা প্রদানকারী/কে সূচী করার অনুমতি দেবেন না।

ব্যবহারকারী এজেন্ট:অস্বীকৃতি: /cpresource/.

অস্বীকার করুন: / বিক্রেতা / অস্বীকৃতি: /.env.

মান নির্ধারণ

ব্যবহারকারী পূর্ববর্তী দুটি উপাদান একত্রিত করে বিভিন্ন বটের জন্য নির্দিষ্ট পৃষ্ঠাগুলি নির্দিষ্ট করতে পারে, এটি দেখতে এইরকম। সমস্ত সার্চ ইঞ্জিনের জন্য সঠিক রোবট txt-এর একটি উদাহরণ নীচে উপস্থাপন করা হয়েছে৷

মান নির্ধারণ করা
মান নির্ধারণ করা

"অ্যাডমিন" এবং "প্রাইভেট" বিভাগগুলি Google এবং Bing-এর কাছে অদৃশ্য থাকবে, কিন্তু Google এখনও "গোপন" ডিরেক্টরি দেখতে পাবে, যদিও Bing তা দেখবে না৷ আপনি তারকাচিহ্ন ব্যবহারকারী এজেন্ট ব্যবহার করে সমস্ত বটগুলির জন্য সাধারণ নিয়মগুলি নির্দিষ্ট করতে পারেন এবং তারপরে নিম্নলিখিত বিভাগে বটগুলির জন্য নির্দিষ্ট নির্দেশাবলী দিতে পারেন৷ উপরের জ্ঞানের সাথে, ব্যবহারকারী সমস্ত সার্চ ইঞ্জিনের জন্য সঠিক রোবট txt-এর একটি উদাহরণ লিখতে পারে। শুধু আপনার প্রিয় টেক্সট এডিটর চালু করুন এবং বটদের বলুন যে তারা সাইটের কিছু অংশে স্বাগত নয়।

সার্ভার কর্মক্ষমতা উন্নত করার জন্য টিপস

সাবলাইমটেক্সট হলএকটি বহুমুখী পাঠ্য সম্পাদক এবং অনেক প্রোগ্রামারদের জন্য সোনার মান। তার প্রোগ্রামিং টিপস দক্ষ কোডিং উপর ভিত্তি করে, তদ্ব্যতীত. ব্যবহারকারীরা প্রোগ্রামে শর্টকাট উপস্থিতির প্রশংসা করে। ব্যবহারকারী যদি একটি robots.txt ফাইলের একটি উদাহরণ দেখতে চান, তাদের উচিত যেকোন সাইটে যান এবং শেষে "/robots.txt" যোগ করুন৷ এখানে robots.txt ফাইলের অংশ রয়েছে GiantBicycles।

প্রোগ্রামটি এমন পৃষ্ঠা তৈরি করে যা ব্যবহারকারীরা সার্চ ইঞ্জিনে দেখাতে চায় না। এবং কিছু একচেটিয়া জিনিস রয়েছে যা খুব কম লোকই জানে। উদাহরণস্বরূপ, যখন robots.txt ফাইলটি বটগুলিকে বলে যে কোথায় যেতে হবে না, সাইটম্যাপ ফাইলটি উল্টো করে এবং তারা যা খুঁজছে তা খুঁজে পেতে সহায়তা করে এবং সার্চ ইঞ্জিন সম্ভবত ইতিমধ্যেই সাইটম্যাপটি কোথায় অবস্থিত তা জানতে পারে, এটি পায় না। পথে।

ফাইল দুই ধরনের আছে: HTML পৃষ্ঠা বা XML ফাইল। একটি HTML পৃষ্ঠা হল এমন একটি যা দর্শকদের একটি ওয়েবসাইটের সমস্ত উপলব্ধ পৃষ্ঠা দেখায়। নিজস্ব robots.txt-এ, এটি এইরকম দেখায়: সাইটম্যাপ://www.makeuseof.com/sitemap_index.xml। যদি সাইটটি সার্চ ইঞ্জিন দ্বারা সূচিত না করা হয়, যদিও এটি ওয়েব রোবট দ্বারা বেশ কয়েকবার ক্রল করা হয়েছে, আপনাকে নিশ্চিত করতে হবে যে ফাইলটি উপস্থিত রয়েছে এবং এর অনুমতিগুলি সঠিকভাবে সেট করা আছে৷

ডিফল্টরূপে, এটি সমস্ত SeoToaster ইনস্টলেশনে ঘটবে, তবে প্রয়োজন হলে, আপনি এটিকে এভাবে পুনরায় সেট করতে পারেন: ফাইল robots.txt - 644। পিএইচপি সার্ভারের উপর নির্ভর করে, যদি এটি ব্যবহারকারীর জন্য কাজ না করে তবে এটি নিম্নলিখিত চেষ্টা করার জন্য সুপারিশ করা হয়: ফাইল robots.txt - 666.

স্ক্যান বিলম্ব সেট করা

বাইপাস বিলম্ব নির্দেশিকা নিশ্চিত করেসার্চ ইঞ্জিন কত ঘন ঘন তারা সাইটে একটি পৃষ্ঠা সূচী করতে পারে. এটি সেকেন্ডে পরিমাপ করা হয়, যদিও কিছু সার্চ ইঞ্জিন এটিকে কিছুটা ভিন্নভাবে ব্যাখ্যা করে। কিছু লোক ক্রল বিলম্ব 5 দেখতে পায় যখন তাদের প্রতিটি স্ক্যানের পরেরটি শুরু করার জন্য পাঁচ সেকেন্ড অপেক্ষা করতে বলা হয়।

অন্যরা এটিকে প্রতি পাঁচ সেকেন্ডে একটি পৃষ্ঠা স্ক্যান করার নির্দেশ হিসাবে ব্যাখ্যা করে৷ সার্ভার ব্যান্ডউইথ সংরক্ষণ করতে রোবট দ্রুত স্ক্যান করতে পারে না। সার্ভারের যদি ট্র্যাফিকের সাথে মেলে, এটি একটি বাইপাস বিলম্ব সেট করতে পারে। সাধারণভাবে, বেশিরভাগ ক্ষেত্রে, ব্যবহারকারীদের এই বিষয়ে চিন্তা করার দরকার নেই। এইভাবে আট সেকেন্ডের ক্রল বিলম্ব সেট করা হয় - ক্রল-বিলম্ব: 8.

কিন্তু সমস্ত সার্চ ইঞ্জিন এই নির্দেশ মেনে চলবে না, তাই পৃষ্ঠাগুলিকে অনুমোদন না করার সময়, আপনি নির্দিষ্ট সার্চ ইঞ্জিনের জন্য বিভিন্ন ক্রল বিলম্ব সেট করতে পারেন৷ ফাইলের সমস্ত নির্দেশাবলী সেট আপ করার পরে, আপনি এটি সাইটে আপলোড করতে পারেন, প্রথমে নিশ্চিত করুন যে এটি একটি সাধারণ টেক্সট ফাইল এবং এর নাম robots.txt রয়েছে এবং এটি yoursite.com/robots.txt এ পাওয়া যাবে।

সেরা ওয়ার্ডপ্রেস বট

সেরা ওয়ার্ডপ্রেস বট
সেরা ওয়ার্ডপ্রেস বট

একটি ওয়ার্ডপ্রেস সাইটে কিছু ফাইল এবং ডিরেক্টরি রয়েছে যা প্রতিবার লক করা দরকার। ব্যবহারকারীদের যে ডিরেক্টরিগুলিকে অস্বীকৃত করা উচিত সেগুলি হল cgi-bin ডিরেক্টরি এবং স্ট্যান্ডার্ড WP ডিরেক্টরি৷ কিছু সার্ভার সিজিআই-বিন ডিরেক্টরিতে অ্যাক্সেসের অনুমতি দেয় না, তবে ব্যবহারকারীদের অবশ্যই রোবট txt WordPress সঠিকভাবে কনফিগার করার আগে অনুমতি না দেওয়ার নির্দেশে অন্তর্ভুক্ত করতে হবে

মানক ওয়ার্ডপ্রেস ডিরেক্টরি,যেগুলি ব্লক করা উচিত তা হল wp-admin, wp-content, wp-includes. এই ডিরেক্টরিগুলিতে এমন ডেটা নেই যা প্রাথমিকভাবে অনুসন্ধান ইঞ্জিনগুলির জন্য উপযোগী, তবে একটি ব্যতিক্রম রয়েছে, যেমন wp-সামগ্রী ডিরেক্টরিতে আপলোড নামে একটি সাবডিরেক্টরি রয়েছে৷ এই সাবডিরেক্টরিটি অবশ্যই robot.txt ফাইলে অনুমোদিত হতে হবে কারণ এতে WP মিডিয়া আপলোড বৈশিষ্ট্য ব্যবহার করে লোড হওয়া সমস্ত কিছু অন্তর্ভুক্ত রয়েছে। ওয়ার্ডপ্রেস কন্টেন্ট গঠন করতে ট্যাগ বা বিভাগ ব্যবহার করে।

যদি বিভাগগুলি ব্যবহার করা হয়, তাহলে ওয়ার্ডপ্রেসের জন্য সঠিক রোবট txt তৈরি করার জন্য, প্রোগ্রাম প্রস্তুতকারকের দ্বারা নির্দিষ্ট করা, অনুসন্ধান থেকে ট্যাগ সংরক্ষণাগারগুলিকে ব্লক করা প্রয়োজন৷ প্রথমে, তারা "প্রশাসন" প্যানেলে গিয়ে ডাটাবেস পরীক্ষা করে > "সেটিংস" > "পারমালিঙ্ক"।

ডিফল্টরূপে, বেসটি ট্যাগ, যদি ক্ষেত্রটি খালি থাকে: Disallow: / tag /. যদি একটি বিভাগ ব্যবহার করা হয়, তাহলে আপনাকে অবশ্যই robot.txt ফাইলে বিভাগটি নিষ্ক্রিয় করতে হবে: Disallow: /category/। ডিফল্টরূপে, বেসটি ট্যাগ, যদি ক্ষেত্রটি খালি থাকে: Disallow: / tag /. যদি একটি বিভাগ ব্যবহার করা হয়, তাহলে আপনাকে অবশ্যই robot.txt ফাইলে বিভাগটি নিষ্ক্রিয় করতে হবে: Disallow: / category /.

ফাইলগুলি প্রাথমিকভাবে বিষয়বস্তু প্রদর্শনের জন্য ব্যবহৃত হয়, সেগুলি Wordpress-এর জন্য সঠিক Robots txt ফাইল দ্বারা ব্লক করা হবে:

ওয়ার্ডপ্রেসের জন্য রোবট txt
ওয়ার্ডপ্রেসের জন্য রোবট txt

জুমলা বেসিক সেটআপ

ব্যবহারকারী জুমলা ইনস্টল করার পর, আপনাকে বিশ্বব্যাপী কনফিগারেশনে সঠিক জুমলা রোবট txt সেটিং দেখতে হবে, যা কন্ট্রোল প্যানেলে অবস্থিত। এখানে কিছু সেটিংস SEO এর জন্য খুবই গুরুত্বপূর্ণ। প্রথমে সাইটের নাম খুঁজুন এবং নিশ্চিত করুনসাইটের সংক্ষিপ্ত নাম ব্যবহার করা হয়। তারপরে তারা একই স্ক্রিনের ডানদিকে সেটিংসের একটি গ্রুপ খুঁজে পায়, যাকে SEO সেটিংস বলা হয়। যেটি অবশ্যই পরিবর্তন করতে হবে তা হল দ্বিতীয়টি: একটি পুনর্লিখন URL ব্যবহার করুন৷

এটি জটিল শোনাচ্ছে, কিন্তু এটি মূলত জুমলাকে ক্লিনার ইউআরএল তৈরি করতে সাহায্য করে। আপনি URL থেকে index.php লাইন মুছে দিলে সবচেয়ে বেশি লক্ষণীয়। আপনি যদি পরে এটি পরিবর্তন করেন, তাহলে URLগুলি পরিবর্তন হবে এবং Google এটি পছন্দ করবে না৷ যাইহোক, এই সেটিং পরিবর্তন করার সময়, জুমলার জন্য সঠিক রোবট txt তৈরি করতে একই সময়ে বেশ কয়েকটি পদক্ষেপ নিতে হবে:

  1. জুমলা রুট ফোল্ডারে htaccess.txt ফাইল খুঁজুন।
  2. এটিকে.htaccess হিসেবে চিহ্নিত করুন (কোন এক্সটেনশন নেই)।
  3. পৃষ্ঠার শিরোনামে সাইটের নাম অন্তর্ভুক্ত করুন।
  4. গ্লোবাল কনফিগারেশন স্ক্রিনের নীচে মেটাডেটা সেটিংস খুঁজুন।

ক্লাউডে রোবট MODX

MODX ক্লাউডে রোবট
MODX ক্লাউডে রোবট

আগে, MODX ক্লাউড ব্যবহারকারীদের ড্যাশবোর্ডে একটি টগলের উপর ভিত্তি করে robots.txt ফাইল পরিবেশন করার অনুমতি দেওয়ার আচরণ নিয়ন্ত্রণ করার ক্ষমতা প্রদান করেছিল। যদিও এটি কার্যকর ছিল, ড্যাশবোর্ডে একটি বিকল্প টগল করে ঘটনাক্রমে স্টেজিং/ডেভ সাইটগুলিতে সূচীকরণের অনুমতি দেওয়া সম্ভব হয়েছিল। একইভাবে, প্রোডাকশন সাইটে ইন্ডেক্সিং অক্ষম করা সহজ ছিল।

আজ পরিষেবাটি নিম্নলিখিত ব্যতিক্রম সহ ফাইল সিস্টেমে robots.txt ফাইলের উপস্থিতি অনুমান করে: modxcloud.com দিয়ে শেষ হওয়া যেকোন ডোমেন উপস্থিতি নির্বিশেষে সমস্ত ব্যবহারকারী এজেন্টদের জন্য একটি Disallow: /directive হিসাবে কাজ করবে বা ফাইলের অনুপস্থিতি।যে প্রোডাকশন সাইটগুলো প্রকৃত ভিজিটর ট্রাফিক পায় তাদের নিজস্ব ডোমেন ব্যবহার করতে হবে যদি ব্যবহারকারী তাদের সাইটকে ইন্ডেক্স করতে চায়।

প্রসঙ্গ ব্যবহার করে একক ইনস্টলেশন থেকে একাধিক ওয়েবসাইট চালানোর জন্য কিছু প্রতিষ্ঠান modx-এর জন্য সঠিক Robots txt ব্যবহার করে। যে ক্ষেত্রে এটি প্রয়োগ করা যেতে পারে সেটি হবে একটি পাবলিক মার্কেটিং সাইট এবং ল্যান্ডিং পেজ মাইক্রো সাইট এবং সম্ভবত একটি অ-পাবলিক ইন্ট্রানেট।

ঐতিহ্যগতভাবে বহু-ব্যবহারকারী ইনস্টলেশনের জন্য এটি করা কঠিন কারণ তারা একই নেটওয়ার্ক রুট ভাগ করে। MODX ক্লাউডের সাথে, এটি সহজ। নিম্নলিখিত বিষয়বস্তু সহ robots-intranet.example.com.txt নামে একটি ওয়েবসাইটে সহজভাবে একটি অতিরিক্ত ফাইল আপলোড করুন এবং এটি ভালভাবে কাজ করা রোবটগুলির সাথে সূচীকরণকে ব্লক করবে এবং অন্যান্য নির্দিষ্ট নামের নোড না থাকলে অন্যান্য সমস্ত হোস্টনামগুলি স্ট্যান্ডার্ড ফাইলগুলিতে ফিরে আসবে৷

Robots.txt হল একটি গুরুত্বপূর্ণ ফাইল যা ব্যবহারকারীকে Google, প্রধান সার্চ ইঞ্জিন এবং অন্যান্য ওয়েবসাইটের সাইটে লিঙ্ক করতে সাহায্য করে। একটি ওয়েব সার্ভারের মূলে অবস্থিত, ফাইলটি ওয়েব রোবটকে একটি সাইট ক্রল করার নির্দেশ দেয়, কোন ফোল্ডারে এটি সূচীভুক্ত করা উচিত বা করা উচিত নয়, বট এক্সক্লুশন প্রোটোকল নামক নির্দেশাবলীর একটি সেট ব্যবহার করে সেট করে। সমস্ত সার্চ ইঞ্জিন obots.txt-এর জন্য সঠিক রোবট txt-এর একটি উদাহরণ বিশেষ করে SeoToaster-এর সাথে করা সহজ। কন্ট্রোল প্যানেলে এটির জন্য একটি বিশেষ মেনু তৈরি করা হয়েছে, তাই অ্যাক্সেস পেতে বটটিকে কখনই অতিরিক্ত কাজ করতে হবে না।

প্রস্তাবিত: