{"id":13209,"date":"2016-05-14T02:54:20","date_gmt":"2016-05-14T00:54:20","guid":{"rendered":"https:\/\/eltallerdelbit.com\/?p=13209"},"modified":"2020-08-24T00:31:53","modified_gmt":"2020-08-23T22:31:53","slug":"bloquear-bot-semrush","status":"publish","type":"post","link":"https:\/\/eltallerdelbit.com\/bloquear-bot-semrush\/","title":{"rendered":"C\u00f3mo Bloquear el bot de Semrush"},"content":{"rendered":"
A\u00fan as\u00ed, para dejar claro que creemos en este software, aqu\u00ed dejamos un enlace para que el que quiera pueda probarlo, gratis:<\/p>\n <\/a> <\/p>\n Pues bien, si nuestro hosting no puede o no sabe aplicar reglas de seguridad y bloqueo adecuadas, y por alguna raz\u00f3n queremos bloquear al bot de Semrush<\/strong>, podemos recurrir a dos m\u00e9todos que realizaremos nosotros mismos:<\/p>\n <\/p>\n Lo que haremos, es decirle al bot de Semrush, que utiliza el agente de usuario “SemrushBot<\/strong><\/em>“, que no tiene permiso para rastrear nuestro sitio; lo haremos de esta forma:<\/p>\n As\u00ed que toca utilizar un m\u00e9todo diferente. <\/p>\n Y en este caso lo que haremos es a\u00f1adir\u00a0las siguientes l\u00edneas en el .htaccess<\/em>:<\/p>\n El s\u00edmbolo ^ delante de “Semrushbot<\/em>“, es una m\u00e1scara que\u00a0significa que buscar\u00e1 los agentes de usuario que “comienzan con” en este caso la palabra “Semrushbot<\/em>“.<\/p>\n Si queremos bloquear “Semrushbot<\/em>” en cualquier lugar de la cadena “User agent”, lo modificaremos y simplemente lo dejamos como\u00a0“Semrushbot<\/em>“. (es decir, bloquear\u00e1 cualquier agente de usuario que contenga esa palabra en cualquier posici\u00f3n, y no buscar\u00e1 solamente los que empiezan por esa palabra). <\/p>\n En este caso nos est\u00e1n diciendo que el archivo robots.txt es el que est\u00e1 bloqueando al robot de Semrush<\/strong>. <\/p>\n <\/p>\n Lo malo (en este caso que deseamos bloquear el bot de Semrush), es que\u00a0Semrush ofrece la posibilidad de realizar el rastreo con el bot que usa el user agent de Google<\/strong>: en cuyo caso la persona que usase Semrush con el user agent de Google en lugar de el de Semrush, se podr\u00eda saltar el bloqueo a la torera, a no ser que no nos importe no aparecer en Google y bloqueemos tambi\u00e9n al bot de Google … (estoy siendo ir\u00f3nico otra vez :-\/ ). Es posible que necesitemos bloquear el bot\u00a0de Semrush\u00a0para que no acceda a nuestro sitio web; Puede ser porque no queremos que nadie nos … Seguir leyendo<\/a><\/p>\n","protected":false},"author":1,"featured_media":13237,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"off","_et_pb_old_content":" Es posible que necesitemos bloquear el acceso del agente de Semrush \u00a0a nuestro sitio web; Puede ser porque no queremos que nadie nos esp\u00ede utilizando Semrush, porque preferimos que no haya visitas y peticiones inesperadas de bots que se dispare el consumo de\u00a0 los recursos de\u00a0nuestro servidor por exceso de visitas, o simplemente porque nos hemos enfadado con el bot y no queremos ni verlo.<\/p> \u00a0<\/p> Podemos pedirle al hosting que lo haga, pero algunos proveedores de hosting no saben lo que son las reglas de seguridad (Ironic Mode ON. Lo que\u00a0realmente\u00a0ocurre es que no aplican reglas personalizadas. Pero los buenos lo hacen. V\u00e9ase Webempresa).<\/p> Pues bien, si nuestro hosting no puede o no sabe aplicar reglas de seguridad y bloqueo adecuadas, y por alguna raz\u00f3n queremos bloquear al bot de Semrush, podemos recurrir 2 m\u00e9todos que realizaremos nosotros mismos:<\/p> \u00a0<\/p> Por medio del archivo robots.txt<\/p> Por medio del archivo .htaccess.<\/p> Lo que haremos, es decirle al bot de Semrush, que utiliza el agente de usuario \"SemrushBot<\/em>\", que no tiene permiso para rastrear nuestro sitio; lo haremos de esta forma:<\/p> \u00a0<\/p> O sea que no acaba de ser un buen m\u00e9todo, porque necesitas bloquear al bot y resulta que tardar\u00e1 2 semanas en darse cuenta de que est\u00e1 bloqueado.<\/p> As\u00ed que toca utilizar un m\u00e9todo diferente.<\/p> \u00a0<\/p>
\n
\n
\nPuede ser porque no queremos que nadie nos esp\u00ede utilizando Semrush, porque preferimos que no haya visitas y peticiones inesperadas de bots que disparen el consumo de\u00a0 los recursos de\u00a0nuestro servidor (por exceso de visitas), o simplemente porque nos hemos enfadado con el bot y no queremos ni verlo.
\n
\n* Por cierto, Semrush<\/em> es el mejor (o al menos uno de los mejores) analizadores SEO para proyectos Web. *
\nQueremos aclarar (por si te lo ha parecido) que no estamos en contra de este software en linea ni mucho menos; es m\u00e1s, lo usamos, y nos parece muy bueno. Este post simplemente pretende solucionar un problema muy com\u00fan para los webmasters y propietarios de sitios web, que en ocasiones prefieren que su sitio no sea rastreado ni analizado por la competencia por el bot de Semrush;<\/p>\n
\n <\/p>\nSea como fuere, vamos a ver c\u00f3mo bloquear al bot de Semrush<\/strong>.<\/span><\/h3>\n
\nPodemos pedirle al hosting que lo haga, pero algunos proveedores de hosting no saben lo que son las reglas de seguridad (Ironic Mode ON<\/em>. Lo que\u00a0realmente\u00a0ocurre es que hay muchos que no aplican reglas personalizadas, tambi\u00e9n depende del servidor que estemos pagando. Pero los buenos lo hacen. V\u00e9ase Webempresa).<\/p>\n\n
\n
\n <\/p>\nEvitar el rastreo del bot de Semrush por medio del archivo robots.txt<\/strong><\/span><\/a><\/span><\/h3>\n
\r\nUser-agent: SemrushBot\r\nDisallow: \/\r\n\r\nUser-agent: SemrushBot-SA\r\nDisallow: \/\r\n<\/pre>\n
\n
\n
\nO sea que no acaba de ser un buen m\u00e9todo, porque necesitas bloquear al bot y resulta que tardar\u00e1 2 semanas en darse cuenta de que est\u00e1 bloqueado.<\/p>\n
\n <\/p>\nBloqueo del bot de Semrush por medio del archivo .htaccess<\/strong><\/span><\/h3>\n
\nEl archivo .htaccess<\/em> es muy \u00fatil, y permite incluso a\u00f1adir reglas de seguridad que funcionar\u00e1n como un firewall<\/a>.<\/p>\n\r\nOptions +FollowSymlinks \r\nRewriteEngine On \r\nRewriteBase \/ \r\nSetEnvIfNoCase User-Agent \"^SemrushBot\" bad_user\r\nDeny from env=bad_user\r\n<\/pre>\n
\nDe esta forma denegaremos todas las direcciones IP que utilizan “SemrushBot<\/strong><\/em>” en su cadena de agente de usuario.<\/p>\n
\n <\/p>\n\u00bfY estos bloqueos funcionan?<\/span><\/h3>\n
\nVamos a hacer la prueba en Semrush. Vamos al men\u00fa\/ Proyectos<\/em> \/ Site Audit<\/em> \/ Agregamos nuestro dominio y comenzamos\u00a0la auditoria del sitio. Y entonces recibimos este mensaje:<\/p>\n
\n
\nSorry, auditing tusitio.com<\/em> has failed
\nWe encountered an error that stopped us from crawling your website:
\nRobots.txt forbids the Semrush crawler<\/strong><\/em>.<\/p>\n
\n <\/p>\n
\nY en el caso de que el bot de Semrush no fuera bloqueado con el archivo robots.txt sino por medio del .htaccess, el mensaje de error ser\u00eda el siguiente:<\/p>\n
\nWe encountered an error that stopped us from crawling your website:
\nthe network connection was interrupted.<\/em>
\nCrawler parameters:
\nUser-agent: Mozilla\/5.0 (compatible; SemrushBot-SA\/0.97; +http:\/\/www.semrush.com\/bot.html)
\nIP address: 46.229.173.67<\/p>\n
\nY al descargar el log veremos un error 403 forbidden<\/strong>. Parece que el bloqueo est\u00e1 funcionando!
\n <\/p>\nPERO HAY UN “PERO<\/em>” … \u00bfCUAL ES?<\/span><\/h3>\n
\n <\/p>\n\r\nMozilla\/5.0 (compatible; Googlebot\/2.1; +http:\/\/www.semrush.com\/bot.html)\r\n<\/pre>\n
\n <\/p>\n
\nAs\u00ed que mejor\u00a0prohibimos\u00a0el rastreo\u00a0del agente de Semrush <\/em>con el robots.txt<\/strong> y con el .htaccess bloqueamoslas IP\u00b4s del user agent de Semrush<\/strong>, y si mientras tanto el bot accede con el user agent de Google.. pues mala suerte, pero solo podr\u00e1 hacerlo hasta que comprenda que el robots.txt le proh\u00edbe el acceso (hasta 2 semanas).
\n <\/p>\n\nSea como fuere, vamos a ver c\u00f3mo bloquear al bot de Semrush.<\/h3>
\u00a0<\/h3>
Evitar el rastreo del bot de Semrush a trav\u00e9s del archivo robots.txt<\/span><\/a><\/h3>
User-agent: SemrushBot <\/code><\/p>
Disallow: \/ <\/code><\/p>
User-agent: SemrushBot-SA <\/code><\/p>
Disallow: \/
<\/code>
Con este m\u00e9todo, puede haber un retraso de incluso 2 semanas hasta que el bot de Semrush descubra la regla actualizada en el archivo robots.txt.\u00a0<\/p>Bloqueo del bot de Semrush por medio del archivo .htaccess.<\/span><\/h3>