必要时如何在网址前添加“ http：//”协议？ [重复]

问题描述

| 这个问题已经在这里有了答案：

解决方法

该文档在您粘贴的文本下方，有一个确切的示例。如果不存在，则添加\'// \'将得到您想要的。如果您不知道它是否具有协议和\'// \'，则可以使用正则表达式（甚至只是查看它是否已包含\'// \'）来确定是否需要添加它。您的另一个选择是使用split（\'/ \'）并获取它返回的列表的第一个元素，仅当url没有协议或\'// \'时才起作用。编辑（为将来的读者添加）：用于检测协议的正则表达式类似于“ 0” , 看起来您需要指定协议才能获得netloc。如果不存在，则将其添加可能如下所示：

import urlparse

url = \'www.amazon.com/Programming-Python-Mark-Lutz\'
if \'//\' not in url:
    url = \'%s%s\' % (\'http://\',url)
p = urlparse.urlparse(url)
print p.netloc

, 如果协议始终为http，则只能使用一行：

return \"http://\" + url.split(\"://\")[-1]

更好的选择是使用通过的协议：

return url if \"://\" in url else \"http://\" + url

, 从文档：按照RFC 1808中的语法规范，urlparse仅在由“ //”正确引入了netloc的情况下才识别它。否则，假定输入为相对URL，因此从路径组件开始。因此，您可以执行以下操作：

In [1]: from urlparse import urlparse

In [2]: def get_netloc(u):
   ...:     if not u.startswith(\'http\'):
   ...:         u = \'//\' + u
   ...:     return urlparse(u).netloc
   ...: 

In [3]: get_netloc(\'www.amazon.com/Programming-Python-Mark-Lutz/dp/0596158106/ref=sr_1_1?ie=UTF8&qid=1308060974&sr=8-1\')
Out[3]: \'www.amazon.com\'

In [4]: get_netloc(\'http://www.amazon.com/Programming-Python-Mark-Lutz/dp/0596158106/ref=sr_1_1?ie=UTF8&qid=1308060974&sr=8-1\')
Out[4]: \'www.amazon.com\'

In [5]: get_netloc(\'https://www.amazon.com/Programming-Python-Mark-Lutz/dp/0596158106/ref=sr_1_1?ie=UTF8&qid=1308060974&sr=8-1\')
Out[5]: \'www.amazon.com\'

, 您是否考虑过仅检查URL开头是否存在\“ http：// \”，如果不存在则添加它？假定第一部分确实是netloc而不是相对URL的一部分，另一种解决方案是仅捕获所有内容，直到第一个\“ / \”并将其用作netloc。 , 这一个班轮会做到这一点。

netloc = urlparse(\'//\' + \'\'.join(urlparse(url)[1:])).netloc

http http 何在协议协议必要添加添加添加网址网址重复重复