关于Python爬虫面试170道题

关于Python爬虫面试170道题#背景今天在痴海的公众号看到了170道爬虫相关的题目,打算自己在这里先回答能够回答的部分,等6月23日出正式结果了对比一下看看,自己和大佬之间的天埑有多宽#答题部分##语言特性1.谈谈对Python和其他语言的区别答:Python属于比较“自由”的语言,首先变量使用前不需要声明类型,其次语句结束不需要使用分号作为结尾,同时不需要大括号进行代码块的标注,使用缩进对大括号进行代替。2….

关于Python爬虫面试170道题"

背景

今天在痴海的公众号看到了170道爬虫相关的题目,打算自己在这里先回答能够回答的部分,等6月23日出正式结果了对比一下看看,自己和大佬之间的天埑有多宽
#答题部分

语言特性

1.谈谈对 Python 和其他语言的区别
答:Python属于比较“自由”的语言,首先变量使用前不需要声明类型,其次语句结束不需要使用分号作为结尾,同时不需要大括号进行代码块的标注,使用缩进对大括号进行代替。

2.简述解释型和编译型编程语言
答:编译型语言是将代码编译成机器码,然后执行,通过编译可以使得程序直接以机器码的形式进行工作。通俗一点就是将整个程序一次性编译后再执行。解释型语言则是编译一句执行一句,编译到哪里执行到哪里,每次执行前都要逐句编译。通常情况下编译型语言执行速度比解释型快,但是现在的解释器经常会针对语言进行优化,所以有时候解释型语言速度反而比编译型快。

3.Python 的解释器种类以及相关特点?
答:CPython,官方使用的解释器,用C语言编写。IPython,基于CPython开发,增强了交互性。JPython,将Python编译成Java字节码。IronPython,将Python编译为.Net的字节码。

4.说说你知道的Python3 和 Python2 之间的区别?
答:1、print由关键字变为了函数。2、Python3默认使用utf-8,解决了Python2中使用ACSII导致的中文乱码问题。3、将xrange与range进行合并,在Python3中只存在range一种写法,本质上是xrange。

5.Python3 和 Python2 中 int 和 long 区别?
答:Python2中,int型能表示的数字长度取决于系统位数,32位系统长度为32位,64位系统长度为64位,long型则不受长度限制。在Python3中,所有的整型都为长整型。

6.xrange 和 range 的区别?
答:两关键字都是用于生成指定范围的列表,在Python3中已经合并为range了。在Python2中,xrange生成结果为迭代器,占用空间小,range生成结果为列表,占据空间较大。

编码规范

7.什么是 PEP8?
答:PEP8是Python编程的一种格式要求,为了提高程序的可读性和规范性,在程序员之间互相约定好的一种代码格式,详情可见小歪的博客

8.了解 Python 之禅么?
答:在Python的交互模式下输入 import this 就能看到Python之禅的内容了。

9.了解 dosctring 么?
答:Python推崇代码即文档,通常在函数中第一个语句即表明了函数的用法及接受的参数,可以通过functiong.__doc__属性来获得。

10.了解类型注解么?
答:类型注解是Python3中引入的新特性,通过def(x:int, y:int) -> int: 这样的方式,标记参数及返回值的类型,这里要注意,即使添加了了类型注解也不会对代码产生影响,它的作用更像是注释,只是方便其他程序员了解参数及返回值类型。

11.例举你知道 Python 对象的命名规范,例如方法或者类等
答:模块:尽量使用小写,单词太多用下划线分割。
类:使用驼峰命名,单词首字母大写,不使用下划线。
函数:全部使用小写,单词太多用下划线链接,私有函数前添加一个下划线。
变量:全部使用小写,常量全部使用大写,均用下划线链接。

12.Python 中的注释有几种?
答:2种,单行的使用#的注释方式,跨行的使用使用三个双引号或三个单引号的的注释方式。

13.如何优雅的给一个函数加注释?
答:函数注释通常在 def 语句下方,第一行表示函数用法,接下来对函数接受的参数进行解释,最后对函数的返回值进行注释,方便他人理解函数的用法。

14.如何给变量加注释?
答:单行注释可以使用#注释内容,多行注释使用””“注释内容”””。

15.Python 代码缩进中是否支持 Tab 键和空格混用。
答:不支持,同时尽量使用4个空格代替Tab缩进。

16.是否可以在一句 import 中导入多个库?
答:可以,但不建议。

17.在给 Py 文件命名的时候需要注意什么?
答:使用全小写或者下划线进行命名。

18.例举几个规范 Python 代码风格的工具
答:YAPF,谷歌开发的代码规范工具。Black,依赖Python3.6+的第三方库,可以直接将原代码变为符合PEP8标准的代码

数据类型

字符串

19.列举 Python 中的基本数据类型?
答:字符串string、数字number、字典dictionary、列表list、元组tuple、集合set。

20.如何区别可变数据类型和不可变数据类型
答:可变的数据类型有 列表、字典、集合,不可变的有字符串、数字、元组。

21.将”hello world”转换为首字母大写”Hello World”
答:string.title()将每个单词首字母大写。

22.如何检测字符串中只含有数字?
答:Python的语法糖,字符串类型自带函数isdigit(),当字符串中只存在数字返回True,反之返回False。

23.将字符串”ilovechina”进行反转
答:“ilovechina”[::-1]

24.Python 中的字符串格式化方式你知道哪些?
答:format()

25.有一个字符串开头和末尾都有空格,比如“ adabdw ”,要求写一个函数把这个字符串的前后空格都去掉。
答:string.replace(’ ’ ,’’),另可以使用string.strip()答案来自@刘汉超

26.获取字符串”123456“最后的两个字符。
答:“123456”[4:6:]或“123456″[-2::]

27.一个编码为 GBK 的字符串 S,要将其转成 UTF-8 编码的字符串,应如何操作?
答:先编码为Unicode,再解码为 UTF-8,具体操作为 string.decode(),str.encode(encoding=‘utf-8’)该条存疑,有待验证

28.s=“info:xiaoZhang 33 shandong”,用正则切分字符串输出[‘info’, ‘xiaoZhang’, ‘33’, ‘shandong’]
答:re.split(r’[: ]’, s)

27.怎样将字符串转换为小写?
答:string.lower()

28.单引号、双引号、三引号的区别?
答:单引号表示的字符串中不能带有双引号。双引号表示的字符串中可以存在单引号。三引号中可以存在单引号和双引号,并且可以跨行表示字符串,而单双引号皆不能跨行。

29.a = “你好 中国 “,去除多余空格只留一个空格。
答:re.sub(’ +’,’ ‘, a)

列表

30.已知 AList = [1,2,3,1,2],对 AList 列表元素去重,写出具体过程。
答:list(set(AList)) 可以利用集合中不能存在相同元素的特性,利用类型转换进行去重。也可使用循环遍历进行判断。

31.如何实现 “1,2,3” 变成 [“1”,“2”,“3”]
答:“1,2,3”.split(’,’)

32.给定两个 list,A 和 B,找出相同元素和不同元素
答:如果列表内不存在重复元素的话,可以转化为集合,利用集合的 “&&” 找出相同元素,再利用 “a-b”,”a^b”找出不同元素。若列表内存在重复元素,暂时只能想到两个for循环进行查找。

33.[[1,2],[3,4],[5,6]]一行代码展开该列表,得出[1,2,3,4,5,6]
答:sum([[1,2],[3,4],[5,6]], [])

34.合并列表[1,5,7,9]和[2,2,6,8]
答:这题没理解,字面上合并相加就好了吧。。。。难道暗示要排序?

35.如何打乱一个列表的元素?
答:使用random库中的random.shuffle(list)函数,该函数无返回值,会将传入的参数列表随机排序。

字典

36.字典操作中 del 和 pop 有什么区别
答:pop()函数会返回删除的值,而del()函数直接删除元素,没有返回值。

37.按照字典的内的年龄排序
d1 = [
{‘name’:‘alice’, ‘age’:38},
{‘name’:‘bob’, ‘age’:18},
{‘name’:‘Carl’, ‘age’:28},
]
答:d1.sort(key=lambda x: x[‘age’])

38.请合并下面两个字典 a = {“A”:1,“B”:2},b = {“C”:3,“D”:4}
答:a.update(b)。

39.如何使用生成式的方式生成一个字典,写一段功能代码。
答:可使用yield或range生成器随后转为字典类型,答案来自@
圣䒩

40.如何把元组(“a”,“b”)和元组(1,2),变为字典{“a”:1,“b”:2}
答:zip((“a”,“b”),(1,2))

综合

41.Python 常用的数据结构的类型及其特性?
A:{1:0,2:0,3:0}
B:{“a”:0, “b”:0, “c”:0}
C: {(1,2):0, (2,3):0}
D: {[1,2]:0, [2,3]:0}
答:A为字典类型,无序key值不可重复,通过key值来取对应的value值。B也是字典类型,key值为string类型,也是通过dict[‘key’]的方式来取值。C也为字典类型,但key为元组

42.如何将元组(“A”,“B”)和元组(1,2),合并成字典{“A”:1,“B”:2}
答:dict(zip((“A”,“B”), (1,2)))即可。

43.Python 里面如何实现 tuple 和 list 的转换?
答:使用tuple()和list()函数实现转换

44.我们知道对于列表可以使用切片操作进行部分元素的选择,那么如何对生成器类型的对象实现相同的功能呢?
答:使用自带的itertools库进行实现,具体实现方式 itertools.islice(生成器对象,起始位置,结束位置),即可实现切片功能。

45.请将[i for i in range(3)]改成生成器
答: iter(range(3))

46.a=”hello”和 b=”你好”编码成 bytes 类型
答:a.encode()

47.下面的代码输出结果是什么?
a = (1,2,3,[4,5,6,7],8)
a[2] = 2
答:报错,元组元素不支持修改。

48.下面的代码输出的结果是什么?
a = (1,2,3,[4,5,6,7],8)
a[5] = 2
答:报错,列表看作是一个元素,5已经下标越界。

操作类题目

49.Python 交换两个变量的值
答:语法糖 a, b = b, a。

50.在读文件操作的时候会使用 read、readline 或者 readlines,简述它们各自的作用
答:read将整个文本都读取为一个字符串,占用内存大,readline读取为一个生成器,支持遍历和迭代,占用空间小。readlines将文本读取为列表,占用空间大。

51.json 序列化时,可以处理的数据类型有哪些?如何定制支持 datetime 类型?
答:字符串、数字(整数和浮点数)、字典、列表、布尔值、None。使用strftime将datetime格式化为标准字符串类型即可。

52.json 序列化时,默认遇到中文会转换成 unicode,如果想要保留中文怎么办?
答:使用json.dumps函数时,添加参数ensure_ascii=False,如果想显示的更美观,可以添加indent=2参数,会在每个key值前添加两个空格。

53.有两个磁盘文件 A 和 B,各存放一行字母,要求把这两个文件中的信息合并(按字母顺序排列),输出到一个新文件 C 中。
答:读取两个文件,利用split函数将字符串切割成列表,再将两个列表合并,利用sort函数对合并后的列表进行排序,最后将列表内容拼接成字符串写入即可。

54.如果当前的日期为 20190530,要求写一个函数输出 N 天后的日期,(比如 N 为 2,则输出 20190601)。
答:利用自带的datetime库即可实现,
55.写一个函数,接收整数参数 n,返回一个函数,函数的功能是把函数的参数和 n 相乘并把结果返回。
答:“`python
def fun(n):
def fun1(n, arg)
return n * arg
return fun1(n)

56.下面代码会存在什么问题,如何改进?

    def strappend(num):
        str='first'
        for i in range(num):
            str+=str(i)
        return str

答:没有对num进行校验,num应该为一整数,添加一个type类型校验。

57.一行代码输出 1-100 之间的所有偶数。
答:print(list(i for i in range(1, 101) if i%2 == 0))

58.with 语句的作用,写一段代码?
答:常用于打开文本后的自动关闭,例如:

with open("file_name", 'w') as f:
    dong sth.

59.python 字典和 json 字符串相互转化方法
答:使用 json库,字典-> json:json.dumps(dict),json->字典:json.loads(json_file)

60.请写一个 Python 逻辑,计算一个文件中的大写字母数量
答:

with open(file_name, 'r') as f:
    count = 0 
    for i in f.read():
        if i.isupper():
            count += 1
    print('大写字母数量为%d'%count)

高级特效

70.函数装饰器有什么作用?请列举说明?
答:装饰器可以在不修改函数的情况下,对函数的功能进行补充,例如对函数接受的参数进行检查更加详细的内容点此查看极客时间解答

71.Python 垃圾回收机制?
答:最简单的,Python每个变量上都有一个引用计数器,当引用计数器为0时,自动销毁变量。复杂一些的,例如存在互相引用的情况,这时Python依靠两个链表(标记-清除算法)进行垃圾回收。点击这里获得更详细的资料

72.魔法函数 __call__怎么使用?
答:__call__是将类创建为一个实例进行调用,多用在类装饰器中。可以将逻辑代码写在__call__下,不需要实例化类也可直接使用其中的代码。

73.如何判断一个对象是函数还是方法?
答:可以使用type()函数进行判断,函数与方法本质上没有差别,仅仅通过是否与类进行绑定进行区分。绑定后通过类实例化进行调用则为方法,未绑定直接调用即为函数。

74.@classmethod 和@staticmethod 用法和区别
答:classmethod必须实例化类以后才能使用,同时第一个参数由self变化为cls,staticmethod称为静态方法类似于全局函数,不需要实例化也能调用。

75.Python 中的接口如何实现?
答:在类中提前设置好方法,利用NotImplementedError错误,当子类没有覆写方法的时候进行报错。也可使用@abstractmethod对需要覆写的方法进行装饰,任何没有覆写该方法的子类都会报错。

76.Python 中的反射了解么?
答:反射是用于在类中寻找值的一种方式,有以下几种用法:hasattr(class, key)在实例中寻找是否存在key名的函数或是变量返回布尔值。getattr(class, key, tips)获得实例中变量或是方法的内存地址,可传入第三个参数修改报错提示。setattr(class, name, function)将函数以name为名字传入类中,通过 class.name(class) 的方式进行调用,setattr(class, name, value)传入变量及变量值,以class.name的形式调用。delattr(class, name)删除类中变量,不能删除函数。

77.metaclass 作用?以及应用场景?
答:该题不会,等正确答案

78.hasattr() getattr() setattr()的用法
答:hasattr(object,name)查询类中是否存在符合关键字的函数或者方法,返回布尔值。getattr(object, name, [default])查询函数是否存在指定名字的变量或是方法,返回变量的值或者函数内存地址,若不存在报错或是返回 default 中的自定义内容。

79.请列举你知道的 Python 的魔法方法及用途。
答:init 初始化类中的部分属性,new 最先执行的部分,可用来实现单例类,功能与78题类似的 __getattr__试图访问类中不存在的属性时会调用该方法,可自定义返回值, setattr 对类的属性进行新增和赋值,可以进行简单的条件筛选, __delattr__用于删除类中的方法或是属性。

80.如何知道一个 Python 对象的类型?
答:利用type()和isinstance(),前者用于区分对象的类型,后者主要用于区分子类与父类是否一致。

81.Python 的传参是传值还是传址?
答:都不是,Python当中所有东西都视作一个对象,每次的绑定都是在对象上增加一个引用,在使用过程中如果改变变量的值其实是将变量绑定到一个新对象上,如果修改对象的值那所有绑定在该对象的变量,在调用时都返回新值。详情点击这里查看

82.Python 中的元类(metaclass)使用举例
答:元类真的是盲区,现在还不是能理解元类的意义。

83.简述 any()和 all()方法
答:any(object)与all(object)区别,any主要判断对象中是否全为空值(0、’’、None、Flase)若对象内全部为空值则返回False否则返回True, all则是判断对象中是否存在空值,只要存在任一个空值则返回False否则返回True

84.filter 方法求出列表所有奇数并构造新列表,a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
答:list(filter(lambda x:x if x%2 == 1 else None, a))

85.什么是猴子补丁?
答:在运行代码的过程中,对某个方法或者属性进行替换的行为称为猴子补丁。例如某个模块中有一个查询方法,开发中查询数据库中某个数据。在测试的过程中,不想查询该数据库了,则在测试代码中覆盖这个方法,这种行为称为猴子补丁。具体内容可以参考猴子补丁相关知识点

86.在 Python 中是如何管理内存的?
答:参考71题的垃圾回收方式,Python 主要靠引用计数、垃圾回收、内存池管理进行内存管理。其中内存池较为复杂,这里给出博客链接,供大家参考内存池图文解释这篇博客讲的比较深,另外从内存池的设计方向展示了内存池的作用与设计原理,可以收藏了慢慢看。

87.当退出 Python 时是否释放所有内存分配?
答:具有对象循环引用或者全局命名空间引用的变量退出时会被释放
另外不会释放 C 库保留的部分内容。

正则表达式

88.使用正则表达式匹配出<html><h1>www.baidu.com</html>中的地址
答:

		pattern = "<html><h1>(.*?) </html>" 
		ma = pattern.match(<html><h1>www.baidu.com</html>) 
		print(ma.group(1)) 

a=“张明 98 分”,用 re.sub,将 98 替换为 100
答:re.sub(‘98’, ‘100’, a)
89.正则表达式匹配中(.)和(.?)匹配区别?
答:无问号默认为贪婪模式,即尽可能的多匹配字符,例如ab匹配abbb结果为abbb,若加上问号ab?则变为非贪婪模式,尽可能匹配更少的字符,匹配结果为a。

90.写一段匹配邮箱的正则表达式
答:邮箱形式太多,这里写一个QQ邮箱的匹配规则好了。[1-9][0-9]{4,}@qq.com这里考虑到QQ号都是从10000开始,所以限制数字字符串至少4位以上。

其他内容

91.解释一下 python 中 pass 语句的作用?
答:类似一个占位符,程序执行到这里默认执行一个空语句,通常用来给后续功能留位置的。

92.简述你对 input()函数的理解
答:输入函数,用于接受用户的输入,在Python3中默认输入内容为字符串类型。

93.python 中的 is 和= =
答:is检查对应的内存地址是否相同,==只检查值是否相同。

94.Python 中的作用域
答:作用域指的是函数名或者变量名的寻找顺序,优先级从高到低分别为局部作用域(子函数)、闭包函数外的函数中(父函数)、全局作用域(当前Python模块)、内建作用域(Python标准库)。

95.三元运算写法和应用场景?
答:形如 a= 'a' if b>1 else 'b',想用都能用,我个人感觉没有什么特定场景,属于一种偷懒写法。

96.了解 enumerate 么?
答:内置函数,用来枚举迭代器,返回结果为(index, value),可以方便的获得迭代器的下标和值,也可以接受第三个参数,用于修改起始下标,

for index, value in enumerate(list, 1):
	print(index, value)

则开始的下标从1开始。

97.列举 5 个 Python 中的标准模块
答:time(延时、日期)、re(正则)、random(随机)、urllib(网络请求)、os(系统)、csv(csv文件读写)、hashlib(哈希处理)、logging(日志)。

98.如何在函数中设置一个全局变量
答:使用global关键字,例如 global a; a=a+1这样即可在函数中修改全局变量a的值。

99.pathlib 的用法举例
答:这个库是用来消除windows系统和Linux系统路径分隔符不同的问题,实际使用过程中个人感觉意义不大,有兴趣的可以看官方文档了解一下。

100.Python 中的异常处理,写一个简单的应用场景
答:对文件的读写经常因为编码问题报错,这里使用 try …except的方法进行一个简单处理:

try:
		open('filename', 'r') as f:
			f.readlines()
	except:
		print('error')
	finally:
		f.close()

参考资料

101.Python 中递归的最大次数,那如何突破呢?
答:默认最大递归次数为1000,通过以下代码进行修改

import sys
sys.setrecursionlimit(10000)  # set the maximum depth as 10000

根据系统不同还存在解释器上限,windows下最大迭代次数约4400次,linux下最大迭代次数约为24900次。

102.什么是面向对象的 mro
答:MRO(Method Resolution Order):方法解析顺序。指对象在继承或多次继承后,方法的解析顺序。详细的解析可以看这里

103.isinstance 作用以及应用场景?
答:用于判断对象是否与已知对象类型一致,功能上类似type()函数,type不能分别是否继承,isinstance可以,具体解析参考这里

104.什么是断言?应用场景?
答:断言也是一种异常处理的方式,可以判断关键字后方的表达式是否为真,若为真则继续执行,若为假则抛出异常。常用于一些数据的检验。具体应用场景参考这里

105.lambda 表达式格式以及应用场景?
答:labmda又被称为匿名函数,用于一些简单的函数处理,例如:lambda x:x^2,这里将传入的x平方后返回,常常和循环结合在一起使用。

106.新式类和旧式类的区别
答:写法上不同,多重继承的属性搜索算法改变了,具体可以参考这里

107.dir()是干什么用的?
答:显示对象的属性和方法。

108.一个包里有三个模块,demo1.py, demo2.py, demo3.py,但使用 from tools import *导入模块时,如何保证只有 demo1、demo3 被导入了。
答:from tools import demo1, demo3。也可以在包内的__init__.py里写__all__=[‘demo1’, ‘demo3’],答案来自@forget_00

109.列举 5 个 Python 中的异常类型以及其含义
答:这个问题很基础,这里直接给出参考资料参考资料

110.copy 和 deepcopy 的区别是什么?
答:copy是浅拷贝,两个不同的变量指向同一个对象,其中一个变量改变对象时,会导致另一个变量的值发生改变。deepcopy为深拷贝,会重新创造一个与原对象一模一样的新对象。

111.代码中经常遇到的*args, **kwargs 含义及用法。
答:函数中经常需要传递参数,当向函数传递多个参数时,*arg会把多出来的位置参数转化为tuple,**kwarg会把关键字参数转化为dict。这样可以方便我们进行函数的设计。具体用法详见这里

112.Python 中会有函数或成员变量包含单下划线前缀和结尾,和双下划线前缀结尾,区别是什么?
答:单下划线前缀表示是私有变量或函数,按照约定不能直接调用,双下划线前缀代表类的私有方法,只有类自身可以访问,子类也不行。双下划线前缀结尾代表特殊方法,除了 Python 规定的函数以外,尽量不要使用。

113.w、a+、wb 文件写入模式的区别
答:w为写模式,会覆盖旧有内容,写入形式为字符串。a+为追加模式,会在旧有内容的后面进行内容的添加,写入形式为字符串。wb为写模式,会覆盖旧有内容,写入形式为二进制。

114.举例 sort 和 sorted 的区别
答:使用方法上,list.sort()、sorted(list)。结果上 sort() 会改变原对象的排列顺序,sorted() 只会返回改变后的值,原对象不产生变化。

115.什么是负索引?
答:正常的索引从头开始, 0 至 n-1 结束,负索引则是从结尾开始,-1 至 -n 为范围

116.pprint 模块是干什么的?
答:也是用于输出,用于输出更好看的格式。

117.解释一下 Python 中的赋值运算符
答:等号左边为变量名,右边为值,将右边的值赋给左边的变量。右边如果是表达式,会将结果赋予左边的变量。赋值运算符有(=,+=,-=,//=,%=,*=,/=)具体看这里

118.解释一下 Python 中的逻辑运算符
答:or 或,and 和,not 非。具体意思参见上一个问题的答案。

119.讲讲 Python 中的位运算符
答:117-119三个问题的答案均在 117 的参考链接中,诸君自取。

120.在 Python 中如何使用多进制数字?
答:在数字前添加前缀,0b或0B前缀表示二进制数,前缀0o或0O表示8进制数,前缀0x或者0X表示16进制数。

121.怎样声明多个变量并赋值?
答: a, b = 1, 2。

算法和数据结构

122.已知:
AList = [1,2,3]
BSet = {1,2,3}
(1) 从 AList 和 BSet 中 查找 4,最坏时间复杂度那个大?
答:列表是数组,集合是链表;所以列表的插入时间复杂度为O(n),查找复杂度为O(1);链表插入时间复杂度为O(1),查找为O(n),答案来自@牧羊人sss
(2) 从 AList 和 BSet 中 插入 4,最坏时间复杂度那个大?
123.用 Python 实现一个二分查找的函数
答:
124.python 单例模式的实现方法
125.使用 Python 实现一个斐波那契数列
答:这里先提供程序出处,不仅解决了问题,同时也讨论了同一问题的不同解法,有兴趣的可以看一下点我查看详细内容

def fun(n):
    a, b = 0, 1
    while n>0:
        yield b
        a, b = b, a+b
        n -= 1

126.找出列表中的重复数字
答:准备一个空列表,循环目标列表里的元素,不重复的丢进新列表里,查到重复的就把下标和值打印出来。

127.找出列表中的单个数字
答:遍历列表,找到相等的输出下标和值。

128.写一个冒泡排序
答:

def fun(list):
	for i in range(0, len(list) - 1):#外层循环,每个元素都参与一次比较
		for j in range(0, len(list) - 1 - i):#内部循环,每个元素只与自己后面的元素做比较
			if x[j] < x[j+1]:
				x[j], x[j+1] =x[j+1], x[j] #互换元素位置
	return list #返回排序好的列表

129.写一个快速排序
答:
130.写一个拓扑排序
131.python 实现一个二进制计算
132.有一组“+”和“-”符号,要求将“+”排到左边,“-”排到右边,写出具体的实现方法。
133.单链表反转
134.交叉链表求交点
135.用队列实现栈
136.找出数据流的中位数
137.二叉搜索树中第 K 小的元素

爬虫相关

138.在 requests 模块中,requests.content 和 requests.text 什么区别
答:requests.content 是二进制字符串,requests.text 返回的是普通字符串。

139.简要写一下 lxml 模块的使用方法框架
答:使用 etree 对 html 文件进行解析,获取对应的 tag 和属性。

140.说一说 scrapy 的工作流程
答:
141.scrapy 的去重原理
142.scrapy 中间件有几种类,你用过哪些中间件
143.你写爬虫的时候都遇到过什么反爬虫措施?你是怎么解决的?
答:限制访问次数,检验浏览器头,异步加载,验证码,限制 IP 。限制访问速度的加延时,浏览器头加 headers 参数,异步加载抓包找访问地址,验证码接打码平台或者用自动化框架过,IP 用代理。还有遇到内容是用 JS 脚本拼接的,这个无能为力,JS 水平太菜看不懂。

144.为什么会用到代理?
答:很多网站限制 IP 访问的速度和次数,导致大规模采集的时候影响速度,所以用代理的方式绕过。

145.代理失效了怎么处理?
答:一般尝试三次,失败了重新丢回队列中,换个代理地址继续用。

146.列出你知道 header 的内容以及信息
答:UA:浏览器头信息,refer:表示从哪个网页跳转的,还有一些比较小的忘记了,回头补上。

147.说一说打开浏览器访问 www.baidu.com 获取到结果,整个流程。
答:先向 DNS 服务器查询对应 IP ,浏览器访问 IP ,网站响应若是 HTTPS 的验证一下证书,然后 TCP 三次握手开始传数据。

148.爬取速度过快出现了验证码怎么处理
答:降速,上打码平台,尝试登录后爬取,挂代理多 IP 爬。

149.scrapy 和 scrapy-redis 有什么区别?为什么选择 redis 数据库?
150.分布式爬虫主要解决什么问题
151.写爬虫是用多进程好?还是多线程好? 为什么?
答:限制爬虫的两方面,一个是网络请求速度,这个通过线程来提升。另一个是硬盘读写,这个用多进程解决。

152.解析网页的解析器使用最多的是哪几个
答:BeautifulSoup,lxml。

153.需要登录的网页,如何解决同时限制 ip,cookie,session(其中有一些是动态生成的)在不使用动态爬取的情况下?
答:自动化框架。

154.验证码的解决(简单的:对图像做处理后可以得到的,困难的:验证码是点击,拖动等动态进行的?)
答:简单的图像识别,困难的自动化框架,再不行接打码平台。

155.使用最多的数据库(mysql,mongodb,redis 等),对他的理解?
答:数据库不太熟悉,很多时候用 csv 存数据,这题以后答。

网络编程

156.TCP 和 UDP 的区别?
答:TCP 是大家商量好以后传数据, UDP 是我不管你准备好没有,直接发数据。

157.简要介绍三次握手和四次挥手
158.什么是粘包? socket 中造成粘包的原因是什么? 哪些情况会发生粘包现象?

并发

159.举例说明 conccurent.future 的中线程池的用法
160.说一说多线程,多进程和协程的区别。
答:以前看过一个描述,程序运行就像大家一起吃饭,多线程就是一个人拿两个勺子吃,勺子再多只有一张嘴。多进程就是一堆人一起吃,虽然只有一个勺子,但是嘴多吃的快。多线程只能提高效率,本身占用的资源取决于进程。协程是线程手下的小弟,和线程的关系可以类比于线程和进程的关系。但是协程间切换的消耗远低于线程间切换的消耗,原因是线程和进程的控制取决于内核,而协程的控制取决于程序。

161.简述 GIL
答:技术进步,CPU从原来的单核变为了多核,为了防止程序在多线程操作的时候同时执行,加了一个GIL锁,保证在同一时刻只能有一个线程在运行程序。详情点这里

162.进程之间如何通信
答:一种是采用队列Queue的方式,多用于多进程通信。通过 put 和 get 方法向队列中放入值和取出值实现通信。Pipe常于两个进程间通信,利用 send 和 recv 发送和接受变量。详情见这里

163.IO 多路复用的作用?
答:节约资源,一个进程监听多个文件的状态,利用轮询代替一对一监控。

164.select、poll、epoll 模型的区别?
答:select 利用系统自身调度系统,生成一个数组,将监控的文件描述符都放进去,进行遍历监控,文件就绪时传递给程序进行处理。poll 和select 类似,但由于select 类型是数组,存在上限,而 poll 使用链表,没有上限,同时效率比起select 更高。epoll 改进了前两种方式,利用回调函数的方法,将就绪的文件描述符添加进一个数组中,只对这个数组进行遍历。详情见这里

165.什么是并发和并行?
答:并发就是多个线程轮流执行,并行就是多个线程同时执行。

167.解释什么是异步非阻塞?
答:发送方发送数据后不等回复就继续做自己的事,接收方接到数据后一边进行数据处理一边做自己的事,处理结束后将结果传回给发送方。这样的方式称为异步非阻塞,同理有同步阻塞/非阻塞,异步阻塞/非阻塞。详情请点这里

168.threading.local 的作用?
答:用于保存一个全局变量,这个变量只能在当前的线程中进行访问。

Git 面试题

169.说说你知道的 git 命令
170.git 如何查看某次提交修改的内容x


2019.9.20
完成了大部分的问题,剩下的是一些通识类和较为困难的问题,非常感谢在评论区留言的各位,接下来的时间我将会逐步完善各个问题的回答,下一步的计划是开坑 flask 框架搭建个人博客的教程,有兴趣的可以关注我,有问题也可以发站内信,看到就会回复,再次感谢各位的耐心阅读。

今天的文章关于Python爬虫面试170道题分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/34014.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注