password
icon
URL
type
date
summary
status
slug
tags
category

Python语言进阶

notion image

重要知识点

  • 生成式(推导式)的用法
    • 说明:生成式(推导式)可以用来生成列表、集合和字典。
  • 嵌套的列表的坑
  • heapq模块(堆排序)
    • itertools模块
      • collections模块
        • 常用的工具类:
        • namedtuple:命令元组,它是一个类工厂,接受类型的名称和属性列表来创建一个类。
        • deque:双端队列,是列表的替代实现。Python中的列表底层是基于数组来实现的,而deque底层是双向链表,因此当你需要在头尾添加和删除元素时,deque会表现出更好的性能,渐近时间复杂度为O(1)。
        • Counterdict的子类,键是元素,值是元素的计数,它的most_common()方法可以帮助我们获取出现频率最高的元素。Counterdict的继承关系我认为是值得商榷的,按照CARP原则,Counterdict的关系应该设计为关联关系更为合理。
        • OrderedDictdict的子类,它记录了键值对插入的顺序,看起来既有字典的行为,也有链表的行为。
        • defaultdict:类似于字典类型,但是可以通过默认的工厂函数来获得键对应的默认值,相比字典中的setdefault()方法,这种做法更加高效。

      数据结构和算法

      • 算法:解决问题的方法和步骤
      • 评价算法的好坏:渐近时间复杂度和渐近空间复杂度。
      • 渐近时间复杂度的大O标记:
        • - 常量时间复杂度 - 布隆过滤器 / 哈希存储
          • notion image
        • - 对数时间复杂度 - 折半查找(二分查找)
          • notion image
        • - 线性时间复杂度 - 顺序查找 / 计数排序
          • notion image
        • - 对数线性时间复杂度 - 高级排序算法(归并排序、快速排序)
          • notion image
        • - 平方时间复杂度 - 简单排序算法(选择排序、插入排序、冒泡排序)
          • notion image
        • - 立方时间复杂度 - Floyd算法 / 矩阵乘法运算
          • notion image
        • - 几何级数时间复杂度 - 汉诺塔
          • notion image
        • - 阶乘时间复杂度 - 旅行经销商问题 - NPC
          • notion image
      notion image
      notion image
      • 排序算法(选择、冒泡和归并)和查找算法(顺序和折半)
        • 常用算法:
          • 穷举法 - 又称为暴力破解法,对所有的可能性进行验证,直到找到正确答案。
          • 贪婪法 - 在对问题求解时,总是做出在当前看来
          • 最好的选择,不追求最优解,快速找到满意解。
          • 分治法 - 把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题,直到可以直接求解的程度,最后将子问题的解进行合并得到原问题的解。
          • 回溯法 - 回溯法又称为试探法,按选优条件向前搜索,当搜索到某一步发现原先选择并不优或达不到目标时,就退回一步重新选择。
          • 动态规划 - 基本思想也是将待求解问题分解成若干个子问题,先求解并保存这些子问题的解,避免产生大量的重复运算。
          • 穷举法例子:百钱百鸡和五人分鱼。
            贪婪法例子:假设小偷有一个背包,最多能装20公斤赃物,他闯入一户人家,发现如下表所示的物品。很显然,他不能把所有物品都装进背包,所以必须确定拿走哪些物品,留下哪些物品。
            名称
            价格(美元)
            重量(kg)
            电脑
            200
            20
            收音机
            20
            4
            175
            10
            花瓶
            50
            2
            10
            1
            油画
            90
            9
            分治法例子:快速排序
            回溯法例子:骑士巡逻
            动态规划例子:子列表元素之和的最大值。
            说明:子列表指的是列表中索引(下标)连续的元素构成的列表;列表中的元素是int类型,可能包含正整数、0、负整数;程序输入列表中的元素,输出子列表元素求和的最大值,例如:
            输入:1 -2 3 5 -3 2
            输出:8
            输入:0 -2 3 5 -1 2
            输出:9
            输入:-9 -2 -3 -5 -3
            输出:-2
            说明:这个题目最容易想到的解法是使用二重循环,但是代码的时间性能将会变得非常的糟糕。使用动态规划的思想,仅仅是多用了两个变量,就将原来O(N2)复杂度的问题变成了O(N)。

        函数的使用方式

        • 将函数视为“一等公民”
          • 函数可以赋值给变量
          • 函数可以作为函数的参数
          • 函数可以作为函数的返回值
        • 高阶函数的用法(filtermap以及它们的替代品)
          • 位置参数、可变参数、关键字参数、命名关键字参数
          • 参数的元信息(代码可读性问题)
          • 匿名函数和内联函数的用法(lambda函数)
          • 闭包和作用域问题
            • Python搜索变量的LEGB顺序(Local >>> Embedded >>> Global >>> Built-in)
            • globalnonlocal关键字的作用
              • global:声明或定义全局变量(要么直接使用现有的全局作用域的变量,要么定义一个变量放到全局作用域)。
                nonlocal:声明使用嵌套作用域的变量(嵌套作用域必须存在该变量,否则报错)。
          • 装饰器函数(使用装饰器和取消装饰器)
            • 例子:输出函数执行时间的装饰器。
              如果装饰器不希望跟print函数耦合,可以编写可以参数化的装饰器。
              说明:由于对带装饰功能的函数添加了@wraps装饰器,可以通过func.__wrapped__方式获得被装饰之前的函数或类来取消装饰器的作用。
              例子:用装饰器来实现单例模式。
              提示:上面的代码中用到了闭包(closure),不知道你是否已经意识到了。还没有一个小问题就是,上面的代码并没有实现线程安全的单例,如果要实现线程安全的单例应该怎么做呢?
              线程安全的单例装饰器。
              提示:上面的代码用到了with上下文语法来进行锁操作,因为锁对象本身就是上下文管理器对象(支持__enter__和__exit__魔术方法)。在wrapper函数中,我们先做了一次不带锁的检查,然后再做带锁的检查,这样做比直接加锁检查性能要更好,如果对象已经创建就没有必须再去加锁而是直接返回该对象就可以了。

          面向对象相关知识

          • 三大支柱:封装、继承、多态
            • 例子:工资结算系统。
          • 类与类之间的关系
            • is-a关系:继承
            • has-a关系:关联 / 聚合 / 合成
            • use-a关系:依赖
            • 例子:扑克游戏。
              说明:上面的代码中使用了Emoji字符来表示扑克牌的四种花色,在某些不支持Emoji字符的系统上可能无法显示。
          • 对象的复制(深复制/深拷贝/深度克隆和浅复制/浅拷贝/影子克隆)
          • 垃圾回收、循环引用和弱引用
            • Python使用了自动化内存管理,这种管理机制以引用计数为基础,同时也引入了标记-清除分代收集两种机制为辅的策略。
              导致引用计数+1的情况:
            • 对象被创建,例如a = 23
            • 对象被引用,例如b = a
            • 对象被作为参数,传入到一个函数中,例如f(a)
            • 对象作为一个元素,存储在容器中,例如list1 = [a, a]
            • 导致引用计数-1的情况:
            • 对象的别名被显式销毁,例如del a
            • 对象的别名被赋予新的对象,例如a = 24
            • 一个对象离开它的作用域,例如f函数执行完毕时,f函数中的局部变量(全局变量不会)
            • 对象所在的容器被销毁,或从容器中删除对象
            • 引用计数可能会导致循环引用问题,而循环引用会导致内存泄露,如下面的代码所示。为了解决这个问题,Python中引入了“标记-清除”和“分代收集”。在创建一个对象的时候,对象被放在第一代中,如果在第一代的垃圾检查中对象存活了下来,该对象就会被放到第二代中,同理在第二代的垃圾检查中对象存活下来,该对象就会被放到第三代中。
              以下情况会导致垃圾回收:
            • 调用gc.collect()
            • gc模块的计数器达到阀值
            • 程序退出
            • 如果循环引用中两个对象都定义了__del__方法,gc模块不会销毁这些不可达对象,因为gc模块不知道应该先调用哪个对象的__del__方法,这个问题在Python 3.6中得到了解决。
              也可以通过weakref模块构造弱引用的方式来解决循环引用的问题。
          • 魔法属性和方法(请参考《Python魔法方法指南》)
            • 有几个小问题请大家思考:
            • 自定义的对象能不能使用运算符做运算?
            • 自定义的对象能不能放到set中?能去重吗?
            • 自定义的对象能不能作为dict的键?
            • 自定义的对象能不能使用上下文语法?
          • 混入(Mixin)
            • 例子:自定义字典限制只有在指定的key不存在时才能在字典中设置键值对。
          • 元编程和元类
            • 对象是通过类创建的,类是通过元类创建的,元类提供了创建类的元信息。所有的类都直接或间接的继承自object,所有的元类都直接或间接的继承自type
              例子:用元类实现单例模式。
          • 面向对象设计原则
            • 单一职责原则 (SRP)- 一个类只做该做的事情(类的设计要高内聚)
            • 开闭原则 (OCP)- 软件实体应该对扩展开发对修改关闭
            • 依赖倒转原则(DIP)- 面向抽象编程(在弱类型语言中已经被弱化)
            • 里氏替换原则(LSP) - 任何时候可以用子类对象替换掉父类对象
            • 接口隔离原则(ISP)- 接口要小而专不要大而全(Python中没有接口的概念)
            • 合成聚合复用原则(CARP) - 优先使用强关联关系而不是继承关系复用代码
            • 最少知识原则(迪米特法则,LoD)- 不要给没有必然联系的对象发消息
            • 说明:上面加粗的字母放在一起称为面向对象的SOLID原则。
          • GoF设计模式
            • 创建型模式:单例、工厂、建造者、原型
            • 结构型模式:适配器、门面(外观)、代理
            • 行为型模式:迭代器、观察者、状态、策略
            • 例子:可插拔的哈希算法(策略模式)。

          迭代器和生成器

          • 迭代器是实现了迭代器协议的对象。
            • Python中没有像protocolinterface这样的定义协议的关键字。
            • Python中用魔术方法表示协议。
            • __iter____next__魔术方法就是迭代器协议。
          • 生成器是语法简化版的迭代器。
            • 生成器进化为协程。
              • 生成器对象可以使用send()方法发送数据,发送的数据会成为生成器函数中通过yield表达式获得的值。这样,生成器就可以作为协程使用,协程简单的说就是可以相互协作的子程序。

            并发编程

            Python中实现并发编程的三种方案:多线程、多进程和异步I/O。并发编程的好处在于可以提升程序的执行效率以及改善用户体验;坏处在于并发的程序不容易开发和调试,同时对其他程序来说它并不友好。
            • 多线程:Python中提供了Thread类并辅以LockConditionEventSemaphoreBarrier。Python中有GIL来防止多个线程同时执行本地字节码,这个锁对于CPython是必须的,因为CPython的内存管理并不是线程安全的,因为GIL的存在多线程并不能发挥CPU的多核特性。
              • 多个线程竞争资源的情况。
                修改上面的程序,启动5个线程向账户中存钱,5个线程从账户中取钱,取钱时如果余额不足就暂停线程进行等待。为了达到上述目标,需要对存钱和取钱的线程进行调度,在余额不足时取钱的线程暂停并释放锁,而存钱的线程将钱存入后要通知取钱的线程,使其从暂停状态被唤醒。可以使用threading模块的Condition来实现线程调度,该对象也是基于锁来创建的,代码如下所示:
            • 多进程:多进程可以有效的解决GIL的问题,实现多进程主要的类是Process,其他辅助的类跟threading模块中的类似,进程间共享数据可以使用管道、套接字等,在multiprocessing模块中有一个Queue类,它基于管道和锁机制提供了多个进程共享的队列。下面是官方文档上关于多进程和进程池的一个示例。
              • 重点:多线程和多进程的比较。
                以下情况需要使用多线程:
                1. 程序需要维护许多共享的状态(尤其是可变状态),Python中的列表、字典、集合都是线程安全的,所以使用线程而不是进程维护共享状态的代价相对较小。
                1. 程序会花费大量时间在I/O操作上,没有太多并行计算的需求且不需占用太多的内存。
                以下情况需要使用多进程:
                1. 程序执行计算密集型任务(如:字节码操作、数据处理、科学计算)。
                1. 程序的输入可以并行的分成块,并且可以将运算结果合并。
                1. 程序在内存使用方面没有任何限制且不强依赖于I/O操作(如:读写文件、套接字等)。
            • 异步处理:从调度程序的任务队列中挑选任务,该调度程序以交叉的形式执行这些任务,我们并不能保证任务将以某种顺序去执行,因为执行顺序取决于队列中的一项任务是否愿意将CPU处理时间让位给另一项任务。异步任务通常通过多任务协作处理的方式来实现,由于执行时间和顺序的不确定,因此需要通过回调式编程或者future对象来获取任务执行的结果。Python 3通过asyncio模块和awaitasync关键字(在Python 3.7中正式被列为关键字)来支持异步处理。
              • 说明:上面的代码使用get_event_loop函数获得系统默认的事件循环,通过gather函数可以获得一个future对象,future对象的add_done_callback可以添加执行完成时的回调函数,loop对象的run_until_complete方法可以等待通过future对象获得协程执行结果。
                Python中有一个名为aiohttp的三方库,它提供了异步的HTTP客户端和服务器,这个三方库可以跟asyncio模块一起工作,并提供了对Future对象的支持。Python 3.6中引入了asyncawait来定义异步执行的函数以及创建异步上下文,在Python 3.7中它们正式成为了关键字。下面的代码异步的从5个URL中获取页面并通过正则表达式的命名捕获组提取了网站的标题。
                重点:异步I/O与多进程的比较。
                当程序不需要真正的并发性或并行性,而是更多的依赖于异步处理和回调时,asyncio就是一种很好的选择。如果程序中有大量的等待与休眠时,也应该考虑asyncio,它很适合编写没有实时数据处理需求的Web应用服务器。
                Python还有很多用于处理并行任务的三方库,例如:joblibPyMP等。实际开发中,要提升系统的可扩展性和并发性通常有垂直扩展(增加单个节点的处理能力)和水平扩展(将单个节点变成多个节点)两种做法。可以通过消息队列来实现应用程序的解耦合,消息队列相当于是多线程同步队列的扩展版本,不同机器上的应用程序相当于就是线程,而共享的分布式消息队列就是原来程序中的Queue。消息队列(面向消息的中间件)的最流行和最标准化的实现是AMQP(高级消息队列协议),AMQP源于金融行业,提供了排队、路由、可靠传输、安全等功能,最著名的实现包括:Apache的ActiveMQ、RabbitMQ等。
                要实现任务的异步化,可以使用名为Celery的三方库。Celery是Python编写的分布式任务队列,它使用分布式消息进行工作,可以基于RabbitMQ或Redis来作为后端的消息代理。
                 
                 
                欢迎访问我们的网站和关注我们的公众号,获取最新的技术共享内容、创新想法和安全知识。
                微信公众号:黑客驰
                notion image
                💡
                免责声明
                本文为技术共享文章,仅有教育交流目的,不构成任何法律或专业建议。读者应自行承担使用该文章所产生的风险和责任。作者和组织不对使用该文章所引起的任何损失或损害负责。
                本文严禁提供、讨论或鼓励任何网络安全违法行为。请遵守法律法规,进行合法的技术共享活动。
                 
            Python网络爬虫Linux操作系统大白(此处轻读)话
            Loading...
            黑客驰
            黑客驰
            对黑客着迷的人💻
            公告
            公众号
            公众号
             
            “黑客”一词是由英语Hacker英译出来的,是指专门研究、发现计算机和网络漏洞的计算机爱好者。某些情况下,黑客也可泛指各领域专家。如,游戏黑客,销售黑客等。
             
            我们遵守法律,进行教育目的的研究。违法行为请自负后果
             
            专门利用计算机进行破坏或入侵他人的人是cracker,翻译成“骇客”,他们不是黑客。
            2023-2025 黑客驰.

            黑客驰 | 对黑客着迷的人💻

            Powered by HyphenTech