
第 1 章 IPython:超越 Python
核心内容:IPython 交互式环境与 Jupyter Notebook 的使用技巧,包括快捷键、魔法命令、调试工具、代码分析与计时方法。
重点:高效的交互式编程环境、帮助文档查阅、shell 命令集成、代码调试与性能优化。
第 2 章 NumPy 入门
核心内容:NumPy 数组的存储与操作,向量化计算、广播机制、花哨索引、结构化数组。
重点:
数组基础:属性、索引、切片、变形与拼接。
通用函数(ufunc)与广播机制。
统计聚合(求和、均值、分位数)。
结构化数据存储与操作。
第 3 章 Pandas 数据处理
核心内容:Pandas 的 Series 与 DataFrame 数据结构,数据清洗、合并、分组与可视化。
重点:
Series 与 DataFrame 的索引与选择。
缺失值处理、层级索引、数据合并(concat 与 merge)。
分组操作(GroupBy)、数据透视表(Pivot Table)。
向量化字符串操作与时间序列处理。
第 4 章 Matplotlib 数据可视化
核心内容:Matplotlib 的绘图功能,结合 Seaborn 与地理数据可视化。
重点:
基础绘图(线图、散点图、直方图)。
多子图布局、颜色条、文本注释。
三维绘图与地理数据可视化(Basemap)。
统计图表(Seaborn 集成)。
第 5 章 机器学习
核心内容:Scikit-Learn 的机器学习算法与模型构建。
重点:
模型验证(交叉验证、网格搜索)。
特征工程(文本、图像特征处理)。
经典算法(SVM、随机森林、主成分分析)。
聚类与降维(k-means、流形学习)。
实际案例(人脸识别、手写数字分类)。
中心思想
本书系统地介绍了 Python 在数据科学领域的核心工具,通过以下核心目标帮助读者掌握数据科学实践:
工具整合:
以 IPython 为交互环境,NumPy 进行高效数值计算,Pandas 处理结构化数据,Matplotlib 可视化分析结果,Scikit-Learn 实现机器学习算法,形成完整的数据科学工作流。
数据驱动分析:
强调向量化计算(NumPy)与灵活的数据操作(Pandas),结合可视化(Matplotlib)和统计建模(Scikit-Learn),帮助读者从原始数据中提取洞见。
跨学科能力培养:
融合统计学(如聚合、分位数)、计算机科学(如高效算法、内存优化)和领域知识(如特征工程),培养解决实际数据问题的综合能力。
实战导向:
通过大量案例(如行星数据、食谱数据库、天气数据)演示工具的应用,强调数据清洗、分析与模型部署的全流程。
目标读者:具备编程基础的数据科学从业者,旨在掌握 Python 生态工具链,高效完成数据存储、处理、可视化与建模任务。
电子书下载地址:
通过网盘分享的文件:Python数据科学手册.pdf
链接: https://pan.baidu.com/s/1YsNcMhj7zwcLCOyM68gS4A 提取码: h5rr
