{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# pandas概述"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 1. pandas简介"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<img src=\"images/ch8/9.png\" style=\"zoom:40%;\">"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
" pandas是一个建立在Python编程语言之上,快速、强大、灵活且易于使用的开源数据分析和操作工具,pandas名字衍生自术语“panel data”(面板数据)和“Python data analysis”(Python 数据分析)。\n",
"\n",
"pandas的优势在于:\n",
"* 用于分析和操作大型结构化数据集的强大工具集\n",
"* 基础是NumPy,提供了高性能矩阵的运算\n",
"* 提供大量函数和方法,可以快速轻松地处理数据\n",
"* 应用于数据挖掘、数据分析\n",
"* 提供数据清洗功能\n",
"\n",
"本课程仅介绍常用部分,其余请查阅[pandas官方文档](https://pandas.pydata.org/docs/index.html)。\n",
"\n",
"通常推荐用以下的方式导入pandas,库名被缩写为pd是一个被广泛采用的约定。\n",
"```python\n",
"import pandas as pd\n",
"```"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 2. pandas提供的数据结构"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"pandas库主要提供Series和DataFrame两类数据结构对象。\n",
"\n",
"* **Series**:Series是一维标记数组,可以存储任意数据类型,与Numpy中的数组(Array)相似数组中只允许存储相同的数据类型。Series增加了一个标签用于索引,使Pandas除了通过位置索引外,还可以通过标签索引进行元素存取。\n",
"* **DataFrame**:DataFrame是二维标记数据结构,相当于表格。主体分数据和索引两部分。数据以行(Row)和列(Column)的表格方式排列,潜在的列可以是不同的数据类型。索引分行索引(Row Index)和列索引(Column Index)。\n",
"\n",
"Pandas 所有数据结构的值都是可变的,但数据结构的大小并非都是可变的,比如,Series 的长度不可改变,但 DataFrame 里就可以插入列。Pandas 里,绝大多数方法都不改变原始的输入数据,而是复制数据,生成新的对象。 一般来说,原始输入数据不变更稳妥。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<img src=\"images/ch8/10.png\" style=\"zoom:100%;\">"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.5"
}
},
"nbformat": 4,
"nbformat_minor": 2
}