数据结构和算法-15-通过某个字段将记录分组

问题描述

有一个字典或者实例的序列,如:

1
2
3
4
5
6
7
8
9
10
rows = [
{'address': '5412 N CLARK', 'date': '07/01/2012'},
{'address': '5148 N CLARK', 'date': '07/04/2012'},
{'address': '5800 E 58TH', 'date': '07/02/2012'},
{'address': '2122 N CLARK', 'date': '07/03/2012'},
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address': '1060 W ADDISON', 'date': '07/02/2012'},
{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

然后我们想根据某个特定的字段(比如 date )来分组进行迭代访问,如何做呢?

解决方案

现在假设我们想在按 date 分组后的数据块上进行迭代访问。

为了这样做,

我们首先需要按照指定的字段(这里就是 date )排序, 然后调用 itertools.groupby() 函数:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
from itertools import groupby
from operator import itemgetter

rows = [
{'address': '5412 N CLARK', 'date': '07/01/2012'},
{'address': '5148 N CLARK', 'date': '07/04/2012'},
{'address': '5800 E 58TH', 'date': '07/02/2012'},
{'address': '2122 N CLARK', 'date': '07/03/2012'},
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address': '1060 W ADDISON', 'date': '07/02/2012'},
{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]
def test_group_by():
# 通过 date 进行排序
rows.sort(key=itemgetter('date'))
# 通过 itertools.groupby 进行分组迭代,日期相同的会被分到同一组
for date, items in groupby(rows, key=itemgetter('date')):
print(date)
for i in items:
print(' ', i)

运行结果:

1
2
3
4
5
6
7
8
9
10
11
12
07/01/2012
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
{'address': '5800 E 58TH', 'date': '07/02/2012'}
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
{'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
{'address': '5148 N CLARK', 'date': '07/04/2012'}
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}

扩展讨论

groupby() 函数扫描整个序列并且查找连续相同值(或者根据指定 key 函数返回值相同)的元素序列。

在每次迭代的时候,它会返回一个值和一个迭代器对象, 这个迭代器对象生成的元素值等于上面那个值组中的所有对象。

有一个非常重要的准备步骤是「要根据指定的字段将数据排序」。 因为 groupby() 仅仅检查连续的元素,如果事先并没有排序完成的话,分组函数将得不到想要的结果。

如果我们仅仅只是想根据 date 字段将数据分组到一个大的数据结构中去并且允许随机访问, 那最好使用 defaultdict() 来构建一个多值字典。

比如:

1
2
3
4
5
from collections import defaultdict

rows_by_date = defaultdict(list) #一个多值字典
for row in rows:
rows_by_date[row['date']].append(row)

这样就可以很轻松的对每个指定日期访问对应的记录:

1
2
3
4
5
6
>>> for r in rows_by_date['07/01/2012']:
... print(r)
...
{'date': '07/01/2012', 'address': '5412 N CLARK'}
{'date': '07/01/2012', 'address': '4801 N BROADWAY'}
>>>

在上面这个例子中,我们没有必要先将记录排序。因此,如果对内存占用不是很关心, 这种方式会比先排序然后再通过 groupby() 函数迭代的方式运行得快一些

毕小烦 wechat
「请扫一扫上面的二维码,关注老毕的微信公众号」
「您的赞赏是老毕持续创作的动力」