gh-112653: Intern dataclass field names to improve performance by XuehaiPan · Pull Request #112657 · python/cpython

XuehaiPan · 2023-12-03T11:59:12Z

This PR interns field names of user-defined dataclasses. This interning operation only occurs on the type creation. This operation is a one-time operation and the overhead is relatively small. We already do similar improvements for namedtuple.

cpython/Lib/collections/__init__.py

Line 384 in a971574

typename = _sys.intern(str(typename))

cpython/Lib/collections/__init__.py

Line 424 in a971574

field_names = tuple(map(_sys.intern, field_names))

Resolves #112653

Issue: Intern dataclass field names to improve performance #112653

sobolevn

If the intent is

to improve performance

can you please share some numbers about it?

XuehaiPan · 2023-12-03T13:11:42Z

can you please share some numbers about it?

Here is an example use case:

import dataclasses


@dataclasses.dataclass
class Foo:
    a: int = dataclasses.field(default=0)
    b: int = dataclasses.field(default=0)
    c: int = dataclasses.field(default=0)
    d: int = dataclasses.field(default=0)
    e: int = dataclasses.field(default=0)
    f: int = dataclasses.field(default=0)
    g: int = dataclasses.field(default=0)
    h: int = dataclasses.field(default=0)
    i: int = dataclasses.field(default=0)
    j: int = dataclasses.field(default=0)
    k: int = dataclasses.field(default=0)
    l: int = dataclasses.field(default=0)
    m: int = dataclasses.field(default=0)
    n: int = dataclasses.field(default=0)
    o: int = dataclasses.field(default=0)
    p: int = dataclasses.field(default=0)
    q: int = dataclasses.field(default=0)
    r: int = dataclasses.field(default=0)
    s: int = dataclasses.field(default=0)
    t: int = dataclasses.field(default=0)
    u: int = dataclasses.field(default=0)
    v: int = dataclasses.field(default=0)
    w: int = dataclasses.field(default=0)
    x: int = dataclasses.field(default=0)
    y: int = dataclasses.field(default=0)
    z: int = dataclasses.field(default=0)

Benchmark results:

>>> %timeit Foo()
Before:
1.5 µs ± 110 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
After:
1.36 µs ± 36.1 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)

>>> foo = Foo()
>>> %timeit dataclasses.asdict(foo)
Before:
9.67 µs ± 749 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
After:
9.08 µs ± 60.1 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)

The patched version constantly runs faster and has a smaller variance in running time.

sobolevn · 2023-12-03T15:40:47Z

What about dataclasses with reasonable amount of fields? Like 0, 1, 5? Can you also test these use-cases?

XuehaiPan · 2023-12-03T16:50:34Z

I do some benchmarks. Interning the field names always improves the performance of dataclasses.asdict(). The performance gain is vary from 3% (1 field) to 5% (64 fields).

However, interning the default factory names may have a negative impact during the instantiation. I removed this in the last commit.

Script

import textwrap
import timeit

NUMBER = 1_000_000
REPEAT = 5

for num_fields in [1, 2, 3, 4, 5, 8, 16, 32, 64]:
    SETUP = textwrap.dedent(
        f"""
        import dataclasses

        Foo = dataclasses.make_dataclass(
            'Foo',
            fields=[
                (f'field_xxx_{{i}}', int, dataclasses.field(default=0))
                for i in range({num_fields})
            ],
        )

        foo = Foo()
        """
    ).strip()

    ctor_time = (
        min(
            timeit.repeat(
                'Foo()',
                setup=SETUP,
                number=NUMBER,
                repeat=REPEAT,
            )
        )
        / NUMBER
    )
    asdict_time = (
        min(
            timeit.repeat(
                'dataclasses.asdict(foo)',
                setup=SETUP,
                number=NUMBER,
                repeat=REPEAT,
            )
        )
        / NUMBER
    )

    print(
        f'num_fields: {num_fields:<2d}    '
        f'ctor: {ctor_time * 1e6:5.3f}us    '
        f'asdict: {asdict_time * 1e6:5.3f}us'
    )

Results (I run these on another device, macOS with M2 Pro):

# Baseline
num_fields: 1     ctor: 0.120us    asdict: 0.646us
num_fields: 2     ctor: 0.144us    asdict: 0.795us
num_fields: 3     ctor: 0.175us    asdict: 0.924us
num_fields: 4     ctor: 0.188us    asdict: 1.071us
num_fields: 5     ctor: 0.207us    asdict: 1.210us
num_fields: 8     ctor: 0.252us    asdict: 1.603us
num_fields: 16    ctor: 0.444us    asdict: 2.768us
num_fields: 32    ctor: 1.067us    asdict: 5.092us
num_fields: 64    ctor: 2.139us    asdict: 9.756us

# Intern field names
num_fields: 1     ctor: 0.121us    asdict: 0.627us
num_fields: 2     ctor: 0.144us    asdict: 0.769us
num_fields: 3     ctor: 0.173us    asdict: 0.896us
num_fields: 4     ctor: 0.189us    asdict: 1.020us
num_fields: 5     ctor: 0.206us    asdict: 1.141us
num_fields: 8     ctor: 0.254us    asdict: 1.540us
num_fields: 16    ctor: 0.417us    asdict: 2.620us
num_fields: 32    ctor: 0.936us    asdict: 4.850us
num_fields: 64    ctor: 2.015us    asdict: 9.249us

# Intern field names and default factory names
num_fields: 1     ctor: 0.120us    asdict: 0.630us
num_fields: 2     ctor: 0.144us    asdict: 0.771us
num_fields: 3     ctor: 0.171us    asdict: 0.891us
num_fields: 4     ctor: 0.188us    asdict: 1.023us
num_fields: 5     ctor: 0.242us    asdict: 1.211us
num_fields: 8     ctor: 0.312us    asdict: 1.587us
num_fields: 16    ctor: 0.450us    asdict: 2.703us
num_fields: 32    ctor: 1.024us    asdict: 5.060us
num_fields: 64    ctor: 2.020us    asdict: 9.463us

ericvsmith · 2024-10-21T13:57:37Z

I don't think this performance gain is worth it, but I'm open to other opinions.

Intern dataclass field names to improve performance

78af6f0

XuehaiPan requested a review from ericvsmith as a code owner December 3, 2023 11:59

bedevere-app bot added the awaiting review label Dec 3, 2023

bedevere-app bot mentioned this pull request Dec 3, 2023

Intern dataclass field names to improve performance #112653

Closed

📜🤖 Added by blurb_it.

9510879

sobolevn reviewed Dec 3, 2023

View reviewed changes

XuehaiPan requested a review from sobolevn December 3, 2023 14:38

Do not intern default factory name

6b61dbd

XuehaiPan added 10 commits December 28, 2023 16:52

Merge branch 'main' into intern-dataclass-field-names

c1b64f0

Merge branch 'main' into intern-dataclass-field-names

b4ad2b8

Merge branch 'main' into intern-dataclass-field-names

19594c5

Merge branch 'main' into intern-dataclass-field-names

ce1ac3e

Merge branch 'main' into intern-dataclass-field-names

ec25382

Merge branch 'main' into intern-dataclass-field-names

c653873

Merge branch 'main' into intern-dataclass-field-names

eff115a

Merge branch 'main' into intern-dataclass-field-names

13116fd

Merge branch 'main' into intern-dataclass-field-names

dfebfdb

Merge branch 'main' into intern-dataclass-field-names

2d57d6c

XuehaiPan closed this Mar 27, 2025

XuehaiPan deleted the intern-dataclass-field-names branch March 29, 2025 13:20

Jan	FEB	Mar
	22
2025	2026	2027

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Comments

gh-112653: Intern dataclass field names to improve performance#112657

gh-112653: Intern dataclass field names to improve performance#112657
XuehaiPan wants to merge 13 commits intopython:mainfrom
XuehaiPan:intern-dataclass-field-names

XuehaiPan commented Dec 3, 2023 •

edited by bedevere-app bot

Loading

Uh oh!

sobolevn left a comment

Uh oh!

XuehaiPan commented Dec 3, 2023 •

edited

Loading

Uh oh!

sobolevn commented Dec 3, 2023

Uh oh!

XuehaiPan commented Dec 3, 2023 •

edited

Loading

Uh oh!

ericvsmith commented Oct 21, 2024

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Uh oh!

Comments

Conversation

XuehaiPan commented Dec 3, 2023 • edited by bedevere-app bot Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

sobolevn left a comment

Choose a reason for hiding this comment

Uh oh!

XuehaiPan commented Dec 3, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

sobolevn commented Dec 3, 2023

Uh oh!

XuehaiPan commented Dec 3, 2023 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

ericvsmith commented Oct 21, 2024

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

XuehaiPan commented Dec 3, 2023 •

edited by bedevere-app bot

Loading

XuehaiPan commented Dec 3, 2023 •

edited

Loading

XuehaiPan commented Dec 3, 2023 •

edited

Loading