4e144c9f842d7415d8be5bdbb5912d88ae32cced,pycorrector/seq2seq/corpus_reader.py,CGEDReader,read_samples_by_string,#CGEDReader#Any#,80

Before Change


            for doc in docs:
                source_text = doc.getElementsByTagName("TEXT")[0]. \
                    childNodes[0].data.strip()
                target_text = doc.getElementsByTagName("CORRECTION")[0]. \
                    childNodes[0].data.strip()
                source = segment(source_text, cut_type="char")
                target = segment(target_text, cut_type="char")

After Change


        with open(path, "r", encoding="utf-8") as f:
            while True:
                line_src = f.readline()
                line_dst = f.readline()
                if not line_src or len(line_src) < 5:
                    break
                source = line_src.lower()[5:].strip().split()
                target = line_dst.lower()[5:].strip().split()

In pattern: SUPERPATTERN

Frequency: 3

Non-data size: 4

Instances

Link

Project Name: shibing624/pycorrector

Commit Name: 4e144c9f842d7415d8be5bdbb5912d88ae32cced

Time: 2018-04-16

Author: 507153809@qq.com

File Name: pycorrector/seq2seq/corpus_reader.py

Class Name: CGEDReader

Method Name: read_samples_by_string

Link

Project Name: pantsbuild/pants

Commit Name: 57764c143badff6a194a83a818b8f95bb8df7625

Time: 2013-10-04

Author: john@foursquare.com

File Name: src/python/twitter/pants/tasks/nailgun_task.py

Class Name: NailgunTask

Method Name: _await_nailgun_server

Link

Project Name: lingpy/lingpy

Commit Name: 875a33806acea37f602d0ad20fb77cd42432bbb6

Time: 2013-11-08

Author: bambooforest@gmail.com

File Name: scripts/tokenize/tokenize_pad.py

Class Name:

Method Name: