[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-9799":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":16,"stars7d":16,"stars30d":17,"stars90d":16,"forks30d":16,"starsTrendScore":16,"compositeScore":18,"rankGlobal":10,"rankLanguage":10,"license":19,"archived":20,"fork":20,"defaultBranch":21,"hasWiki":22,"hasPages":20,"topics":23,"createdAt":10,"pushedAt":10,"updatedAt":34,"readmeContent":35,"aiSummary":36,"trendingCount":16,"starSnapshotCount":16,"syncStatus":37,"lastSyncTime":38,"discoverSource":39},9799,"nlpaug","makcedward\u002Fnlpaug","makcedward","Data augmentation for NLP ","https:\u002F\u002Fmakcedward.github.io\u002F",null,"Jupyter Notebook",4657,477,37,71,0,4,30.04,"MIT License",false,"master",true,[24,25,26,27,28,29,30,31,32,33],"adversarial-attacks","adversarial-example","ai","artificial-intelligence","augmentation","data-science","machine-learning","ml","natural-language-processing","nlp","2026-06-12 02:02:12","\u003Cp align=\"center\">\n    \u003Cbr>\n    \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fres\u002Flogo_small.png\"\u002F>\n    \u003Cbr>\n\u003Cp>\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Ftravis-ci.org\u002Fmakcedward\u002Fnlpaug\">\n        \u003Cimg alt=\"Build\" src=\"https:\u002F\u002Ftravis-ci.org\u002Fmakcedward\u002Fnlpaug.svg?branch=master\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fwww.codacy.com\u002Fapp\u002Fmakcedward\u002Fnlpaug?utm_source=github.com&amp;utm_medium=referral&amp;utm_content=makcedward\u002Fnlpaug&amp;utm_campaign=Badge_Grade\">\n        \u003Cimg alt=\"Code Quality\" src=\"https:\u002F\u002Fapi.codacy.com\u002Fproject\u002Fbadge\u002FGrade\u002F2d6d1d08016a4f78818161a89a2dfbfb\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fpepy.tech\u002Fbadge\u002Fnlpaug\">\n        \u003Cimg alt=\"Downloads\" src=\"https:\u002F\u002Fpepy.tech\u002Fbadge\u002Fnlpaug\">\n    \u003C\u002Fa>\n\u003C\u002Fp>\n\n# nlpaug\n\nThis python library helps you with augmenting nlp for your machine learning projects. Visit this introduction to understand about [Data Augmentation in NLP](https:\u002F\u002Ftowardsdatascience.com\u002Fdata-augmentation-in-nlp-2801a34dfc28). `Augmenter` is the basic element of augmentation while `Flow` is a pipeline to orchestra multi augmenter together.\n\n## Features\n*   Generate synthetic data for improving model performance without manual effort\n*   Simple, easy-to-use and lightweight library. Augment data in 3 lines of code\n*   Plug and play to any machine leanring\u002F neural network frameworks (e.g. scikit-learn, PyTorch, TensorFlow)\n*   Support textual and audio input\n\n\u003Ch3 align=\"center\">Textual Data Augmentation Example\u003C\u002Fh3>\n\u003Cbr>\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fres\u002Ftextual_example.png\"\u002F>\u003C\u002Fp>\n\u003Ch3 align=\"center\">Acoustic Data Augmentation Example\u003C\u002Fh3>\n\u003Cbr>\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fres\u002Faudio_example.png\"\u002F>\u003C\u002Fp>\n\n| Section | Description |\n|:---:|:---:|\n| [Quick Demo](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug#quick-demo) | How to use this library |\n| [Augmenter](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug#augmenter) | Introduce all available augmentation methods |\n| [Installation](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug#installation) | How to install this library |\n| [Recent Changes](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug#recent-changes) | Latest enhancement |\n| [Extension Reading](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug#extension-reading) | More real life examples or researchs |\n| [Reference](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug#reference) | Reference of external resources such as data or model |\n\n## Quick Demo\n*   [Quick Example](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Fquick_example.ipynb)\n*   [Example of Augmentation for Textual Inputs](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Ftextual_augmenter.ipynb)\n*   [Example of Augmentation for Multilingual Textual Inputs ](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Ftextual_language_augmenter.ipynb)\n*   [Example of Augmentation for Spectrogram Inputs](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Fspectrogram_augmenter.ipynb)\n*   [Example of Augmentation for Audio Inputs](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Faudio_augmenter.ipynb)\n*   [Example of Orchestra Multiple Augmenters](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Fflow.ipynb)\n*   [Example of Showing Augmentation History](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Fchange_log.ipynb)\n*   How to train [TF-IDF model](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Ftfidf-train_model.ipynb)\n*   How to train [LAMBADA model](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Flambada-train_model.ipynb)\n*   How to create [custom augmentation](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002Fexample\u002Fcustom_augmenter.ipynb)\n*   [API Documentation](https:\u002F\u002Fnlpaug.readthedocs.io\u002Fen\u002Flatest\u002F)\n\n## Augmenter\n| Augmenter | Target | Augmenter | Action | Description |\n|:---:|:---:|:---:|:---:|:---:|\n|Textual| Character | KeyboardAug | substitute | Simulate keyboard distance error |\n|Textual| | OcrAug | substitute | Simulate OCR engine error |\n|Textual| | [RandomAug](https:\u002F\u002Fmedium.com\u002Fhackernoon\u002Fdoes-your-nlp-model-able-to-prevent-adversarial-attack-45b5ab75129c) | insert, substitute, swap, delete | Apply augmentation randomly |\n|Textual| Word | AntonymAug | substitute | Substitute opposite meaning word according to WordNet antonym|\n|Textual| | ContextualWordEmbsAug | insert, substitute | Feeding surroundings word to [BERT](https:\u002F\u002Ftowardsdatascience.com\u002Fhow-bert-leverage-attention-mechanism-and-transformer-to-learn-word-contextual-relations-5bbee1b6dbdb), DistilBERT, [RoBERTa](https:\u002F\u002Fmedium.com\u002Ftowards-artificial-intelligence\u002Fa-robustly-optimized-bert-pretraining-approach-f6b6e537e6a6) or [XLNet](https:\u002F\u002Fmedium.com\u002Fdataseries\u002Fwhy-does-xlnet-outperform-bert-da98a8503d5b) language model to find out the most suitlabe word for augmentation|\n|Textual| | RandomWordAug | swap, crop, delete | Apply augmentation randomly |\n|Textual| | SpellingAug | substitute | Substitute word according to spelling mistake dictionary |\n|Textual| | SplitAug | split | Split one word to two words randomly|\n|Textual| | SynonymAug | substitute | Substitute similar word according to WordNet\u002F PPDB synonym |\n|Textual| | [TfIdfAug](https:\u002F\u002Fmedium.com\u002Ftowards-artificial-intelligence\u002Funsupervised-data-augmentation-6760456db143) | insert, substitute | Use TF-IDF to find out how word should be augmented |\n|Textual| | WordEmbsAug | insert, substitute | Leverage  [word2vec](https:\u002F\u002Ftowardsdatascience.com\u002F3-silver-bullets-of-word-embedding-in-nlp-10fa8f50cc5a), [GloVe](https:\u002F\u002Ftowardsdatascience.com\u002F3-silver-bullets-of-word-embedding-in-nlp-10fa8f50cc5a) or [fasttext](https:\u002F\u002Ftowardsdatascience.com\u002F3-silver-bullets-of-word-embedding-in-nlp-10fa8f50cc5a) embeddings to apply augmentation|\n|Textual| | [BackTranslationAug](https:\u002F\u002Ftowardsdatascience.com\u002Fdata-augmentation-in-nlp-2801a34dfc28) | substitute | Leverage two translation models for augmentation |\n|Textual| | ReservedAug | substitute | Replace reserved words |\n|Textual| Sentence | ContextualWordEmbsForSentenceAug | insert | Insert sentence according to [XLNet](https:\u002F\u002Fmedium.com\u002Fdataseries\u002Fwhy-does-xlnet-outperform-bert-da98a8503d5b), [GPT2](https:\u002F\u002Ftowardsdatascience.com\u002Ftoo-powerful-nlp-model-generative-pre-training-2-4cc6afb6655) or DistilGPT2 prediction |\n|Textual| | AbstSummAug | substitute | Summarize article by abstractive summarization method |\n|Textual| | LambadaAug | substitute | Using language model to generate text and then using classification model to retain high quality results |\n|Signal| Audio | CropAug | delete | Delete audio's segment |\n|Signal| | LoudnessAug|substitute | Adjust audio's volume |\n|Signal| | MaskAug | substitute | Mask audio's segment |\n|Signal| | NoiseAug | substitute | Inject noise |\n|Signal| | PitchAug | substitute | Adjust audio's pitch |\n|Signal| | ShiftAug | substitute | Shift time dimension forward\u002F backward |\n|Signal| | SpeedAug | substitute | Adjust audio's speed |\n|Signal| | VtlpAug | substitute | Change vocal tract |\n|Signal| | NormalizeAug | substitute | Normalize audio |\n|Signal| | PolarityInverseAug | substitute | Swap positive and negative for audio |\n|Signal| Spectrogram | FrequencyMaskingAug | substitute | Set block of values to zero according to frequency dimension |\n|Signal| | TimeMaskingAug | substitute | Set block of values to zero according to time dimension |\n|Signal| | LoudnessAug | substitute | Adjust volume |\n\n## Flow\n| Augmenter | Augmenter | Description |\n|:---:|:---:|:---:|\n|Pipeline| Sequential | Apply list of augmentation functions sequentially |\n|Pipeline| Sometimes | Apply some augmentation functions randomly |\n\n## Installation\nThe library supports python 3.5+ in linux and window platform.\n\nTo install the library:\n```bash\npip install numpy requests nlpaug\n```\nor install the latest version (include BETA features) from github directly\n```bash\npip install numpy git+https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug.git\n```\nor install over conda\n```bash\nconda install -c makcedward nlpaug\n```\n\nIf you use BackTranslationAug, ContextualWordEmbsAug, ContextualWordEmbsForSentenceAug and AbstSummAug, installing the following dependencies as well\n```bash\npip install torch>=1.6.0 transformers>=4.11.3 sentencepiece\n```\n\nIf you use LambadaAug, installing the following dependencies as well\n```bash\npip install simpletransformers>=0.61.10\n```\n\nIf you use AntonymAug, SynonymAug, installing the following dependencies as well\n```bash\npip install nltk>=3.4.5\n```\n\nIf you use WordEmbsAug (word2vec, glove or fasttext), downloading pre-trained model first and installing the following dependencies as well\n```bash\nfrom nlpaug.util.file.download import DownloadUtil\nDownloadUtil.download_word2vec(dest_dir='.') # Download word2vec model\nDownloadUtil.download_glove(model_name='glove.6B', dest_dir='.') # Download GloVe model\nDownloadUtil.download_fasttext(model_name='wiki-news-300d-1M', dest_dir='.') # Download fasttext model\n\npip install gensim>=4.1.2\n```\n\nIf you use SynonymAug (PPDB), downloading file from the following URI. You may not able to run the augmenter if you get PPDB file from other website\n```bash\nhttp:\u002F\u002Fparaphrase.org\u002F#\u002Fdownload\n```\n\nIf you use PitchAug, SpeedAug and VtlpAug, installing the following dependencies as well\n```bash\npip install librosa>=0.9.1 matplotlib\n```\n\n## Recent Changes\n\n### 1.1.11 Jul 6, 2022\n*   [Return list of output](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fissues\u002F302)\n*   [Fix download util](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fissues\u002F301)\n*   [Fix lambda label misalignment](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fissues\u002F295)\n*   [Add language pack reference link for SynonymAug](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fissues\u002F289)\n\n\nSee [changelog](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002FCHANGE.md) for more details.\n\n## Extension Reading\n*   [Data Augmentation library for Text](https:\u002F\u002Ftowardsdatascience.com\u002Fdata-augmentation-library-for-text-9661736b13ff)\n*   [Does your NLP model able to prevent adversarial attack?](https:\u002F\u002Fmedium.com\u002Fhackernoon\u002Fdoes-your-nlp-model-able-to-prevent-adversarial-attack-45b5ab75129c)\n*   [How does Data Noising Help to Improve your NLP Model?](https:\u002F\u002Fmedium.com\u002Ftowards-artificial-intelligence\u002Fhow-does-data-noising-help-to-improve-your-nlp-model-480619f9fb10)\n*   [Data Augmentation library for Speech Recognition](https:\u002F\u002Ftowardsdatascience.com\u002Fdata-augmentation-for-speech-recognition-e7c607482e78)\n*   [Data Augmentation library for Audio](https:\u002F\u002Ftowardsdatascience.com\u002Fdata-augmentation-for-audio-76912b01fdf6)\n*   [Unsupervied Data Augmentation](https:\u002F\u002Fmedium.com\u002Ftowards-artificial-intelligence\u002Funsupervised-data-augmentation-6760456db143)\n*   [A Visual Survey of Data Augmentation in NLP](https:\u002F\u002Famitness.com\u002F2020\u002F05\u002Fdata-augmentation-for-nlp\u002F)\n\n## Reference\nThis library uses data (e.g. capturing from internet), research (e.g. following augmenter idea), model (e.g. using pre-trained model) See [data source](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002FSOURCE.md) for more details.\n\n## Citation\n\n```latex\n@misc{ma2019nlpaug,\n  title={NLP Augmentation},\n  author={Edward Ma},\n  howpublished={https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug},\n  year={2019}\n}\n```\n\nThis package is cited by many books, workshop and academic research papers (70+). Here are some of examples and you may visit [here](https:\u002F\u002Fgithub.com\u002Fmakcedward\u002Fnlpaug\u002Fblob\u002Fmaster\u002FCITED.md) to get the full list.\n\n### Workshops cited nlpaug\n*   S. Vajjala. [NLP without a readymade labeled dataset](https:\u002F\u002Frpubs.com\u002Fvbsowmya\u002Ftmls2021) at [Toronto Machine Learning Summit, 2021](https:\u002F\u002Fwww.torontomachinelearning.com\u002F). 2021\n\n### Book cited nlpaug\n*   S. Vajjala, B. Majumder, A. Gupta and H. Surana. [Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems](https:\u002F\u002Fwww.amazon.com\u002FPractical-Natural-Language-Processing-Pragmatic\u002Fdp\u002F1492054054). 2020\n*   A. Bartoli and A. Fusiello. [Computer Vision–ECCV 2020 Workshops](https:\u002F\u002Fbooks.google.com\u002Fbooks?hl=en&lr=lang_en&id=0rYREAAAQBAJ&oi=fnd&pg=PR7&dq=nlpaug&ots=88bPp5rhnY&sig=C2ue8Xxbu09l59nAMOcVxWYvvWM#v=onepage&q=nlpaug&f=false). 2020\n*   L. Werra, L. Tunstall, and T. Wolf [Natural Language Processing with Transformers](https:\u002F\u002Fwww.amazon.com\u002FNatural-Language-Processing-Transformers-Applications\u002Fdp\u002F1098103246\u002Fref=sr_1_3?crid=2CWBPA8QG0TRU&keywords=Natural+Language+Processing+with+Transformers&qid=1645646312&sprefix=natural+language+processing+with+transformers%2Caps%2C111&sr=8-3). 2022\n\n### Research paper cited nlpaug\n*   Google: M. Raghu and  E. Schmidt. [A Survey of Deep Learning for Scientific Discovery](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.11755.pdf). 2020\n*   Sirius XM: E. Jing, K. Schneck, D. Egan and S. A. Waterman. [Identifying Introductions in Podcast Episodes from Automatically Generated Transcripts](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.07096.pdf). 2021\n*   Salesforce Research: B. Newman, P. K. Choubey and N. Rajani. [P-adapters: Robustly Extracting Factual Information from Language Modesl with Diverse Prompts](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.07280.pdf). 2021\n*   Salesforce Research: L. Xue, M. Gao, Z. Chen, C. Xiong and R. Xu. [Robustness Evaluation of Transformer-based Form Field Extractors via Form Attacks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.04413.pdf). 2021\n\n\n## Contributions\n\u003Ctable>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsakares\">\u003Cimg src=\"https:\u002F\u002Favatars.githubusercontent.com\u002Fu\u002F1306031\" width=\"100px;\" alt=\"\"\u002F>\u003Cbr \u002F>\u003Csub>\u003Cb>sakares saengkaew\u003C\u002Fb>\u003C\u002Fsub>\u003C\u002Fa>\u003Cbr \u002F>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbdalal\">\u003Cimg src=\"https:\u002F\u002Favatars.githubusercontent.com\u002Fu\u002F3478378?s=400&v=4\" width=\"100px;\" alt=\"\"\u002F>\u003Cbr \u002F>\u003Csub>\u003Cb>Binoy Dalal\u003C\u002Fb>\u003C\u002Fsub>\u003C\u002Fa>\u003Cbr \u002F>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Femrecncelik\">\u003Cimg src=\"https:\u002F\u002Favatars.githubusercontent.com\u002Fu\u002F20845117?v=4\" width=\"100px;\" alt=\"\"\u002F>\u003Cbr \u002F>\u003Csub>\u003Cb>Emrecan Çelik\u003C\u002Fb>\u003C\u002Fsub>\u003C\u002Fa>\u003Cbr \u002F>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>","nlpaug 是一个用于自然语言处理的数据增强库。它支持文本和音频数据的合成生成，以提高机器学习模型性能而无需手动创建额外数据。该库具有简单易用、轻量级的特点，仅需三行代码即可完成数据增强，并且可以无缝集成到各种机器学习或神经网络框架中（如scikit-learn, PyTorch, TensorFlow）。此外，nlpaug 提供了多种增强方法，允许用户通过“Augmenter”组件单独使用或者通过“Flow”组件组合多个增强器来构建复杂的数据处理流程。适用于需要增加训练数据多样性以改善模型泛化能力的各种NLP应用场景，包括但不限于文本分类、情感分析以及语音识别等任务。",2,"2026-06-11 03:24:49","top_topic"]