Bagaimana cara mengabaikan huruf besar tetapi bukan diakritik dengan regex Python?

Regular expression (regex) adalah alat yang sangat ampuh untuk manipulasi dan pencarian teks. Dalam Python, modul re menyediakan fungsionalitas regex yang luas. Salah satu kebutuhan umum dalam pemrosesan teks adalah melakukan pencarian yang tidak membedakan huruf besar/kecil (case-insensitive). Namun, seringkali kita ingin mempertahankan sensitivitas terhadap diakritik (tanda baca yang memodifikasi huruf, seperti aksen atau cedilla). Mengabaikan huruf besar tetapi tetap mempertahankan sensitivitas diakritik dalam regex Python memerlukan pendekatan khusus. Artikel ini akan membahas berbagai teknik untuk mencapai tujuan ini, memberikan contoh kode yang jelas, dan menjelaskan pertimbangan penting.

Mengapa Ini Penting?

Dalam banyak aplikasi, terutama yang berhubungan dengan pemrosesan bahasa alami (NLP), nama tempat, atau data multilingual, penting untuk membedakan antara karakter dengan diakritik dan tanpa diakritik. Misalnya, dalam bahasa Prancis, "déjà" dan "deja" memiliki arti yang berbeda. Mengabaikan diakritik dalam pencarian dapat menghasilkan hasil yang salah atau tidak relevan. Sebaliknya, mengabaikan huruf besar/kecil seringkali diperlukan untuk menangani variasi dalam input pengguna atau data yang tidak konsisten.

Pendekatan Standar dan Keterbatasannya

Metode paling sederhana untuk melakukan pencarian case-insensitive dalam Python adalah dengan menggunakan flag re.IGNORECASE (atau re.I).

import re teks = "Ini adalah contoh Teks dengan beberapa kata." pola = "teks" cocok = re.search(pola, teks, re.IGNORECASE) if cocok:     print("Ditemukan:", cocok.group(0)) # Output: Ditemukan: Teks else:     print("Tidak ditemukan")

Kode ini akan menemukan "teks" dalam string "Ini adalah contoh Teks dengan beberapa kata." karena flag re.IGNORECASE membuat pencarian tidak membedakan huruf besar/kecil.

Namun, pendekatan ini memiliki keterbatasan. Jika kita memiliki diakritik, re.IGNORECASE tidak secara otomatis memperlakukan karakter dengan dan tanpa diakritik sebagai sama.

import re teks = "Cafe dan Café adalah dua kata yang berbeda." pola = "cafe" cocok = re.search(pola, teks, re.IGNORECASE) if cocok:     print("Ditemukan:", cocok.group(0)) # Output: Ditemukan: Cafe else:     print("Tidak ditemukan")

Dalam contoh ini, re.IGNORECASE akan menemukan "Cafe" tetapi tidak akan menemukan "Café". Ini karena re.IGNORECASE hanya menangani perbedaan huruf besar/kecil dalam karakter ASCII standar (a-z, A-Z).

Teknik untuk Mengabaikan Huruf Besar dengan Mempertahankan Sensitivitas Diakritik

Untuk mencapai tujuan kita, kita perlu pendekatan yang lebih canggih. Berikut adalah beberapa teknik yang bisa digunakan:

H3: 1. Normalisasi Unicode dan Pencocokan Literal

Salah satu cara adalah dengan menormalisasi string input dan pola pencarian menggunakan Unicode normalization. Normalisasi Unicode mengubah karakter yang setara secara semantik menjadi representasi standar. Ada beberapa bentuk normalisasi, tetapi yang paling relevan untuk kasus kita adalah NFKD (Normalization Form Compatibility Decomposition) dan NFKC (Normalization Form Compatibility Composition).

NFKD memecah karakter komposit (seperti "é") menjadi karakter dasarnya ("e") dan karakter pemodifikasi (combining acute accent). NFKC kemudian menggabungkan kembali karakter yang kompatibel.

Kita dapat menggunakan modul unicodedata untuk melakukan normalisasi.

import re import unicodedata def normalize_text(text):   """Menormalisasi teks menggunakan NFKD dan menghilangkan karakter non-ASCII."""   text = unicodedata.normalize('NFKD', text)   text = ''.join([c for c in text if ord(c) < 128]) # Hanya ASCII   return text teks = "Cafe dan Café adalah dua kata yang berbeda." pola = "cafe" teks_normal = normalize_text(teks).lower() pola_normal = normalize_text(pola).lower() cocok = re.search(pola_normal, teks_normal) if cocok:     print("Ditemukan:", cocok.group(0)) # Output: Ditemukan: cafe else:     print("Tidak ditemukan")

Penjelasan:

normalize_text(text): Fungsi ini mengambil string sebagai input dan melakukan dua hal:
- unicodedata.normalize('NFKD', text): Menormalisasi teks ke bentuk NFKD, memecah karakter dengan diakritik menjadi karakter dasar dan karakter pemodifikasi.
- ''.join([c for c in text if ord(c) < 128]): Menghilangkan karakter non-ASCII. Ini penting karena setelah normalisasi, karakter pemodifikasi (seperti aksen) akan menjadi karakter terpisah, dan kita ingin menghilangkannya agar pencarian hanya fokus pada karakter dasar.
teks_normal = normalize_text(teks).lower(): Menormalisasi teks input dan mengubahnya menjadi huruf kecil.
pola_normal = normalize_text(pola).lower(): Menormalisasi pola pencarian dan mengubahnya menjadi huruf kecil.
cocok = re.search(pola_normal, teks_normal): Melakukan pencarian regex pada teks yang sudah dinormalisasi.

Kelebihan:

Sederhana dan mudah diimplementasikan.
Efektif untuk menghilangkan perbedaan diakritik.

Kekurangan:

Menghilangkan diakritik sepenuhnya. Ini mungkin tidak diinginkan jika Anda perlu mempertahankan informasi tentang diakritik untuk tujuan lain.
Hanya berfungsi untuk karakter yang dapat dinormalisasi menggunakan NFKD.
Menghilangkan karakter non-ASCII.

H3: 2. Menggunakan Character Classes dengan Unicode Properties

Pendekatan yang lebih fleksibel adalah dengan menggunakan character classes dan Unicode properties dalam regex. Unicode properties memungkinkan Anda untuk mencocokkan karakter berdasarkan kategori Unicode mereka. Misalnya, \p{L} mencocokkan semua huruf (letter) dalam Unicode, terlepas dari bahasa atau diakritik.

Untuk mengabaikan huruf besar, kita dapat menggunakan (?i) untuk mengaktifkan case-insensitive matching secara inline. Kita kemudian dapat menggunakan character class untuk mencocokkan huruf, termasuk yang memiliki diakritik.

import re teks = "Cafe dan Café adalah dua kata yang berbeda." pola = r"(?i)caf\p{L}" # (?i) untuk case-insensitive, \p{L} untuk semua huruf Unicode cocok = re.search(pola, teks) if cocok:     print("Ditemukan:", cocok.group(0)) # Output: Ditemukan: Cafe else:     print("Tidak ditemukan")

Dalam contoh ini, (?i) mengaktifkan case-insensitive matching untuk seluruh pola. \p{L} mencocokkan semua huruf Unicode, termasuk "é". Oleh karena itu, pola ini akan menemukan "Cafe" dan "Café".

Penjelasan:

(?i): Ini adalah flag inline yang mengaktifkan case-insensitive matching. Ini setara dengan menggunakan re.IGNORECASE tetapi hanya berlaku untuk bagian pola di mana ia ditempatkan.
\p{L}: Ini adalah character class Unicode yang mencocokkan semua huruf Unicode.

Kelebihan:

Mempertahankan diakritik.
Lebih fleksibel daripada normalisasi karena Anda dapat memilih karakter Unicode mana yang ingin dicocokkan.

Kekurangan:

Sedikit lebih kompleks daripada normalisasi.
Memerlukan pemahaman tentang Unicode properties.

H3: 3. Menggunakan Fungsi Callback dengan `re.sub`

Pendekatan lain adalah dengan menggunakan fungsi callback dengan re.sub. Kita dapat menggunakan re.sub untuk mengganti semua huruf dengan versi huruf kecilnya, tetapi hanya jika huruf tersebut tidak memiliki diakritik. Kemudian kita bisa melakukan pencarian regex dengan pola huruf kecil.

import re import unicodedata def lower_no_diacritics(match):   """Mengubah huruf menjadi huruf kecil hanya jika tidak memiliki diakritik."""   char = match.group(0)   if unicodedata.category(char) == 'Ll': # Sudah huruf kecil       return char   if unicodedata.category(char)[0] == 'L' and unicodedata.category(char)[1] != 'm': #Huruf besar atau huruf lainnya tanpa diakritik       return char.lower()   return char # Biarkan karakter lain (termasuk diakritik) apa adanya teks = "Cafe dan Café adalah dua kata yang berbeda." pola = "cafe" teks_lower = re.sub(r"[a-zA-Z]", lower_no_diacritics, teks) # Ubah hanya huruf tanpa diakritik menjadi huruf kecil pola_lower = pola.lower() cocok = re.search(pola_lower, teks_lower) if cocok:     print("Ditemukan:", cocok.group(0)) else:     print("Tidak ditemukan")

Penjelasan:

lower_no_diacritics(match): Fungsi ini dipanggil untuk setiap kecocokan dari pola [a-zA-Z].
- char = match.group(0): Mendapatkan karakter yang cocok.
- unicodedata.category(char): Mendapatkan kategori Unicode dari karakter.
- Jika karakter sudah huruf kecil (Ll), kembalikan karakter tersebut.
- Jika karakter adalah huruf (L) dan bukan karakter pemisah (mark – m), ubah menjadi huruf kecil dan kembalikan.
- Jika tidak, kembalikan karakter asli (ini akan mempertahankan diakritik).
teks_lower = re.sub(r"[a-zA-Z]", lower_no_diacritics, teks): Menggunakan re.sub untuk mengganti semua huruf dengan hasil dari fungsi lower_no_diacritics.
pola_lower = pola.lower(): Mengubah pola pencarian menjadi huruf kecil.
cocok = re.search(pola_lower, teks_lower): Melakukan pencarian regex pada teks yang sudah dimodifikasi.

Kelebihan:

Mempertahankan diakritik.
Memberikan kontrol yang lebih besar atas bagaimana karakter diubah.

Kekurangan:

Lebih kompleks daripada pendekatan lain.
Membutuhkan pemahaman tentang kategori Unicode.
Potensi overhead kinerja karena pemanggilan fungsi callback untuk setiap kecocokan.

Perbandingan Kinerja dan Kompleksitas

Berikut adalah tabel yang membandingkan ketiga pendekatan berdasarkan kinerja, kompleksitas, dan kemampuan:

Fitur	Normalisasi Unicode	Character Classes	Fungsi Callback
Kinerja	Tinggi	Sedang	Rendah
Kompleksitas Kode	Rendah	Sedang	Tinggi
Mempertahankan Diakritik	Tidak	Ya	Ya
Fleksibilitas	Rendah	Sedang	Tinggi
Keterbacaan Kode	Tinggi	Sedang	Rendah

Penjelasan Tabel:

Kinerja: Normalisasi Unicode umumnya paling cepat karena operasi string sederhana. Character classes sedikit lebih lambat karena membutuhkan interpretasi regex yang lebih kompleks. Fungsi callback paling lambat karena melibatkan pemanggilan fungsi Python untuk setiap kecocokan.
Kompleksitas Kode: Normalisasi Unicode paling sederhana karena hanya melibatkan panggilan ke fungsi unicodedata.normalize. Character classes membutuhkan pemahaman tentang sintaks regex dan Unicode properties. Fungsi callback paling kompleks karena membutuhkan definisi fungsi dan pemahaman tentang bagaimana re.sub bekerja.
Mempertahankan Diakritik: Normalisasi Unicode menghilangkan diakritik. Character classes dan fungsi callback mempertahankan diakritik.
Fleksibilitas: Normalisasi Unicode paling tidak fleksibel karena menghilangkan diakritik secara paksa. Character classes memungkinkan Anda untuk memilih karakter Unicode mana yang ingin dicocokkan. Fungsi callback memberikan kontrol penuh atas bagaimana karakter diubah.
Keterbacaan Kode: Normalisasi Unicode paling mudah dibaca karena kode yang ringkas dan jelas. Character classes sedikit kurang mudah dibaca karena sintaks regex yang kompleks. Fungsi callback paling sulit dibaca karena melibatkan logika yang lebih kompleks.

Kesimpulan:

Pilihan pendekatan yang tepat tergantung pada kebutuhan spesifik aplikasi Anda. Jika kinerja sangat penting dan Anda tidak perlu mempertahankan diakritik, normalisasi Unicode adalah pilihan yang baik. Jika Anda perlu mempertahankan diakritik dan kinerja masih penting, character classes adalah pilihan yang baik. Jika Anda membutuhkan kontrol penuh atas bagaimana karakter diubah, fungsi callback adalah pilihan yang tepat.

Pertimbangan Tambahan

Selain teknik-teknik yang telah dibahas, ada beberapa pertimbangan tambahan yang perlu diperhatikan:

Bahasa: Teknik yang dijelaskan di atas bekerja untuk banyak bahasa, tetapi beberapa bahasa mungkin memerlukan penanganan khusus. Misalnya, beberapa bahasa mungkin memiliki aturan case-folding yang kompleks yang tidak ditangani oleh re.IGNORECASE atau normalisasi Unicode standar.
Kinerja: Jika Anda memproses sejumlah besar teks, kinerja regex dapat menjadi masalah. Penting untuk mengoptimalkan pola regex Anda dan memilih pendekatan yang paling efisien.
Keamanan: Jika Anda menggunakan regex untuk memvalidasi input pengguna, pastikan untuk melindungi diri Anda dari serangan ReDoS (Regular Expression Denial of Service). Serangan ReDoS terjadi ketika pola regex yang kompleks digunakan untuk memproses input yang dirancang untuk menyebabkan regex membutuhkan waktu yang sangat lama untuk dieksekusi.

Kesimpulan Akhir

Mengabaikan huruf besar tetapi mempertahankan sensitivitas diakritik dalam regex Python adalah tugas yang dapat dicapai dengan berbagai teknik. Dengan memahami kelebihan dan kekurangan dari setiap pendekatan, Anda dapat memilih metode yang paling sesuai dengan kebutuhan aplikasi Anda. Ingatlah untuk mempertimbangkan faktor-faktor seperti kinerja, kompleksitas, dan kebutuhan bahasa tertentu saat membuat keputusan. Dengan penguasaan teknik-teknik ini, Anda dapat memanfaatkan kekuatan regex Python untuk pemrosesan teks yang lebih akurat dan fleksibel.

Teknik untuk Mengabaikan Huruf Besar dengan Mempertahankan Sensitivitas Diakritik

H3: 1. Normalisasi Unicode dan Pencocokan Literal

H3: 2. Menggunakan Character Classes dengan Unicode Properties

H3: 3. Menggunakan Fungsi Callback dengan re.sub

Perbandingan Kinerja dan Kompleksitas

Pertimbangan Tambahan

Related Posts

Bagaimana cara mendapatkan karakter khusus terakhir dari UDF dengan regex di PySpark?

Bagaimana cara mencocokkan keempat kasus dalam Regex?

Bagaimana Cara Mencocokkan Angka yang Tidak Mengandung Titik Desimal Menggunakan Python Regex Saja [Duplikat]

Bagaimana cara membuat regex untuk angka 6 digit di mana 3 digit terakhir satu lebih banyak dari 3 digit pertama?

Bagaimana cara membuat regex non-rakus saat dalam mode multibaris [Duplikat]

Bagaimana cara membuat regex lookbehind negatif mengkonsumsi teks yang dibuang? [Ditutup]

Tinggalkan Balasan Batalkan balasan

H3: 3. Menggunakan Fungsi Callback dengan `re.sub`