본문 바로가기

728x90

Python

(19)
[Python] 파이썬 리스트 내포(List comprehension) 리스트 내포(List comprehension)파이썬에서 for문과 if문을 한 라인에 작성하여 코드를 직관적으로 만들고 실행속도를 높혀주는 기법인 리스트 내포(List comprehension)기법이 존재합니다. 사용 방법은 아래와 같습니다. 리스트 명 = [ 표현식 for 항목 in 반복 가능한 객체 ] 표현식: 각 항목을 변환하거나 가공한 결과를 리스트에 추가하는 부분입니다.항목: 반복 가능한 객체에서 하나씩 가져오는 값입니다.반복 가능한 객체: 리스트, 튜플, 문자열, range() 등 반복할 수 있는 자료형입니다.   아직 잘 이해가 안가시죠? 리스트 내포는 처음 접하시는 분들은 한번에 이해하기 어려울 수 있으니 예제를 통해서 살펴보도록 하겠습니다.   리스트 내포를 활용한 원소 단위 변환 (m..
[Python] enumerate() 내장 함수로 for 루프 돌리기 많은 프로그래밍 언어들에서 `i`, `j`, `k`와 같은 소위 인덱스(index) 변수를 증가시키면서 for 루프를 돌리지요? 하지만 파이썬에서는 `enumerate()`라는 내장 함수를 통해 이러한 인덱스 변수를 사용하지 않고 루프를 돌리는 방식이 선호되며 이런 코딩 스타일을 소위 Pythonic, 즉 파이썬 답다고 하죠.이번 글에서는 파이썬의 `enumerate()` 함수에 대해서 알아보도록 하겠습니다. for 루프먼저 파이썬에서 for 문을 사용해서 루프를 돌리는 가장 기본적인 방법부터 짚고 넘어가겠습니다.파이썬에서 `for`루프는 기본적으로 `for in :` 형태로 작성이 되는데요. 여기서 `` 부분에는 리스트(list), 튜플(tuple), 문자열(string), 반복자(iterator),..
[Python] pprint 로 예쁘게 출력하기 Python에서 pprint 모듈은 "pretty-print"를 의미하며, 데이터 구조를 보기 쉽게 출력해주는 모듈입니다. 이 모듈을 사용하면, 복잡한 데이터 구조를 인간이 읽기 쉬운 형태로 출력할 수 있습니다.  pprint 모듈은 다양한 함수와 클래스를 제공합니다. 가장 기본적인 함수는 pprint입니다. 이 함수는 인자로 받은 객체를 보기 쉬운 형태로 출력해줍니다. 이제 pprint 모듈을 사용하는 방법을 자세히 설명하겠습니다. 1. 예제먼저, pprint를 import 해야 합니다.import pprint 다음으로, pprint 함수를 사용하려는 데이터 구조를 정의합니다. 예를 들어, 다음과 같은 딕셔너리를 고려해보겠습니다.data = {'name': 'John', 'age': 30, 'city'..
[Python Pandas] 데이터프레임 열 이름 조회 : columns 열 이름을 조회하는 방법은 아주 간단합니다.데이터 프레임에 .columns만 붙여주면 열 이름을 조회할 수 있습니다. # 데이터 프레임 전체 열 이름 조회df.columns# i+1번째 열 이름 선택df.columns[i]  예시 데이터
[Python Pandas] 엑셀 불러오기 : pd.read_excel Pandas의 read_excel을 이용하면 엑셀 파일을 python의 dataframe으로 불러올 수 있다.#Pandasimport pandas as pd Excel 파일 불러오기pd.read_excel( io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, dat..
[Python/OCR] Tesseract OCR 활용 (심화1) OCR에서는 인식율이 매우 중요하며, 당연한 이야기도 하지만 이미지의 품질이 가장 중요합니다. 하지만 현실에서는 우리가 인식하려는 이미지의 품질은 매우 좋지 않습니다. 다양한 촬영기기 (카메라/스캐너/팩스 등), 다양한 촬영 환경 (조명/화각/배경 등) 등으로 인해 매우 불량한 상태의 이미지이고 이러한 이미지의 인식율을 올린다는 것은 매우 도전적인 일입니다. 이전 글에서 간단히 Tesseract를 사용해봤다면, 입력된 이미지를 이미지 전처리 과정을 통해 Scan한 이미지로 변경하여 OCR 을 수행하는 방법에 대해 소개하겠습니다.  Import Packagesfrom imutils.perspective import four_point_transformimport matplotlib.pyplot as plt..
[Python/OCR] 파이썬 Tesseract OCR 활용(기본) OCR이라는 기술은 정확히는 몰라도 한 번쯤은 들어봤거나 차량 번호판 인식, 카드번호 인식과 같이 이미 직ㆍ간접적으로 경험해 본 적이 있을 것입니다.  OCR(Optical character recognition)의 역사는 생각한 것보다 매우 깁니다. 1928년에 독일의 G.Taushek가 미리 준비된 몇개의 표준 pattern 문자와 입력 문자를 비교하여 표준 pattern 문자와 가장 유사한 것을 해당 문자로 선정하는 pattern matching 기법을 이용한 문자 인식 방법을 특허로 등록하면서 시작되었습니다. 연구소나 기업 등에서 대형 컴퓨터를 통하여 수행되던 것이 PC와 이미지 스캐너의 보급으로 우리 가까이 사용되기 시작하여 역사로는 이미 20년이 넘었다고 볼 수 있습니다. 하지만 굉장히 오래전..
[Python/OCR] Tesseract, PyTesseract 설치방법 (OCR 개발환경) Tesseract란?테서랙트(Tesseract)는 다양한 운영 체제를 위한 광학 문자 인식 엔진입니다. 이 소프트웨어는 Apache License, 버전 2.0에 따라 배포되는 무료 소프트웨어이며 2006년부터 Google에서 개발을 후원했습니다. Tesseract는 1995년 문자 정확도 측면에서 3대 OCR 엔진에 속했으며 Linux, Windows 및 Mac OS X에서 사용할 수 있습니다. 버전 2 이하의 Tesseract는 출력 텍스트 형식, OCR 위치 정보 및 페이지 레이아웃 분석을 지원하게 되었고 Leptonica 라이브러리를 사용하여 여러 가지 새로운이미지 형식에 대한 지원이 추가되었습니다.현재는 많은 언어 및 스크립트에 대한 LSTM 기반 OCR 엔진 및 모델이 추가되어 총 116개의 ..

728x90