정규표현식1 [NLP] 정규표현식을 활용한 전처리 및 데이터 추출 제가 군대에 있었던 시절, 빅데이터라는 단어가 큰 화두였습니다. 그리고 약 10년 정도가 지난 2023년에서 빅데이터는 이제 익숙해진 단어의 반열에 든 것 같습니다. 하지만, 빅데이터의 80%이상은 비정형 데이터가 될 것이라는 사실을 많은 사람들은 아직 모르고 있습니다. IBM의 리포트에 의하면 2025년 까지 대부분의 데이터는 비정형 데이터가 차지할 것이라 합니다. 비정형 데이터의 대부분은 텍스트, 이미지, 영상, 음원 등으로 특별한 틀이 잡혀있지 않습니다. 그렇게 때문에 빅데이터 분석의 가장 핵심적인 부분은 모델링이 아닌 전처리입니다. 비정형 데이터를 정형화 하고 의미있는 데이터로 변형 및 처리해서 사용할 수 있게끔 만드는 작업을 전처리 작업이라고 합니다. 정부에서도 적극 지원 중이며, 떠오르는 부업.. 2023. 1. 29. 이전 1 다음 반응형