Pengenalan Beautiful Soup



Beautiful Soup adalah library python yang berguna untuk melakukan parsing file format html. Memudahkan kita dalam navigasi objek dom pada html.

Gunakan pip untuk install modul beautiful soup:  pip install beautifulsoup4

Selain itu kita juga memerlukan library lxml, pip install lxml  

Penggunaanya cukup mudah. soup = BeautifulSoup(file_html, parser), dimana file_html adalah file dari html yang hendak kita parsing, parser dapat menggunakan lxml atau bila tidak mengistall lxml, gunakan html.parser.

Jadi sintaksnya seperti berikut soup = BeautifulSoup(file_html, 'lxml')

BeautifulSoup juga memiliki fungsi untuk merapikan file html yaitu prettify(), berfungsi memberikan indentasi pada html file.

from bs4 import BeautifulSoup

# Make soup
# Syntax = BeautifulSoup(html_data,parser)

html_file = "<html> <head><title>Web Scarping - BeautifulSoup</title></head><body>This is a paragraph</body></html>"

# or for those who haven't installed lxml - BeautifulSoup(html_file,'html.parser')
soup = BeautifulSoup(html_file,'lxml')

# soup prettify
print(soup.prettify())
Pengenalan Beautiful Soup Pengenalan Beautiful Soup Reviewed by noname needed on May 25, 2018 Rating: 5

No comments:

Powered by Blogger.