Bitcoin Forum
May 10, 2024, 12:45:29 AM *
News: Latest Bitcoin Core release: 27.0 [Torrent]
 
   Home   Help Search Login Register More  
Pages: [1] 2 3 »  All
  Print  
Author Topic: Парсинг форума  (Read 1024 times)
ronaldinio (OP)
Newbie
*
Offline Offline

Activity: 26
Merit: 0


View Profile
May 28, 2018, 08:46:25 PM
 #1

Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.
Bitcoin addresses contain a checksum, so it is very unlikely that mistyping an address will cause you to lose money.
Advertised sites are not endorsed by the Bitcoin Forum. They may be unsafe, untrustworthy, or illegal in your jurisdiction.
1715301929
Hero Member
*
Offline Offline

Posts: 1715301929

View Profile Personal Message (Offline)

Ignore
1715301929
Reply with quote  #2

1715301929
Report to moderator
1715301929
Hero Member
*
Offline Offline

Posts: 1715301929

View Profile Personal Message (Offline)

Ignore
1715301929
Reply with quote  #2

1715301929
Report to moderator
rumkin
Jr. Member
*
Offline Offline

Activity: 54
Merit: 1


View Profile WWW
May 28, 2018, 09:41:45 PM
 #2

Удобнее всего nodejs с модулем puppetteer.

Blockchain Developer | https://rumk.in
#Cryptoman
Member
**
Offline Offline

Activity: 980
Merit: 48


View Profile
May 29, 2018, 05:02:12 AM
 #3

Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Любой, какой вы знаете. Ну и изучение языка программирования занимает некоторое время (от нескольких месяцев, лет, вся жизнь), возможно проще заказать парсер...

https://indx.ru криптобиржа от вебмоней, не воруют, не требуют доказательств происхождения средств.
Joker007
Newbie
*
Offline Offline

Activity: 84
Merit: 0


View Profile WWW
May 29, 2018, 12:41:04 PM
 #4

python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами
ronaldinio (OP)
Newbie
*
Offline Offline

Activity: 26
Merit: 0


View Profile
May 30, 2018, 05:21:11 AM
 #5

Удобнее всего nodejs с модулем puppetteer.

Спасибо за наводку, поверхностно посмотрел, хорошая вещь. Но для начала надо подучить JavaScript, потом NodeJS и только потом puppetteer. Что ж, будем учить)
ronaldinio (OP)
Newbie
*
Offline Offline

Activity: 26
Merit: 0


View Profile
May 30, 2018, 05:32:58 AM
 #6

Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.

Любой, какой вы знаете. Ну и изучение языка программирования занимает некоторое время (от нескольких месяцев, лет, вся жизнь), возможно проще заказать парсер...

У меня для поверхностного изучения языка, чтобы уже начать писать что-то полезное, обычно уходит около месяца. Лучше подучу язык, сам напишу, тем более что возможно придется что-то постоянно дописывать, плюс получу полезный навык.
ronaldinio (OP)
Newbie
*
Offline Offline

Activity: 26
Merit: 0


View Profile
May 30, 2018, 06:12:31 AM
 #7

python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.
#Cryptoman
Member
**
Offline Offline

Activity: 980
Merit: 48


View Profile
May 30, 2018, 06:23:47 AM
 #8

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.

Что бы парсить форум, ни управление браузером, ни сам браузер не нужен...

https://indx.ru криптобиржа от вебмоней, не воруют, не требуют доказательств происхождения средств.
Skorpo
Newbie
*
Offline Offline

Activity: 87
Merit: 0


View Profile WWW
June 06, 2018, 04:31:16 PM
 #9

Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь
soniclord
Legendary
*
Offline Offline

Activity: 1134
Merit: 1002



View Profile
June 07, 2018, 03:34:31 AM
 #10

Если нужно по мелочи сделать - сделаю. Опыт в парсинге огромен.
#Cryptoman
Member
**
Offline Offline

Activity: 980
Merit: 48


View Profile
June 07, 2018, 04:24:02 PM
Last edit: June 07, 2018, 04:57:47 PM by #Cryptoman
 #11

Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь

Как-то делал сложный парсинг, это скан форума, с перекидыванием сообщений в другой форум, с сохранением бб тэгов и имен пользователей (префикс к именам добавлял). Более того, парсер отслеживал и свежие сообщения, и их тоже перекидывал.
Если задаться целью, можно спарсить и этот форум, в другой форум, будет полная копия. (это конечно сложно, но возможно)

Code:
загоняем в гугл - php query парсинг
Если с пхп знаком, научиться делать парсинг сайтов с несложной разметкой можно за один день.

Так же писал сканер книг, помнится было книг на жестком диске где-то на пол терабайта, сканер должен был по некоторым признакам найти автора книги, название книги, и обложку если есть, ну и если попался дубль, убрать его. Разметка была не одинаковой, была масса адаптаций сканера.

Парсить можно всё, включая сайты где автоподгрузка через аякс(например твиттер) запросы или "вебсокеты" (например вконтакте).

https://indx.ru криптобиржа от вебмоней, не воруют, не требуют доказательств происхождения средств.
Jaga-Jaga
Sr. Member
****
Offline Offline

Activity: 613
Merit: 256



View Profile
June 07, 2018, 07:54:33 PM
 #12

Может у кого есть опыт парсинга подобно этому форуму,  ибо сам форум далеко не совершенен для отслеживания нужной информации. Какой язык программирования можете порекомендовать для этих целей? Понятно дело что практически любой язык может это делать, но делать это быстро и удобно не всякий.
Парсить можно на любом языке, но выбирать лучше тот язык который используется в проекте чтобы сделать парсер модулем проекта. Если нужно для веб проекта то скорее всего вам больше подойдет PHP или Java.

           ▀██▄ ▄██▀
            ▐█████▌
           ▄███▀███▄
         ▄████▄  ▀███▄
       ▄███▀ ▀██▄  ▀███▄
     ▄███▀  ▄█████▄  ▀███▄
   ▄███▀  ▄███▀ ▀███▄  ▀███▄
  ███▀  ▄████▌   ▐████▄  ▀███
 ███   ██▀  ██▄ ▄██  ▀██   ███
███   ███  ███   ███  ███   ███
███   ███   ███████   ███   ███
 ███   ███▄▄       ▄▄███   ███
  ███▄   ▀▀█████████▀▀   ▄███
   ▀████▄▄           ▄▄████▀
      ▀▀███████████████▀▀
DeepOnion
███
███
███
███
███
███
███
███
███
███
   Anonymity Guaranteed
   Anonymous and Untraceable
   Guard Your Privacy
      ▄▄██████████▄▄
    ▄███▀▀      ▀▀█▀   ▄▄
   ███▀              ▄███
  ███              ▄███▀   ▄▄
 ███▌  ▄▄▄▄      ▄███▀   ▄███
▐███  ██████   ▄███▀   ▄███▀
███▌ ███  ███▄███▀   ▄███▀
███▌ ███   ████▀   ▄███▀
███▌  ███   █▀   ▄███▀  ███
▐███   ███     ▄███▀   ███
 ███▌   ███  ▄███▀     ███
  ███    ██████▀      ███
   ███▄             ▄███
    ▀███▄▄       ▄▄███▀
      ▀▀███████████▀▀
unixty
Jr. Member
*
Offline Offline

Activity: 168
Merit: 1

ImmVRse | Disrupting the VR industry


View Profile WWW
June 10, 2018, 11:16:49 PM
 #13

python фреймворки scrapy, grab. Но если вам просто мониторить пару веток то достаточно воспользоваться готовыми сервисами

Много слышал положительного о Питоне, не никогда не смотрел. Вот сейчас стоит делема JavaScript или Python ) Скорее всего JavaScript т.к. puppetteer заточен на управление браузером, соответственно можно автоматизировать кое-какие вещи, не знаю может ли Питон делать это так же хорошо.

Если нужна автоматизация, то для питона, да в принципе и для йавы есть selenium, недавно наткнулся, библиотека для тестеров, но возможна реализация автоматизации. Подскажите, если еще есть такого же рода библиотеки под пайтон, которыми удобнее пользоваться.

●  ❱❱  IMMVRSE | Disrupting the VR Industry  ❱❱  ●
Proud Sponsor of Blockchain 360 at London Tech Week
Joe1987
Jr. Member
*
Offline Offline

Activity: 175
Merit: 1


View Profile
June 11, 2018, 02:02:27 PM
 #14

Все кто тебе здесь ответил - первый раз слышат слово парсинг и тем более в этом не шарят
да и ты сам не шиша не шаришь раз так вопрос ставишь

Как-то делал сложный парсинг, это скан форума, с перекидыванием сообщений в другой форум, с сохранением бб тэгов и имен пользователей (префикс к именам добавлял). Более того, парсер отслеживал и свежие сообщения, и их тоже перекидывал.
Если задаться целью, можно спарсить и этот форум, в другой форум, будет полная копия. (это конечно сложно, но возможно)

Code:
загоняем в гугл - php query парсинг
Если с пхп знаком, научиться делать парсинг сайтов с несложной разметкой можно за один день.

Так же писал сканер книг, помнится было книг на жестком диске где-то на пол терабайта, сканер должен был по некоторым признакам найти автора книги, название книги, и обложку если есть, ну и если попался дубль, убрать его. Разметка была не одинаковой, была масса адаптаций сканера.

Парсить можно всё, включая сайты где автоподгрузка через аякс(например твиттер) запросы или "вебсокеты" (например вконтакте).
Тоже через пыху парсил. Работаю в конторе, которая парсит с ~6000 сайтов интернет-магазинов товары для последующей выгрузки в соц сети типа вк, ок и в файлы эксель, цсв
KsaAZaks
Newbie
*
Offline Offline

Activity: 219
Merit: 0


View Profile WWW
June 14, 2018, 12:47:16 PM
 #15

php или python. Вообще python для такой работы лучше всех подходит, но php легче в освоении
flashdix
Newbie
*
Offline Offline

Activity: 79
Merit: 0


View Profile
June 17, 2018, 07:23:23 AM
 #16

php или python. Вообще python для такой работы лучше всех подходит, но php легче в освоении
Питон легче в освоении на порядок Smiley.

Мой набор для парсинга на никсах:python beautifulsoap, wget, curl, grep. Можно вообще без питона, только баш и последние три программы.
aldorexxx
Jr. Member
*
Offline Offline

Activity: 152
Merit: 1


View Profile
June 18, 2018, 10:47:24 AM
 #17

Расскажите писал кто нибудь ботов для парсинга?
И если писали то на чем писали JavaScript?
kzv
Legendary
*
Offline Offline

Activity: 1722
Merit: 1285

OpenTrade - Open Source Cryptocurrency Exchange


View Profile WWW
June 18, 2018, 08:30:48 PM
 #18

Расскажите писал кто нибудь ботов для парсинга?
И если писали то на чем писали JavaScript?


А второе сообщение в топике прочитать не але?

OpenTrade - Open Source Cryptocurrency Exchange
Xtc
Legendary
*
Offline Offline

Activity: 1972
Merit: 1028


;u


View Profile WWW
June 19, 2018, 09:00:19 PM
 #19

Я не уверен что Cloudflare даст просто так парсить большие объемы
#Cryptoman
Member
**
Offline Offline

Activity: 980
Merit: 48


View Profile
June 20, 2018, 01:41:17 AM
 #20

Я не уверен что Cloudflare даст просто так парсить большие объемы

А кто запрещает вам использовать прокси сервера и эмуляторы браузера с поддержками кук?

https://indx.ru криптобиржа от вебмоней, не воруют, не требуют доказательств происхождения средств.
Pages: [1] 2 3 »  All
  Print  
 
Jump to:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.19 | SMF © 2006-2009, Simple Machines Valid XHTML 1.0! Valid CSS!